ift7025-notes-de-cours/chapitre14.tex

\section{Chapitre 14: Raisonnement probabiliste}
\label{sec:ch14}

\subsection{Réseaux bayesiens}
\label{sec:ch14reseauxbayesiens}

\begin{mydef}
  Un \textbf{réseau bayesien} est un graphe orienté acyclique. Chaque noeud possède une distribution de probabilités conditionnelle $P(X_i|\mathtt{Parents}(X_i))$.
\end{mydef}

La table de probabilités conditionnelle d'une variable booléenne avec $k$ parents booléens possède $2^k$ rangées.

\begin{table}[ht]
  \centering
  \begin{tabular}[ht]{c|c|c}
    Parent 1&Parent k&P(X)\\
    T&T&$p_{X|TT}$\\
    F&T&$p_{X|FT}$\\
    T&F&$p_{X|TF}$\\
    F&F&$p_{X|FF}$\\
  \end{tabular}
  \caption{Exemple avec 2 parents}
\end{table}

\begin{itemize}
\item Complexité: $O(n(2^k))$, au lieu de $O(2^n)$ pour la table conjointe complète.
\item Sémantique globale: Distribution conjointe complète de probabilités:
  \begin{align}
    P(X_1,\ldots,X_n)=\prod_{i=1}^nP(X_i|\mathtt{Parents}(X_i))
  \end{align}
\item Construction: Ordonner les variables (tri topologique), sélectionner les parents et définir la table de probabilités. Un modèle causal est préférable, la racine est la cause principale.
\item Sémantique locale: Chaque noeud $X$ est 
  \begin{itemize}
  \item conditionnellement indépendant de ses non-descendants étant donné ses parents.
  \item indépendant des autres sachant sa couverture de Markov $MB(X)$ (parents+enfants+parents des enfants). Pour $B$ qui n'est pas dans $MB(X)$, $P(X|MB(X),B)=P(X|MB(X)))$
  \end{itemize}
\end{itemize}

\paragraph{Distribution canonique}

\begin{itemize}
\item Noeuds déterministes: définis exactement par les valeurs de leurs parents ou relation numérique entre des variables continues
\item Noisy-OR: Relations incertaines. Une relation causale entre parent et enfant peut être inhibée. La teble entière peut être spécifiée avec une probabilité d'inhibition par cause. $P(\neg \mathtt{Effet}|\mathtt{Cause}_1,\neg \mathtt{Cause}_2,\neg \mathtt{Cause}_3)=p_{1,0,0}$. Le nombre de probabilités à définir est linéaire $O(k)$
\end{itemize}

\paragraph{Variables continues}

\begin{itemize}
\item Discrétisation
\item Densité de probabilités:
  \begin{itemize}
  \item Variable continue avec parents continus $s$ et discrets $h$
    \begin{itemize}
    \item Pour le parent discret $h$, on énumère les valeurs possibles
    \item Pour la variable continue, on spécifie une fonction de distribution conditionnelle. La plus utilisée est la fonction linéaire gaussienne:
      \begin{align}
        P(c|h,s)N(a_th+b_t,\sigma_t^2)(c)=\frac{1}{\sigma_t\sqrt{2\pi}}\exp\left(-\frac{1}{2}\left(\frac{c-(a_th+b_t)}{\sigma_t} \right)^2 \right)
      \end{align}

    \end{itemize}
  \item Variable discrète avec parents continus:
    \begin{itemize}
    \item Fonction logit ou probit
    \end{itemize}
  \end{itemize}
\end{itemize}

\subsection{Inférence exacte}
\label{sec:ch14inferenceexacte}

\begin{itemize}
\item Inférence par énumération
  \begin{align}
    P(X|e)&=\alpha P(x \wedge e)\\
          &=\alpha \sum_{y}P(X,e,y)
  \end{align}
\item Inférence par élimination de variables
  \begin{itemize}
  \item On effectue la somme de la droite vers la gauche et on garde les probabilités calculées en mémoire. On effecture un produit point par point des vecteurs de probabilités.
  \item Variable inutile: $Y$ est inutile sauf si $Y \in Ancetres(\lbrace X \rbrace \cup E)$
  \end{itemize}
\end{itemize}

\subsection{Inférence approximative}
\label{sec:ch14inferenceapprox}

\begin{itemize}
\item Échantillonnage direct: Générer des évènements sans variable d'évidence
\item Échantillonnage par rejet: Enlever les échantillons où les variables d'évidence n'ont pas la bonne valeur. Estimer la probabilité avec les échantillons restants
\item Pondération par vraisemblance:
  \begin{itemize}
  \item Fixer les variables d'évidence
  \item Échantillonner sur les autres variables
  \item Attribuer un poids aux échantillons selon la probabilité de l'évènement selon l'évidence
  \end{itemize}
\item Markov Chain Monte Carlo (MCMC)
  \begin{itemize}
  \item Changement aléatoire dans l'évènement précédent
  \item Gibbs: Choisir une variable qui n'est pas une variable d'évidence
  \item La distribution dépend de sa couverture de Markov. On échantillonne les variables une à une et on conserve tous les états. On calcule ensuite les probabilités avec ces états.
  \end{itemize}
\end{itemize}


%%% Local Variables:
%%% mode: latex
%%% TeX-master: "notes_de_cours"
%%% End:
compléter chapitre 13 et 14 2019-03-01 02:48:16 +00:00			`\section{Chapitre 14: Raisonnement probabiliste}`
			`\label{sec:ch14}`

			`\subsection{Réseaux bayesiens}`
			`\label{sec:ch14reseauxbayesiens}`

			`\begin{mydef}`
			`Un \textbf{réseau bayesien} est un graphe orienté acyclique. Chaque noeud possède une distribution de probabilités conditionnelle $P(X_i\|\mathtt{Parents}(X_i))$.`
			`\end{mydef}`

			`La table de probabilités conditionnelle d'une variable booléenne avec $k$ parents booléens possède $2^k$ rangées.`

			`\begin{table}[ht]`
			`\centering`
			`\begin{tabular}[ht]{c\|c\|c}`
			`Parent 1&Parent k&P(X)\\`
			`T&T&$p_{X\|TT}$\\`
			`F&T&$p_{X\|FT}$\\`
			`T&F&$p_{X\|TF}$\\`
			`F&F&$p_{X\|FF}$\\`
			`\end{tabular}`
			`\caption{Exemple avec 2 parents}`
			`\end{table}`

			`\begin{itemize}`
			`\item Complexité: $O(n(2^k))$, au lieu de $O(2^n)$ pour la table conjointe complète.`
			`\item Sémantique globale: Distribution conjointe complète de probabilités:`
			`\begin{align}`
			`P(X_1,\ldots,X_n)=\prod_{i=1}^nP(X_i\|\mathtt{Parents}(X_i))`
			`\end{align}`
			`\item Construction: Ordonner les variables (tri topologique), sélectionner les parents et définir la table de probabilités. Un modèle causal est préférable, la racine est la cause principale.`
			`\item Sémantique locale: Chaque noeud $X$ est`
			`\begin{itemize}`
			`\item conditionnellement indépendant de ses non-descendants étant donné ses parents.`
			`\item indépendant des autres sachant sa couverture de Markov $MB(X)$ (parents+enfants+parents des enfants). Pour $B$ qui n'est pas dans $MB(X)$, $P(X\|MB(X),B)=P(X\|MB(X)))$`
			`\end{itemize}`
			`\end{itemize}`

			`\paragraph{Distribution canonique}`

			`\begin{itemize}`
			`\item Noeuds déterministes: définis exactement par les valeurs de leurs parents ou relation numérique entre des variables continues`
			`\item Noisy-OR: Relations incertaines. Une relation causale entre parent et enfant peut être inhibée. La teble entière peut être spécifiée avec une probabilité d'inhibition par cause. $P(\neg \mathtt{Effet}\|\mathtt{Cause}_1,\neg \mathtt{Cause}_2,\neg \mathtt{Cause}_3)=p_{1,0,0}$. Le nombre de probabilités à définir est linéaire $O(k)$`
			`\end{itemize}`

			`\paragraph{Variables continues}`

			`\begin{itemize}`
			`\item Discrétisation`
			`\item Densité de probabilités:`
			`\begin{itemize}`
			`\item Variable continue avec parents continus $s$ et discrets $h$`
			`\begin{itemize}`
			`\item Pour le parent discret $h$, on énumère les valeurs possibles`
			`\item Pour la variable continue, on spécifie une fonction de distribution conditionnelle. La plus utilisée est la fonction linéaire gaussienne:`
			`\begin{align}`
			`P(c\|h,s)N(a_th+b_t,\sigma_t^2)(c)=\frac{1}{\sigma_t\sqrt{2\pi}}\exp\left(-\frac{1}{2}\left(\frac{c-(a_th+b_t)}{\sigma_t} \right)^2 \right)`
			`\end{align}`

			`\end{itemize}`
			`\item Variable discrète avec parents continus:`
			`\begin{itemize}`
			`\item Fonction logit ou probit`
			`\end{itemize}`
			`\end{itemize}`
			`\end{itemize}`

			`\subsection{Inférence exacte}`
			`\label{sec:ch14inferenceexacte}`

			`\begin{itemize}`
			`\item Inférence par énumération`
			`\begin{align}`
			`P(X\|e)&=\alpha P(x \wedge e)\\`
			`&=\alpha \sum_{y}P(X,e,y)`
			`\end{align}`
			`\item Inférence par élimination de variables`
			`\begin{itemize}`
			`\item On effectue la somme de la droite vers la gauche et on garde les probabilités calculées en mémoire. On effecture un produit point par point des vecteurs de probabilités.`
			`\item Variable inutile: $Y$ est inutile sauf si $Y \in Ancetres(\lbrace X \rbrace \cup E)$`
			`\end{itemize}`
			`\end{itemize}`

			`\subsection{Inférence approximative}`
			`\label{sec:ch14inferenceapprox}`

			`\begin{itemize}`
			`\item Échantillonnage direct: Générer des évènements sans variable d'évidence`
			`\item Échantillonnage par rejet: Enlever les échantillons où les variables d'évidence n'ont pas la bonne valeur. Estimer la probabilité avec les échantillons restants`
			`\item Pondération par vraisemblance:`
			`\begin{itemize}`
			`\item Fixer les variables d'évidence`
			`\item Échantillonner sur les autres variables`
			`\item Attribuer un poids aux échantillons selon la probabilité de l'évènement selon l'évidence`
			`\end{itemize}`
			`\item Markov Chain Monte Carlo (MCMC)`
			`\begin{itemize}`
			`\item Changement aléatoire dans l'évènement précédent`
			`\item Gibbs: Choisir une variable qui n'est pas une variable d'évidence`
			`\item La distribution dépend de sa couverture de Markov. On échantillonne les variables une à une et on conserve tous les états. On calcule ensuite les probabilités avec ces états.`
			`\end{itemize}`
			`\end{itemize}`


			`%%% Local Variables:`
			`%%% mode: latex`
			`%%% TeX-master: "notes_de_cours"`
			`%%% End:`