ajout chapitre 20 jusqu'à EM
This commit is contained in:
parent
a5548f0a7e
commit
16260d41e5
3 changed files with 108 additions and 0 deletions
1
.gitignore
vendored
1
.gitignore
vendored
|
@ -220,3 +220,4 @@ TSWLatexianTemp*
|
|||
.Rproj.user
|
||||
.Rhistory
|
||||
*.Rproj
|
||||
*.*~
|
||||
|
|
106
chapitre20.tex
Normal file
106
chapitre20.tex
Normal file
|
@ -0,0 +1,106 @@
|
|||
\section{Chapitre 20: Apprentissage de modèles probabilistes}
|
||||
\label{sec:ch20}
|
||||
|
||||
\subsection{Apprentissage bayesien}
|
||||
\label{sec:ch20apprbayesien}
|
||||
|
||||
Forme d'apprentissage: mise à jour de la distribution de probabilités de l'espace des hypothèses.
|
||||
|
||||
\begin{align}
|
||||
P(h_i|\mathbf{d}) &= \underbrace{\alpha P(\mathbf{d} \mid h_i)}_{vraisemblance}\underbrace{P(h_i)}_{a priori}\\
|
||||
P(X|\mathbf{d}) &= \sum_iP(X|\mathbf{d},h_i)P(h_i|\mathbf{d})\\
|
||||
&=\sum_iP(X|h_i)P(h_i|\mathbf{d})
|
||||
\end{align}
|
||||
|
||||
\subsection{Apprentissage du maximum a posteriori et de la vraisemblance}
|
||||
\label{sec:ch20maximumvrai}
|
||||
|
||||
Choisir $h_{MAP}$ maximisant $P(h_i|\mathbf{d})$:
|
||||
|
||||
\begin{align}
|
||||
h_{MAP} &= \argmax_{h_i}P(\mathbf{d}|h_i)P(h_i)\\
|
||||
&= \argmax_{h_i} \log P(\mathbf{d}|h_i) + \log P(h_i)
|
||||
\end{align}
|
||||
|
||||
C'est la base de l'apprentissage à longueur de description minimale. Pour de grand ensembles de données, l'hypothèse à priori n'est pas pertinente. On utilise alors l'apprentissage par maximum de vraisemblance. On choisit $h_{ML}$ qui maximise $P(\mathbf{d}|h_i)$.
|
||||
|
||||
\subsection{Apprentissage des réseaux bayesiens}
|
||||
\label{sec:ch20reseaux}
|
||||
|
||||
On cherche une proportion $\theta$ d'éléments dans un ensemble de taille $N$ où $F=1$. L'hypothèse figure parmi un continuum d'hypothèses représenté par une distribution binomiale. On décompte $x$ exemples où $F=1$.
|
||||
|
||||
\begin{align}
|
||||
P(\mathbf{d}|h_{\theta}) &= \prod_{j=1}^NP(d_j|h_\theta)\\
|
||||
&= \theta^x(1-\theta)^{N-x}
|
||||
\end{align}
|
||||
|
||||
Maximiser cette probabilité est plus facile en passant par le logarithme:
|
||||
|
||||
\begin{align}
|
||||
L(\mathbf{d}|h_{\theta}) &= \log P(\mathbf{d}|h_{\theta})\\
|
||||
&= \sum {j=1}^N \log P(d_j|h_\theta)\\
|
||||
&= x \log \theta + (N-x) \log (1-\theta)\\
|
||||
\frac{\partial L(\mathbf{d}|h_{\theta})}{\partial \theta} &= \frac{x}{\theta}-\frac{N-x}{1-\theta} = 0\\
|
||||
\Rightarrow \theta &= \frac{x}{x+N-x} = \frac{x}{N}
|
||||
\end{align}
|
||||
|
||||
Si on ajoute une autre variable $W$ qui dépend de la première variable $F$, on ajoute par exemple les paramètres $\theta_1$ et $\theta_2$ pour $P(W|F=0)$ et $P(W|F=1)$. La vraisemblance devient:
|
||||
\begin{align}
|
||||
P(F=1,W=0|h_{\theta,\theta_1,\theta_2}) &= P(F=1|h_{\theta,\theta_1,\theta_2})P(W=0|F=1,h_{\theta,\theta_1,\theta_2}) \\
|
||||
&= \theta (1-\theta_1)
|
||||
\end{align}
|
||||
|
||||
On a N éléments où $x_y$ valent $F=1,W=1$, $x_{\not y}$ valent $F=1,W=0$, $\not x_y$ valent $F=0,W=1$, $\not x_{\not y}$ valent $F=0,W=0$.
|
||||
|
||||
\begin{align}
|
||||
P(\mathbf{d}|h_{\theta,\theta_1,\theta_2}) &= \theta^x(1-\theta)^{N-x}\theta_1^{x_y}(1-\theta_1)^{\not x_y}\theta_2^{x_{not_y}}(1-\theta_2)^{\not x_{\not y}}\\
|
||||
L (\mathbf{d}|h_{\theta,\theta_1,\theta_2}) &= x \log \theta + (N-x) \log (1-\theta)\\
|
||||
&+ x_y \log \theta_1 + \not x_y \log (1-\theta_1)\\
|
||||
&+ x_{\not_y} \log \theta_2 + \not x_{\not y} (1-\theta_2)
|
||||
\end{align}
|
||||
|
||||
En utilisant des données complètes, le problème de l'apprentissage par vraisemblance des paramètres pour un réseau bayesien se décompose en un problème séparé pour chaque paramètre.
|
||||
|
||||
\subsection{Modèle de Bayes Naif}
|
||||
\label{sec:ch20bayesnaif}
|
||||
|
||||
\begin{itemize}
|
||||
\item Modèle simple qui fonctionne bien dans de nombreuses situations.
|
||||
\item Assume l'indépendance conditionnelle des attributs par rapport à la valeur.
|
||||
\item On évalue les probabilités depuis les exemples d'apprentissage, puis on multiplue les probabilités conditionnelles pour chacunes des valeurs de la variable réponse.
|
||||
\item On choisit la variable réponse avec le plus grande probabilité.
|
||||
\end{itemize}
|
||||
|
||||
\begin{align}
|
||||
v = \argmax_{v_j \in V}P(v_j)\prod_{i}P(X_i|v_j)
|
||||
\end{align}
|
||||
|
||||
\subsection{Modèles continus}
|
||||
\label{sec:ch20modelescont}
|
||||
|
||||
Hypothèses:
|
||||
|
||||
\begin{itemize}
|
||||
\item Lignes droites avec un bruit gaussien.
|
||||
\item On choisit les paramètres $\theta = (a,b)$ qui maximisent la vraisemblance.
|
||||
\item Les exemples dont indépendants et identiquement distribués
|
||||
\end{itemize}
|
||||
|
||||
\begin{align}
|
||||
P(d_j|h_i) &= \alpha \exp (-\frac{y_j-(ax_j+b)^2}{2\sigma^2})\\
|
||||
L(d_j|h_i) &= -\alpha^{\prime}\sum_j (y_j-(ax_j+b))^2\\
|
||||
\frac{\partial L}{\partial a} &= -\alpha^{\prime} \sum_j 2(y_j-(ax_j+b))(-x_j)=0\\
|
||||
\frac{\partial L}{\partial b} &= -\alpha^{\prime} \sum_j 2(y_j-(ax_j+b))(-1)=0\\
|
||||
\end{align}
|
||||
|
||||
On résous pour les paramètres $a$ et $b$:
|
||||
|
||||
\begin{align}
|
||||
a &= \frac{\sum_j x_j \sum_j y_j - N\sum_j x_jy_j}{(\sum_j x_j)^2 - N \sum_j x_j^2}\\
|
||||
b &= \frac{1}{N}(\sum_j y_j - a \sum_j x_j)
|
||||
\end{align}
|
||||
|
||||
\subsection{Apprentissage avec variables cachées (EM)}
|
||||
\label{sec:ch20em}
|
||||
|
||||
|
|
@ -109,6 +109,7 @@
|
|||
\include{chapitre16}
|
||||
\include{chapitre17}
|
||||
\include{chapitre18}
|
||||
\include{chapitre20}
|
||||
% Ajouter les autres chapitres au besoin
|
||||
|
||||
\bibliography{bibliographie}
|
||||
|
|
Loading…
Add table
Reference in a new issue