C'est la base de l'apprentissage à longueur de description minimale. Pour de grand ensembles de données, l'hypothèse à priori n'est pas pertinente. On utilise alors l'apprentissage par maximum de vraisemblance. On choisit $h_{ML}$ qui maximise $P(\mathbf{d}|h_i)$.
\subsection{Apprentissage des réseaux bayesiens}
\label{sec:ch20reseaux}
On cherche une proportion $\theta$ d'éléments dans un ensemble de taille $N$ où $F=1$. L'hypothèse figure parmi un continuum d'hypothèses représenté par une distribution binomiale. On décompte $x$ exemples où $F=1$.
Si on ajoute une autre variable $W$ qui dépend de la première variable $F$, on ajoute par exemple les paramètres $\theta_1$ et $\theta_2$ pour $P(W|F=0)$ et $P(W|F=1)$. La vraisemblance devient:
En utilisant des données complètes, le problème de l'apprentissage par vraisemblance des paramètres pour un réseau bayesien se décompose en un problème séparé pour chaque paramètre.
\subsection{Modèle de Bayes Naif}
\label{sec:ch20bayesnaif}
\begin{itemize}
\item Modèle simple qui fonctionne bien dans de nombreuses situations.
\item Assume l'indépendance conditionnelle des attributs par rapport à la valeur.
\item On évalue les probabilités depuis les exemples d'apprentissage, puis on multiplue les probabilités conditionnelles pour chacunes des valeurs de la variable réponse.
\item On choisit la variable réponse avec le plus grande probabilité.
\end{itemize}
\begin{align}
v = \argmax_{v_j \in V}P(v_j)\prod_{i}P(X_i|v_j)
\end{align}
\subsection{Modèles continus}
\label{sec:ch20modelescont}
Hypothèses:
\begin{itemize}
\item Lignes droites avec un bruit gaussien.
\item On choisit les paramètres $\theta=(a,b)$ qui maximisent la vraisemblance.
\item Les exemples dont indépendants et identiquement distribués
Les variables cachées peuvent réduire énormément le nombre de paramètres pour spécifier un réseau bayesien. Ce qui réduit d'autant la quantité de données nécessaire pour l'apprentissage de ceux-ci.
L'algorithme d'\textbf{espérance-maximisation} est une méthode itérative en deux étapes:
\begin{itemize}
\item Espérance: Calculer l'espérance des valeurs des variables cachées
\item Maximisation: Trouver de nouvelles valeurs des paramètres qui maximisent la valeur de log-vraisemblance des données, considérant les valeur espérées des valeurs cachées.
\end{itemize}
La forme générale s'écrit comme suit ($\mathbf{x}$:observé exemples, $Z$: variables cachées, $\theta$: paramètres du modèle):