\pi^{\star}&\equiv\argmax_{\pi}V^{\pi}(s), \forall s
\end{align}
\end{itemize}
\subsection{Programmation dynamique adaptative}
\label{sec:ch21estdirecte}
La politique est fixe. L'agent découvre l'utilité espérée pour chacun des états. Cette méthode converge lentement, car elle ne considère par l'interaction entre les états. Ceci équivaut aux équations de Bellman pour une politique fixée.
On calcule le modèle de transition à partir des traces effectueés.
\item\textbf{Epsilon-Greedy}: Prend la meilleur action avec probabilité $1-\epsilon$ et une action aléatoire avec probabilité $\epsilon$.
\item\textbf{Fonction d'exploration}: Maximiser $f(q,n)= Q(s,a)+n(s,a)$ où $n(s,a)=\frac{k}{n}$ est un bonus à l'exploration: $k$ est constant et $n$ est un compteur de visites sur l'état $s$.
\item Action aléatoire pondérée: On choisit aléatoirement une action, mais en pondérant selon les valeurs de $Q$. Par exemple:
Plus $k$ est grand, plus on favorise les valeurs de $Q$ élevées.
\end{itemize}
\subsubsection{Fonction d'approximation}
\label{sec:ch21approx}
Si le nombre de $Q$-valeurs est grand, on ne peut pas les emmagasiner. On voudra alors les approximer par une fonction. Par exemple, une fonction linéaire pondérée par un ensemble de caractéristiques.