ift7025-notes-de-cours/chapitre17.tex

\section{Chapitre 17: Décision complexe}
\label{sec:ch17}

\subsection{Modèle de transition de Markov}
\label{sec:ch17modele}

\begin{mydef}
  La probabilité d'atteindre l'état $s\prime$ depuis l'état $s$ en effectuant l'action $a$ est $T(s,a,s\prime)$.
\end{mydef}

À chaque état, l'agent reçoit une récompense R(s) qui peut être négative. La récompense peut aussi être définie sur une transition $R(s,a,s\prime)$ ou sur le choix d'une action depuis l'état $s$: $R(s,a)$

L'utilité d'une suite d'états est la somme escomptée des récompenses reçues.

\begin{mydef}
  Un processus de décision de Markov (MDP) est un problème de décision séquentielle dans un environnmeent entièrement observable, avec un modèle de transition de Markov et des récompenses additives.
\end{mydef}

Il a:
\begin{itemize}
\item Un état initial: $S_0$
\item Un modèle de transition: $T(s,a,s\prime)$
\item Une fonction de récompense $R(s)$
\item Un facteur d'escompte $\gamma \in [0,1]$
\end{itemize}

\begin{mydef}
  Une politique $\pi$ est un ensemble d'actions $\pi(s)$ à faire dans chaque état $s$. La politique optimale $\pi^{\star}$ est celle qui a l'utilité espérée maximale.
\end{mydef}

Pour un horizon fini, la politique optimale est non-stationnaire. Pour un horizon infini, elle est stationnaire.

Assignation d'utilité: $U_h([s_0,s_1,\ldots]) = R(s_0)+\gamma R(s_1)+\gamma^2R(S_2)+\ldots$. L'agent préfère les récompenses immédiates. Si l'horizon est infini, la récompense escomptée est la plus intéressante.

\subsection{Itération de la valeur}
\label{sec:ch17iteravaleur}

L'utilité d'un état est égal à l'utilité espérée des séquences d'états qui peuvent le suivre. Ces séquences dépendent de la politique exécutée:

\begin{align}
  U^{\pi}(s)=E\left[\sum_{t=0}^{\infty}\gamma^tR(s_t)|\pi,s_0=s\right]
\end{align}

L'agent choisit rationnellement l'action avec l'utilité espérée la plus élevée:

\begin{align}
  \pi^{\star}(s) = \argmax_{a}\sum_{s^\prime}T(s,a,s\prime)U(s^\prime)
\end{align}

Équation de Bellman:
\begin{align}
  U(s)=R(s)+\gamma \max_a\sum_{s^{\prime}}T(s,a,s^{\prime})U(s^{\prime})
\end{align}

Algorithme d'itération de la valeur:

\begin{itemize}
\item Il y a une équation de Bellman pour chaque état.
\item On doit les résoudre simultanément, mais elles ne sont pas linéaires.
\item On utilise une méthode itérative et on arrête lorsqu'on atteint l'équilibre.
\end{itemize}

\begin{align}
  U_{i+1}(s) \leftarrow R(s)+\gamma \max_a\sum_{s^{\prime}}T(s,a,s^{\prime})U_{i}(s^{\prime})
\end{align}

\subsection{Itération de la politique}
\label{sec:ch17iterpol}

Alterner jusqu'à convergence entre:

\begin{itemize}
\item Évaluation de la politique
  \begin{align}
    U_i=U^{\pi_i}
  \end{align}

\item Amélioration de la politique
  \begin{align}
    \pi_{i+1}(s)=\argmax_{a}\sum_{s^{\prime}}T(s,a,s^{\prime})U_{i}(s^{\prime}
  \end{align}
\end{itemize}

\subsubsection{Évaluation de la politique}
\label{sec:ch17eval}

L'évaluation de la politique se fait à l'aide d'une version plus simple des équations de Bellman où on n'a pas l'opérateur $\max$ puisque l'on connait la politique. Il en résulte donc un système d'équations linéaires.

\begin{align}
  U_{i}(s) \leftarrow R(s) + \gamma \sum_{s^{\prime}}T(s,\pi_i(s),s^{\prime})U(s^{\prime})
\end{align}

\subsubsection{Itération de la politique modifiée}
\label{sec:ch17iterpolitmod}

Si le nombre d'états est trop grand, on utilise une version simplifiée de la mise à jour des équations de Bellman
\begin{align}
  U_{i+1}(s) \leftarrow R(s) + \gamma \sum_{s^{\prime}}T(s,\pi_i(s),s^{\prime})U_{i}(s^{\prime})
\end{align}

\subsection{Processus de Markov partiellement observable (POMDP)}
\label{sec:ch17pomdp}

On ajoute un modèle d'observation $O(s,o)$ qui spécifie la probabilité de percevoir $o$ dans l'état $s$. La croyance $b$ est une distribution de probabilités sur tous les états possibles $b(s)$.

Mise à jour:
\begin{align}
  b^\prime(s^\prime)& P(s^\prime|b,a,o) = \alpha P(s^{\prime},b,a,o)\\
                    &=\alpha P(o|s^{\prime},b,a)P(s^{\prime}|b,a)P(b,a)\\
                    &=\alpha^{\prime} P(o|s^{\prime}) \sum_sP (s^{\prime}|a,s)b(s)\\
                    &=\alpha^{\prime} O(s^{\prime},o) \sum_s T(s,a,s^{\prime})b(s)
\end{align}

La politique optimale est $\pi^{\star}(b)$ et ne dépent pas de l'état courant, parce que l'agent ne le connait pas.

Décisions dans un POMDP:
\begin{itemize}
\item Exécuter l'action $a=\pi^{\star}(b)$
\item Percevoir $o$
\item Mettre à jour l'état de croyance:
  \begin{align}
    b^\prime(s^\prime) = \alpha O(s^{\prime},o) \sum_s T(s,a,s^{\prime})b(s)
  \end{align}
\end{itemize}

On peut obtenir un MDP si on considère l'état de croyance comme un état et qu'on crée un modèle de transition sur cet espace des croyances. L'espace est maintenant continu par contre, ce qui rend ces problèmes très difficiles à résoudre.

La fonction de récompense devient $\rho(b)=\sum_sb(s)R(s)$. Une politique optimale pour ce MDP est optimale pour le POMDP.

\subsection{Réseau de décision dynamique}
\label{sec:ch17reseaudyn}

Les modèles de transition et d'observation sont représentés par un réseau bayesien dynamique. On ajoute des noeuds de décision et d'utilité. Un algorithme de filtrage intègre les nouvelles observations et nouvelles actions et met à jour l'état de croyances. Les décisions sont prises par projection des meilleures séquences d'actions.


%%% Local Variables:
%%% mode: latex
%%% TeX-master: "notes_de_cours"
%%% End: