From b1e8ad23b09d917b5d8b7e27a5cef2f6f36660ae Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Fran=C3=A7ois=20Pelletier?= Date: Sat, 27 Apr 2019 13:27:17 -0400 Subject: [PATCH] ajouts 21 --- chapitre21.tex | 16 +++++++++++++--- notes_de_cours.tex | 3 +-- 2 files changed, 14 insertions(+), 5 deletions(-) diff --git a/chapitre21.tex b/chapitre21.tex index ec79395..c0e3cde 100644 --- a/chapitre21.tex +++ b/chapitre21.tex @@ -92,7 +92,7 @@ La politique optimale sera $\pi^{\star}(s) = \argmax_{a}Q^{\star}(s,a)$. On met \item \textbf{Fonction d'exploration}: Maximiser $f(q,n) = Q(s,a)+n(s,a)$ où $n(s,a) = \frac{k}{n}$ est un bonus à l'exploration: $k$ est constant et $n$ est un compteur de visites sur l'état $s$. \item Action aléatoire pondérée: On choisit aléatoirement une action, mais en pondérant selon les valeurs de $Q$. Par exemple: \begin{align} - P(a_i|s) = \frac{k^{\hat{Q}(s,a_i)}}{\sum_j \hat{Q}(s,a_j} + P(a_i|s) = \frac{k^{\hat{Q}(s,a_i)}}{\sum_j k^{\hat{Q}(s,a_j)}} \end{align} Plus $k$ est grand, plus on favorise les valeurs de $Q$ élevées. @@ -103,9 +103,19 @@ La politique optimale sera $\pi^{\star}(s) = \argmax_{a}Q^{\star}(s,a)$. On met Si le nombre de $Q$-valeurs est grand, on ne peut pas les emmagasiner. On voudra alors les approximer par une fonction. Par exemple, une fonction linéaire pondérée par un ensemble de caractéristiques. \begin{align} - Q(s,a) &= \sum_{i=1}^n f_i(s,a)w_i + Q(s,a) &= \sum_{i=1}^n w_if_i(s,a) +\end{align} + +On apprendra plutôt les valeurs des paramètres $w_i$. + +La règle delta permet de mettre à jour les paramètres un peu sur le même principe que les réseaux de neurones. + +\begin{align} + \text{Erreur} &= \frac{1}{2}[Q(s,a)-(r+\gamma \max_{\alpha^{\prime}}Q(s^{\prime},a^{\prime}))]^2f_i(s,a)\\ + \frac{\partial \text{Erreur}}{\partial w_i} &= Q(s,a)-(r+\gamma \max_{\alpha^{\prime}}Q(s^{\prime},a^{\prime}))f_i(s,a)\\ + w_i &\leftarrow w_i - \alpha \frac{\partial \text{Erreur}}{\partial w_i}\\ + &\leftarrow w_i + \alpha (r+\gamma \max_{\alpha^{\prime}}Q(s^{\prime},a^{\prime})-Q(s,a))f_i(s,a) \end{align} -On apprendra plutôt les valeurs des paramètres $w_i$ diff --git a/notes_de_cours.tex b/notes_de_cours.tex index fa8aa7e..a416133 100644 --- a/notes_de_cours.tex +++ b/notes_de_cours.tex @@ -110,9 +110,8 @@ \include{chapitre17} \include{chapitre18} \include{chapitre20} +\include{chapitre21} % Ajouter les autres chapitres au besoin - -\bibliography{bibliographie} \end{document} %%% Local Variables: