From b1e8ad23b09d917b5d8b7e27a5cef2f6f36660ae Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Fran=C3=A7ois=20Pelletier?= <francois@francoispelletier.org>
Date: Sat, 27 Apr 2019 13:27:17 -0400
Subject: [PATCH] ajouts 21

---
 chapitre21.tex     | 16 +++++++++++++---
 notes_de_cours.tex |  3 +--
 2 files changed, 14 insertions(+), 5 deletions(-)

diff --git a/chapitre21.tex b/chapitre21.tex
index ec79395..c0e3cde 100644
--- a/chapitre21.tex
+++ b/chapitre21.tex
@@ -92,7 +92,7 @@ La politique optimale sera $\pi^{\star}(s) = \argmax_{a}Q^{\star}(s,a)$. On met
 \item \textbf{Fonction d'exploration}: Maximiser $f(q,n) = Q(s,a)+n(s,a)$ où $n(s,a) = \frac{k}{n}$ est un bonus à l'exploration: $k$ est constant et $n$ est un compteur de visites sur l'état $s$.
 \item Action aléatoire pondérée: On choisit aléatoirement une action, mais en pondérant selon les valeurs de $Q$. Par exemple:
   \begin{align}
-    P(a_i|s) = \frac{k^{\hat{Q}(s,a_i)}}{\sum_j \hat{Q}(s,a_j}
+    P(a_i|s) = \frac{k^{\hat{Q}(s,a_i)}}{\sum_j k^{\hat{Q}(s,a_j)}}
   \end{align}
   Plus $k$ est grand, plus on favorise les valeurs de $Q$ élevées.
   
@@ -103,9 +103,19 @@ La politique optimale sera $\pi^{\star}(s) = \argmax_{a}Q^{\star}(s,a)$. On met
 
 Si le nombre de $Q$-valeurs est grand, on ne peut pas les emmagasiner. On voudra alors les approximer par une fonction. Par exemple, une fonction linéaire pondérée par un ensemble de caractéristiques.
 \begin{align}
-  Q(s,a) &= \sum_{i=1}^n f_i(s,a)w_i
+  Q(s,a) &= \sum_{i=1}^n w_if_i(s,a)
+\end{align}
+
+On apprendra plutôt les valeurs des paramètres $w_i$.
+
+La règle delta permet de mettre à jour les paramètres un peu sur le même principe que les réseaux de neurones.
+
+\begin{align}
+  \text{Erreur} &= \frac{1}{2}[Q(s,a)-(r+\gamma \max_{\alpha^{\prime}}Q(s^{\prime},a^{\prime}))]^2f_i(s,a)\\
+  \frac{\partial \text{Erreur}}{\partial w_i} &= Q(s,a)-(r+\gamma \max_{\alpha^{\prime}}Q(s^{\prime},a^{\prime}))f_i(s,a)\\
+  w_i &\leftarrow w_i - \alpha \frac{\partial \text{Erreur}}{\partial w_i}\\
+                &\leftarrow w_i + \alpha (r+\gamma \max_{\alpha^{\prime}}Q(s^{\prime},a^{\prime})-Q(s,a))f_i(s,a)
 \end{align}
-On apprendra plutôt les valeurs des paramètres $w_i$
 
 
 
diff --git a/notes_de_cours.tex b/notes_de_cours.tex
index fa8aa7e..a416133 100644
--- a/notes_de_cours.tex
+++ b/notes_de_cours.tex
@@ -110,9 +110,8 @@
 \include{chapitre17}
 \include{chapitre18}
 \include{chapitre20}
+\include{chapitre21}
 % Ajouter les autres chapitres au besoin
-
-\bibliography{bibliographie}
 \end{document}
 
 %%% Local Variables: