ajouts 21

This commit is contained in:
François Pelletier 2019-04-27 13:27:17 -04:00
parent 8d3728642a
commit b1e8ad23b0
2 changed files with 14 additions and 5 deletions

View file

@ -92,7 +92,7 @@ La politique optimale sera $\pi^{\star}(s) = \argmax_{a}Q^{\star}(s,a)$. On met
\item \textbf{Fonction d'exploration}: Maximiser $f(q,n) = Q(s,a)+n(s,a)$$n(s,a) = \frac{k}{n}$ est un bonus à l'exploration: $k$ est constant et $n$ est un compteur de visites sur l'état $s$.
\item Action aléatoire pondérée: On choisit aléatoirement une action, mais en pondérant selon les valeurs de $Q$. Par exemple:
\begin{align}
P(a_i|s) = \frac{k^{\hat{Q}(s,a_i)}}{\sum_j \hat{Q}(s,a_j}
P(a_i|s) = \frac{k^{\hat{Q}(s,a_i)}}{\sum_j k^{\hat{Q}(s,a_j)}}
\end{align}
Plus $k$ est grand, plus on favorise les valeurs de $Q$ élevées.
@ -103,9 +103,19 @@ La politique optimale sera $\pi^{\star}(s) = \argmax_{a}Q^{\star}(s,a)$. On met
Si le nombre de $Q$-valeurs est grand, on ne peut pas les emmagasiner. On voudra alors les approximer par une fonction. Par exemple, une fonction linéaire pondérée par un ensemble de caractéristiques.
\begin{align}
Q(s,a) &= \sum_{i=1}^n f_i(s,a)w_i
Q(s,a) &= \sum_{i=1}^n w_if_i(s,a)
\end{align}
On apprendra plutôt les valeurs des paramètres $w_i$.
La règle delta permet de mettre à jour les paramètres un peu sur le même principe que les réseaux de neurones.
\begin{align}
\text{Erreur} &= \frac{1}{2}[Q(s,a)-(r+\gamma \max_{\alpha^{\prime}}Q(s^{\prime},a^{\prime}))]^2f_i(s,a)\\
\frac{\partial \text{Erreur}}{\partial w_i} &= Q(s,a)-(r+\gamma \max_{\alpha^{\prime}}Q(s^{\prime},a^{\prime}))f_i(s,a)\\
w_i &\leftarrow w_i - \alpha \frac{\partial \text{Erreur}}{\partial w_i}\\
&\leftarrow w_i + \alpha (r+\gamma \max_{\alpha^{\prime}}Q(s^{\prime},a^{\prime})-Q(s,a))f_i(s,a)
\end{align}
On apprendra plutôt les valeurs des paramètres $w_i$

View file

@ -110,9 +110,8 @@
\include{chapitre17}
\include{chapitre18}
\include{chapitre20}
\include{chapitre21}
% Ajouter les autres chapitres au besoin
\bibliography{bibliographie}
\end{document}
%%% Local Variables: