ajouts 21
This commit is contained in:
parent
8d3728642a
commit
b1e8ad23b0
2 changed files with 14 additions and 5 deletions
|
@ -92,7 +92,7 @@ La politique optimale sera $\pi^{\star}(s) = \argmax_{a}Q^{\star}(s,a)$. On met
|
|||
\item \textbf{Fonction d'exploration}: Maximiser $f(q,n) = Q(s,a)+n(s,a)$ où $n(s,a) = \frac{k}{n}$ est un bonus à l'exploration: $k$ est constant et $n$ est un compteur de visites sur l'état $s$.
|
||||
\item Action aléatoire pondérée: On choisit aléatoirement une action, mais en pondérant selon les valeurs de $Q$. Par exemple:
|
||||
\begin{align}
|
||||
P(a_i|s) = \frac{k^{\hat{Q}(s,a_i)}}{\sum_j \hat{Q}(s,a_j}
|
||||
P(a_i|s) = \frac{k^{\hat{Q}(s,a_i)}}{\sum_j k^{\hat{Q}(s,a_j)}}
|
||||
\end{align}
|
||||
Plus $k$ est grand, plus on favorise les valeurs de $Q$ élevées.
|
||||
|
||||
|
@ -103,9 +103,19 @@ La politique optimale sera $\pi^{\star}(s) = \argmax_{a}Q^{\star}(s,a)$. On met
|
|||
|
||||
Si le nombre de $Q$-valeurs est grand, on ne peut pas les emmagasiner. On voudra alors les approximer par une fonction. Par exemple, une fonction linéaire pondérée par un ensemble de caractéristiques.
|
||||
\begin{align}
|
||||
Q(s,a) &= \sum_{i=1}^n f_i(s,a)w_i
|
||||
Q(s,a) &= \sum_{i=1}^n w_if_i(s,a)
|
||||
\end{align}
|
||||
|
||||
On apprendra plutôt les valeurs des paramètres $w_i$.
|
||||
|
||||
La règle delta permet de mettre à jour les paramètres un peu sur le même principe que les réseaux de neurones.
|
||||
|
||||
\begin{align}
|
||||
\text{Erreur} &= \frac{1}{2}[Q(s,a)-(r+\gamma \max_{\alpha^{\prime}}Q(s^{\prime},a^{\prime}))]^2f_i(s,a)\\
|
||||
\frac{\partial \text{Erreur}}{\partial w_i} &= Q(s,a)-(r+\gamma \max_{\alpha^{\prime}}Q(s^{\prime},a^{\prime}))f_i(s,a)\\
|
||||
w_i &\leftarrow w_i - \alpha \frac{\partial \text{Erreur}}{\partial w_i}\\
|
||||
&\leftarrow w_i + \alpha (r+\gamma \max_{\alpha^{\prime}}Q(s^{\prime},a^{\prime})-Q(s,a))f_i(s,a)
|
||||
\end{align}
|
||||
On apprendra plutôt les valeurs des paramètres $w_i$
|
||||
|
||||
|
||||
|
||||
|
|
|
@ -110,9 +110,8 @@
|
|||
\include{chapitre17}
|
||||
\include{chapitre18}
|
||||
\include{chapitre20}
|
||||
\include{chapitre21}
|
||||
% Ajouter les autres chapitres au besoin
|
||||
|
||||
\bibliography{bibliographie}
|
||||
\end{document}
|
||||
|
||||
%%% Local Variables:
|
||||
|
|
Loading…
Add table
Reference in a new issue