ajout chapitre 16
This commit is contained in:
parent
061bf5581c
commit
0a00e83e7f
4 changed files with 123 additions and 1 deletions
|
@ -98,7 +98,14 @@ $m_{1:t}(i)$ est la probabilité du chemin le plus probable jusqu'à l'état $i$
|
|||
\subsection{Modèles de Markov cachés}
|
||||
\label{sec:ch15hiddenmarkov}
|
||||
|
||||
Représentation des probabilités sous la forme de matrice de transition.
|
||||
Représentation des probabilités du modèle d'observation sous la forme de matrice de transition. On ne considère que le cas observé, donc la matrice est diagonale et les valeurs prennent $P(e_t|X_t=i)$ ou $0$. LLes calculs de filtrage et d'information a posteriori deviennent de simples opérations de base sur des matrices et des vecteurs.
|
||||
|
||||
\begin{itemize}
|
||||
\item Forward: $f_{1:t+1}=\alpha O_{t+1}T^Tf_{1:t}$
|
||||
\item Backward: $b_{k+1:1}=T O_{k+1}b_{k+2:t}$
|
||||
\end{itemize}
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
|
|
114
chapitre16.tex
Normal file
114
chapitre16.tex
Normal file
|
@ -0,0 +1,114 @@
|
|||
\section{Chapitre 16: }
|
||||
\label{sec:ch15}
|
||||
|
||||
\subsection{Théorie de la décision}
|
||||
\label{sec:ch16theoriedecision}
|
||||
|
||||
\begin{itemize}
|
||||
\item Utilité et probabilités
|
||||
\item Décision selon croyance et objectif
|
||||
\item Présence d'incertain et de buts conflictuels
|
||||
\end{itemize}
|
||||
|
||||
Combiner l'objectif et l'incertitude:
|
||||
|
||||
\begin{itemize}
|
||||
\item Chaque état a une utilisé.
|
||||
\item Chaque action a une utilité espérée:
|
||||
\begin{align}
|
||||
E[U(a|e)] = \sum_{i}P(R(a)=s^{\prime}|a,e)U(s^{\prime})
|
||||
\end{align}
|
||||
\end{itemize}
|
||||
|
||||
L'agent rationnel choisit l'action qui maximise l'utilité espérée $\argmax_{a}E[U(a|e)]$.
|
||||
|
||||
\subsection{Théorie de l'utilité}
|
||||
\label{sec:ch16theorieutilite}
|
||||
|
||||
Relations de préférence:
|
||||
|
||||
\begin{itemize}
|
||||
\item A est préféré à B: $A \succ B$
|
||||
\item A est indifférent de B: $A \sim B$
|
||||
\item A est préféré ou indifférent de B: $A \succeq B$
|
||||
\end{itemize}
|
||||
|
||||
Contraintes sur les préférences:
|
||||
|
||||
\begin{itemize}
|
||||
\item Ordonnabilité: $ (A \succ B) \vee (B \succ A) \implies (A \sim B)$
|
||||
\item Transitivité: $(A \succ B) \vee (B \succ C) \implies (A \sim C)$
|
||||
\item Continuité: $A \succ B \succ C \implies \exists p, [p,A; 1-p,C] \sim B$
|
||||
\item Substituabilité: $A \sim B \implies [p,A; 1-p,C] \sim [p,B; 1-p,C]$
|
||||
\item Monotonie: $A \succ B \implies (p \geq q \iff [p,A; 1-p,B] \succeq [q,A; 1-q,B])$
|
||||
\item Décomposabilité: $[p,A; 1-p,[q,B; 1-q,C]] \sim [p,A; (1-p)q,B;(1-p)(1-q),C]$
|
||||
\end{itemize}
|
||||
|
||||
Principe d'utilité:
|
||||
|
||||
\begin{align}
|
||||
&\exists U t.q. \\
|
||||
U(A) &> U(B) \iff A \succ B\\
|
||||
U(a) &= U(B) \iff A \sim B
|
||||
\end{align}
|
||||
|
||||
\begin{mydef}
|
||||
Une loterie $L$ se définit par $L(A,B)=[p,A;(1-p),B]$.
|
||||
\end{mydef}
|
||||
|
||||
Utilité maximale espérée d'une loterie:
|
||||
|
||||
\begin{align}
|
||||
U([p_1,S_1;\ldots;p_n,S_n]) = \sum_{i=1}^n p_iU(S_i)
|
||||
\end{align}
|
||||
|
||||
Utilité de l'argent:
|
||||
|
||||
\begin{itemize}
|
||||
\item Courbe linéaire: neutre au risque
|
||||
\item Courbe logarithmique: aversion au risque
|
||||
\end{itemize}
|
||||
|
||||
|
||||
\subsection{Réseau de décision}
|
||||
\label{sec:ch16reseaudecision}
|
||||
|
||||
On ajoute des noeuds d'actions et d'utilité aux réseaux bayesiens.
|
||||
|
||||
Un réseau de décision représente:
|
||||
\begin{itemize}
|
||||
\item L'état courant de l'agent
|
||||
\item Les actions possibles
|
||||
\item L'état résultant de son action
|
||||
\item L'utilité de l'état résultant
|
||||
\end{itemize}
|
||||
|
||||
|
||||
\subsection{Recherche d'information}
|
||||
\label{sec:ch16rechinfo}
|
||||
|
||||
Valeur de l'information: Différence entre la valeur espérée après l'information, moins la valeur avant l'information.
|
||||
|
||||
Valeur de la meilleure action $\alpha$ avant la nouvelle information:
|
||||
|
||||
\begin{align}
|
||||
E[U(\alpha|e)]\max_{a}\sum_{i}U(R(a))P(R(a)|a,e)
|
||||
\end{align}
|
||||
|
||||
Valeur de la meilleure action $\alpha_{e_j}$ après la nouvelle information:
|
||||
|
||||
\begin{align}
|
||||
E[U(\alpha_{e_j}|e)]\max_{a}\sum_{i}U(R(a))P(R(a)|a,e,e_j)
|
||||
\end{align}
|
||||
|
||||
On ne connait pas $e_j$, alors on somme sur les valeurs possibles:
|
||||
|
||||
\begin{align}
|
||||
VPI_e(E_j)=\left(\sum_kP(E_j=e_{jk}|e)E[U(\alpha_{e_{jk}}|e,E_j=e_{jk})] \right)-E[U(\alpha|e)]
|
||||
\end{align}
|
||||
|
||||
|
||||
%%% Local Variables:
|
||||
%%% mode: latex
|
||||
%%% TeX-master: "notes_de_cours"
|
||||
%%% End:
|
|
@ -104,6 +104,7 @@
|
|||
\include{chapitre13}
|
||||
\include{chapitre14}
|
||||
\include{chapitre15}
|
||||
\include{chapitre16}
|
||||
% Ajouter les autres chapitres au besoin
|
||||
|
||||
\bibliography{bibliographie}
|
||||
|
|
BIN
umbrella.png
Normal file
BIN
umbrella.png
Normal file
Binary file not shown.
After Width: | Height: | Size: 26 KiB |
Loading…
Reference in a new issue