114 lines
No EOL
3 KiB
TeX
114 lines
No EOL
3 KiB
TeX
\section{Chapitre 16: Décision simple}
|
|
\label{sec:ch16}
|
|
|
|
\subsection{Théorie de la décision}
|
|
\label{sec:ch16theoriedecision}
|
|
|
|
\begin{itemize}
|
|
\item Utilité et probabilités
|
|
\item Décision selon croyance et objectif
|
|
\item Présence d'incertain et de buts conflictuels
|
|
\end{itemize}
|
|
|
|
Combiner l'objectif et l'incertitude:
|
|
|
|
\begin{itemize}
|
|
\item Chaque état a une utilisé.
|
|
\item Chaque action a une utilité espérée:
|
|
\begin{align}
|
|
E[U(a|e)] = \sum_{i}P(R(a)=s^{\prime}|a,e)U(s^{\prime})
|
|
\end{align}
|
|
\end{itemize}
|
|
|
|
L'agent rationnel choisit l'action qui maximise l'utilité espérée $\argmax_{a}E[U(a|e)]$.
|
|
|
|
\subsection{Théorie de l'utilité}
|
|
\label{sec:ch16theorieutilite}
|
|
|
|
Relations de préférence:
|
|
|
|
\begin{itemize}
|
|
\item A est préféré à B: $A \succ B$
|
|
\item A est indifférent de B: $A \sim B$
|
|
\item A est préféré ou indifférent de B: $A \succeq B$
|
|
\end{itemize}
|
|
|
|
Contraintes sur les préférences:
|
|
|
|
\begin{itemize}
|
|
\item Ordonnabilité: $ (A \succ B) \vee (B \succ A) \implies (A \sim B)$
|
|
\item Transitivité: $(A \succ B) \vee (B \succ C) \implies (A \sim C)$
|
|
\item Continuité: $A \succ B \succ C \implies \exists p, [p,A; 1-p,C] \sim B$
|
|
\item Substituabilité: $A \sim B \implies [p,A; 1-p,C] \sim [p,B; 1-p,C]$
|
|
\item Monotonie: $A \succ B \implies (p \geq q \iff [p,A; 1-p,B] \succeq [q,A; 1-q,B])$
|
|
\item Décomposabilité: $[p,A; 1-p,[q,B; 1-q,C]] \sim [p,A; (1-p)q,B;(1-p)(1-q),C]$
|
|
\end{itemize}
|
|
|
|
Principe d'utilité:
|
|
|
|
\begin{align}
|
|
&\exists U t.q. \\
|
|
U(A) &> U(B) \iff A \succ B\\
|
|
U(a) &= U(B) \iff A \sim B
|
|
\end{align}
|
|
|
|
\begin{mydef}
|
|
Une loterie $L$ se définit par $L(A,B)=[p,A;(1-p),B]$.
|
|
\end{mydef}
|
|
|
|
Utilité maximale espérée d'une loterie:
|
|
|
|
\begin{align}
|
|
U(\left[p_1,S_1;\ldots;p_n,S_n\right]) = \sum_{i=1}^n p_iU(S_i)
|
|
\end{align}
|
|
|
|
Utilité de l'argent:
|
|
|
|
\begin{itemize}
|
|
\item Courbe linéaire: neutre au risque
|
|
\item Courbe logarithmique: aversion au risque
|
|
\end{itemize}
|
|
|
|
|
|
\subsection{Réseau de décision}
|
|
\label{sec:ch16reseaudecision}
|
|
|
|
On ajoute des noeuds d'actions et d'utilité aux réseaux bayesiens.
|
|
|
|
Un réseau de décision représente:
|
|
\begin{itemize}
|
|
\item L'état courant de l'agent
|
|
\item Les actions possibles
|
|
\item L'état résultant de son action
|
|
\item L'utilité de l'état résultant
|
|
\end{itemize}
|
|
|
|
|
|
\subsection{Recherche d'information}
|
|
\label{sec:ch16rechinfo}
|
|
|
|
Valeur de l'information: Différence entre la valeur espérée après l'information, moins la valeur avant l'information.
|
|
|
|
Valeur de la meilleure action $\alpha$ avant la nouvelle information:
|
|
|
|
\begin{align}
|
|
E\left[U(\alpha|e)\right]\max_{a}\sum_{i}U(R(a))P(R(a)|a,e)
|
|
\end{align}
|
|
|
|
Valeur de la meilleure action $\alpha_{e_j}$ après la nouvelle information:
|
|
|
|
\begin{align}
|
|
E\left[U(\alpha_{e_j}|e)\right]\max_{a}\sum_{i}U(R(a))P(R(a)|a,e,e_j)
|
|
\end{align}
|
|
|
|
On ne connait pas $e_j$, alors on somme sur les valeurs possibles:
|
|
|
|
\begin{align}
|
|
VPI_e(E_j)=\left(\sum_kP(E_j=e_{jk}|e)E\left[U(\alpha_{e_{jk}}|e,E_j=e_{jk})\right] \right)-E\left[U(\alpha|e)\right]
|
|
\end{align}
|
|
|
|
|
|
%%% Local Variables:
|
|
%%% mode: latex
|
|
%%% TeX-master: "notes_de_cours"
|
|
%%% End: |