ift7025-notes-de-cours/chapitre16.tex

114 lines
2.9 KiB
TeX
Raw Normal View History

2019-04-17 13:13:14 +00:00
\section{Chapitre 16: }
\label{sec:ch15}
\subsection{Théorie de la décision}
\label{sec:ch16theoriedecision}
\begin{itemize}
\item Utilité et probabilités
\item Décision selon croyance et objectif
\item Présence d'incertain et de buts conflictuels
\end{itemize}
Combiner l'objectif et l'incertitude:
\begin{itemize}
\item Chaque état a une utilisé.
\item Chaque action a une utilité espérée:
\begin{align}
E[U(a|e)] = \sum_{i}P(R(a)=s^{\prime}|a,e)U(s^{\prime})
\end{align}
\end{itemize}
L'agent rationnel choisit l'action qui maximise l'utilité espérée $\argmax_{a}E[U(a|e)]$.
\subsection{Théorie de l'utilité}
\label{sec:ch16theorieutilite}
Relations de préférence:
\begin{itemize}
\item A est préféré à B: $A \succ B$
\item A est indifférent de B: $A \sim B$
\item A est préféré ou indifférent de B: $A \succeq B$
\end{itemize}
Contraintes sur les préférences:
\begin{itemize}
\item Ordonnabilité: $ (A \succ B) \vee (B \succ A) \implies (A \sim B)$
\item Transitivité: $(A \succ B) \vee (B \succ C) \implies (A \sim C)$
\item Continuité: $A \succ B \succ C \implies \exists p, [p,A; 1-p,C] \sim B$
\item Substituabilité: $A \sim B \implies [p,A; 1-p,C] \sim [p,B; 1-p,C]$
\item Monotonie: $A \succ B \implies (p \geq q \iff [p,A; 1-p,B] \succeq [q,A; 1-q,B])$
\item Décomposabilité: $[p,A; 1-p,[q,B; 1-q,C]] \sim [p,A; (1-p)q,B;(1-p)(1-q),C]$
\end{itemize}
Principe d'utilité:
\begin{align}
&\exists U t.q. \\
U(A) &> U(B) \iff A \succ B\\
U(a) &= U(B) \iff A \sim B
\end{align}
\begin{mydef}
Une loterie $L$ se définit par $L(A,B)=[p,A;(1-p),B]$.
\end{mydef}
Utilité maximale espérée d'une loterie:
\begin{align}
U([p_1,S_1;\ldots;p_n,S_n]) = \sum_{i=1}^n p_iU(S_i)
\end{align}
Utilité de l'argent:
\begin{itemize}
\item Courbe linéaire: neutre au risque
\item Courbe logarithmique: aversion au risque
\end{itemize}
\subsection{Réseau de décision}
\label{sec:ch16reseaudecision}
On ajoute des noeuds d'actions et d'utilité aux réseaux bayesiens.
Un réseau de décision représente:
\begin{itemize}
\item L'état courant de l'agent
\item Les actions possibles
\item L'état résultant de son action
\item L'utilité de l'état résultant
\end{itemize}
\subsection{Recherche d'information}
\label{sec:ch16rechinfo}
Valeur de l'information: Différence entre la valeur espérée après l'information, moins la valeur avant l'information.
Valeur de la meilleure action $\alpha$ avant la nouvelle information:
\begin{align}
E[U(\alpha|e)]\max_{a}\sum_{i}U(R(a))P(R(a)|a,e)
\end{align}
Valeur de la meilleure action $\alpha_{e_j}$ après la nouvelle information:
\begin{align}
E[U(\alpha_{e_j}|e)]\max_{a}\sum_{i}U(R(a))P(R(a)|a,e,e_j)
\end{align}
On ne connait pas $e_j$, alors on somme sur les valeurs possibles:
\begin{align}
VPI_e(E_j)=\left(\sum_kP(E_j=e_{jk}|e)E[U(\alpha_{e_{jk}}|e,E_j=e_{jk})] \right)-E[U(\alpha|e)]
\end{align}
%%% Local Variables:
%%% mode: latex
%%% TeX-master: "notes_de_cours"
%%% End: