\section{Chapitre 16: Décision simple} \label{sec:ch16} \subsection{Théorie de la décision} \label{sec:ch16theoriedecision} \begin{itemize} \item Utilité et probabilités \item Décision selon croyance et objectif \item Présence d'incertain et de buts conflictuels \end{itemize} Combiner l'objectif et l'incertitude: \begin{itemize} \item Chaque état a une utilisé. \item Chaque action a une utilité espérée: \begin{align} E[U(a|e)] = \sum_{i}P(R(a)=s^{\prime}|a,e)U(s^{\prime}) \end{align} \end{itemize} L'agent rationnel choisit l'action qui maximise l'utilité espérée $\argmax_{a}E[U(a|e)]$. \subsection{Théorie de l'utilité} \label{sec:ch16theorieutilite} Relations de préférence: \begin{itemize} \item A est préféré à B: $A \succ B$ \item A est indifférent de B: $A \sim B$ \item A est préféré ou indifférent de B: $A \succeq B$ \end{itemize} Contraintes sur les préférences: \begin{itemize} \item Ordonnabilité: $ (A \succ B) \vee (B \succ A) \implies (A \sim B)$ \item Transitivité: $(A \succ B) \vee (B \succ C) \implies (A \sim C)$ \item Continuité: $A \succ B \succ C \implies \exists p, [p,A; 1-p,C] \sim B$ \item Substituabilité: $A \sim B \implies [p,A; 1-p,C] \sim [p,B; 1-p,C]$ \item Monotonie: $A \succ B \implies (p \geq q \iff [p,A; 1-p,B] \succeq [q,A; 1-q,B])$ \item Décomposabilité: $[p,A; 1-p,[q,B; 1-q,C]] \sim [p,A; (1-p)q,B;(1-p)(1-q),C]$ \end{itemize} Principe d'utilité: \begin{align} &\exists U t.q. \\ U(A) &> U(B) \iff A \succ B\\ U(a) &= U(B) \iff A \sim B \end{align} \begin{mydef} Une loterie $L$ se définit par $L(A,B)=[p,A;(1-p),B]$. \end{mydef} Utilité maximale espérée d'une loterie: \begin{align} U(\left[p_1,S_1;\ldots;p_n,S_n\right]) = \sum_{i=1}^n p_iU(S_i) \end{align} Utilité de l'argent: \begin{itemize} \item Courbe linéaire: neutre au risque \item Courbe logarithmique: aversion au risque \end{itemize} \subsection{Réseau de décision} \label{sec:ch16reseaudecision} On ajoute des noeuds d'actions et d'utilité aux réseaux bayesiens. Un réseau de décision représente: \begin{itemize} \item L'état courant de l'agent \item Les actions possibles \item L'état résultant de son action \item L'utilité de l'état résultant \end{itemize} \subsection{Recherche d'information} \label{sec:ch16rechinfo} Valeur de l'information: Différence entre la valeur espérée après l'information, moins la valeur avant l'information. Valeur de la meilleure action $\alpha$ avant la nouvelle information: \begin{align} E\left[U(\alpha|e)\right]\max_{a}\sum_{i}U(R(a))P(R(a)|a,e) \end{align} Valeur de la meilleure action $\alpha_{e_j}$ après la nouvelle information: \begin{align} E\left[U(\alpha_{e_j}|e)\right]\max_{a}\sum_{i}U(R(a))P(R(a)|a,e,e_j) \end{align} On ne connait pas $e_j$, alors on somme sur les valeurs possibles: \begin{align} VPI_e(E_j)=\left(\sum_kP(E_j=e_{jk}|e)E\left[U(\alpha_{e_{jk}}|e,E_j=e_{jk})\right] \right)-E\left[U(\alpha|e)\right] \end{align} %%% Local Variables: %%% mode: latex %%% TeX-master: "notes_de_cours" %%% End: