ift7025-notes-de-cours/chapitre16.tex

\section{Chapitre 16: Décision simple}
\label{sec:ch16}

\subsection{Théorie de la décision}
\label{sec:ch16theoriedecision}

\begin{itemize}
\item Utilité et probabilités
\item Décision selon croyance et objectif
\item Présence d'incertain et de buts conflictuels
\end{itemize}

Combiner l'objectif et l'incertitude:

\begin{itemize}
\item Chaque état a une utilisé.
\item Chaque action a une utilité espérée:
  \begin{align}
    E[U(a|e)] = \sum_{i}P(R(a)=s^{\prime}|a,e)U(s^{\prime})
  \end{align}
\end{itemize}

L'agent rationnel choisit l'action qui maximise l'utilité espérée $\argmax_{a}E[U(a|e)]$.

\subsection{Théorie de l'utilité}
\label{sec:ch16theorieutilite}

Relations de préférence:

\begin{itemize}
\item A est préféré à B: $A \succ B$
\item A est indifférent de B: $A \sim B$
\item A est préféré ou indifférent de B: $A \succeq B$
\end{itemize}

Contraintes sur les préférences:

\begin{itemize}
\item Ordonnabilité: $ (A \succ B) \vee (B \succ A) \implies (A \sim B)$
\item Transitivité: $(A \succ B) \vee (B \succ C) \implies (A \sim C)$
\item Continuité: $A \succ B \succ C \implies \exists p, [p,A; 1-p,C] \sim B$
\item Substituabilité: $A \sim B \implies [p,A; 1-p,C] \sim [p,B; 1-p,C]$
\item Monotonie: $A \succ B \implies (p \geq q \iff [p,A; 1-p,B] \succeq [q,A; 1-q,B])$
\item Décomposabilité: $[p,A; 1-p,[q,B; 1-q,C]] \sim [p,A; (1-p)q,B;(1-p)(1-q),C]$
\end{itemize}

Principe d'utilité:

\begin{align}
  &\exists U t.q. \\
  U(A) &> U(B) \iff A \succ B\\
  U(a) &= U(B) \iff A \sim B
\end{align}

\begin{mydef}
  Une loterie $L$ se définit par $L(A,B)=[p,A;(1-p),B]$.
\end{mydef}

Utilité maximale espérée d'une loterie:

\begin{align}
  U(\left[p_1,S_1;\ldots;p_n,S_n\right]) = \sum_{i=1}^n p_iU(S_i)
\end{align}

Utilité de l'argent:

\begin{itemize}
\item Courbe linéaire: neutre au risque
\item Courbe logarithmique: aversion au risque
\end{itemize}


\subsection{Réseau de décision}
\label{sec:ch16reseaudecision}

On ajoute des noeuds d'actions et d'utilité aux réseaux bayesiens.

Un réseau de décision représente:
\begin{itemize}
\item L'état courant de l'agent
\item Les actions possibles
\item L'état résultant de son action
\item L'utilité de l'état résultant
\end{itemize}


\subsection{Recherche d'information}
\label{sec:ch16rechinfo}

Valeur de l'information: Différence entre la valeur espérée après l'information, moins la valeur avant l'information.

Valeur de la meilleure action $\alpha$ avant la nouvelle information:

\begin{align}
  E\left[U(\alpha|e)\right]\max_{a}\sum_{i}U(R(a))P(R(a)|a,e)
\end{align}

Valeur de la meilleure action $\alpha_{e_j}$ après la nouvelle information:

\begin{align}
  E\left[U(\alpha_{e_j}|e)\right]\max_{a}\sum_{i}U(R(a))P(R(a)|a,e,e_j)
\end{align}

On ne connait pas $e_j$, alors on somme sur les valeurs possibles:

\begin{align}
  VPI_e(E_j)=\left(\sum_kP(E_j=e_{jk}|e)E\left[U(\alpha_{e_{jk}}|e,E_j=e_{jk})\right] \right)-E\left[U(\alpha|e)\right]
\end{align}


%%% Local Variables:
%%% mode: latex
%%% TeX-master: "notes_de_cours"
%%% End:
ajout chapitre 17 2019-04-18 00:36:25 +00:00			`\section{Chapitre 16: Décision simple}`
			`\label{sec:ch16}`
ajout chapitre 16 2019-04-17 13:13:14 +00:00
			`\subsection{Théorie de la décision}`
			`\label{sec:ch16theoriedecision}`

			`\begin{itemize}`
			`\item Utilité et probabilités`
			`\item Décision selon croyance et objectif`
			`\item Présence d'incertain et de buts conflictuels`
			`\end{itemize}`

			`Combiner l'objectif et l'incertitude:`

			`\begin{itemize}`
			`\item Chaque état a une utilisé.`
			`\item Chaque action a une utilité espérée:`
			`\begin{align}`
			`E[U(a\|e)] = \sum_{i}P(R(a)=s^{\prime}\|a,e)U(s^{\prime})`
			`\end{align}`
			`\end{itemize}`

			`L'agent rationnel choisit l'action qui maximise l'utilité espérée $\argmax_{a}E[U(a\|e)]$.`

			`\subsection{Théorie de l'utilité}`
			`\label{sec:ch16theorieutilite}`

			`Relations de préférence:`

			`\begin{itemize}`
			`\item A est préféré à B: $A \succ B$`
			`\item A est indifférent de B: $A \sim B$`
			`\item A est préféré ou indifférent de B: $A \succeq B$`
			`\end{itemize}`

			`Contraintes sur les préférences:`

			`\begin{itemize}`
			`\item Ordonnabilité: $ (A \succ B) \vee (B \succ A) \implies (A \sim B)$`
			`\item Transitivité: $(A \succ B) \vee (B \succ C) \implies (A \sim C)$`
			`\item Continuité: $A \succ B \succ C \implies \exists p, [p,A; 1-p,C] \sim B$`
			`\item Substituabilité: $A \sim B \implies [p,A; 1-p,C] \sim [p,B; 1-p,C]$`
			`\item Monotonie: $A \succ B \implies (p \geq q \iff [p,A; 1-p,B] \succeq [q,A; 1-q,B])$`
			`\item Décomposabilité: $[p,A; 1-p,[q,B; 1-q,C]] \sim [p,A; (1-p)q,B;(1-p)(1-q),C]$`
			`\end{itemize}`

			`Principe d'utilité:`

			`\begin{align}`
			`&\exists U t.q. \\`
			`U(A) &> U(B) \iff A \succ B\\`
			`U(a) &= U(B) \iff A \sim B`
			`\end{align}`

			`\begin{mydef}`
			`Une loterie $L$ se définit par $L(A,B)=[p,A;(1-p),B]$.`
			`\end{mydef}`

			`Utilité maximale espérée d'une loterie:`

			`\begin{align}`
ajout chapitre 17 2019-04-18 00:36:25 +00:00			`U(\left[p_1,S_1;\ldots;p_n,S_n\right]) = \sum_{i=1}^n p_iU(S_i)`
ajout chapitre 16 2019-04-17 13:13:14 +00:00			`\end{align}`

			`Utilité de l'argent:`

			`\begin{itemize}`
			`\item Courbe linéaire: neutre au risque`
			`\item Courbe logarithmique: aversion au risque`
			`\end{itemize}`


			`\subsection{Réseau de décision}`
			`\label{sec:ch16reseaudecision}`

			`On ajoute des noeuds d'actions et d'utilité aux réseaux bayesiens.`

			`Un réseau de décision représente:`
			`\begin{itemize}`
			`\item L'état courant de l'agent`
			`\item Les actions possibles`
			`\item L'état résultant de son action`
			`\item L'utilité de l'état résultant`
			`\end{itemize}`


			`\subsection{Recherche d'information}`
			`\label{sec:ch16rechinfo}`

			`Valeur de l'information: Différence entre la valeur espérée après l'information, moins la valeur avant l'information.`

			`Valeur de la meilleure action $\alpha$ avant la nouvelle information:`

			`\begin{align}`
ajout chapitre 17 2019-04-18 00:36:25 +00:00			`E\left[U(\alpha\|e)\right]\max_{a}\sum_{i}U(R(a))P(R(a)\|a,e)`
ajout chapitre 16 2019-04-17 13:13:14 +00:00			`\end{align}`

			`Valeur de la meilleure action $\alpha_{e_j}$ après la nouvelle information:`

			`\begin{align}`
ajout chapitre 17 2019-04-18 00:36:25 +00:00			`E\left[U(\alpha_{e_j}\|e)\right]\max_{a}\sum_{i}U(R(a))P(R(a)\|a,e,e_j)`
ajout chapitre 16 2019-04-17 13:13:14 +00:00			`\end{align}`

			`On ne connait pas $e_j$, alors on somme sur les valeurs possibles:`

			`\begin{align}`
ajout chapitre 17 2019-04-18 00:36:25 +00:00			`VPI_e(E_j)=\left(\sum_kP(E_j=e_{jk}\|e)E\left[U(\alpha_{e_{jk}}\|e,E_j=e_{jk})\right] \right)-E\left[U(\alpha\|e)\right]`
ajout chapitre 16 2019-04-17 13:13:14 +00:00			`\end{align}`


			`%%% Local Variables:`
			`%%% mode: latex`
			`%%% TeX-master: "notes_de_cours"`
			`%%% End:`