\item Chaque branche représente une valeur possible résultant du test.
\item Une feuille représente une prise de décision.
\item Les instances sont représentées par des paires (attributs, valeur).
\item Les valeurs peuvent être continues ou discrètes.
\end{itemize}
La fonction
\begin{itemize}
\item La fonction est généralement binaire, mais on peut la généraliser à plusieurs valeurs de sortie ou à une valeur continue. Les problèmes de classification sont les plus fréquents.
\item Les arbres de décisions sont robustes aux erreurs et aux valeurs manquantes.
\item Toute fonction booléenne est représentable par un arbre de décision.
\end{itemize}
\subsubsection{Algorithme}
\label{sec:ch18arbrealgo}
\begin{itemize}
\item Construction de haut en bas.
\item Chaque valeur possible de l'attribut choisi crée un noeud.
\end{itemize}
\subsubsection{Entropie}
\label{sec:ch18entropie}
L'entropie de Shannon est définie comme la somme pondérée de l'information de Shannon:
\begin{align}
H(x) &= \sum_{i=1}^np_i\log_2{\frac{1}{p_i}}\\
\end{align}
Propriétés de l'entropie:
\begin{itemize}
\item$H(X)\geq0$ et $H(X)=0\iff\exists i, p_i=1$
\item$H(X)\leq\log_2(n)$ et $H(X)=\log_2(n)\iff\forall i p_i=\frac{1}{n}$
\end{itemize}
\subsubsection{Choix de l'attribut}
\label{sec:ch18choixattr}
\begin{itemize}
\item Choisir l'attribut ayant le meilleur gain d'information:
\item Générer l'hypothèse H sur l'ensemble de validation
\item Mesurer l'hypothèse H sur l'ensemble de test
\end{itemize}
\subsubsection{Élagage de l'arbre}
\label{sec:ch18elagage}
Un noeud devient une feuille avec la valeur de classification la plus fréquente.
Cette étape se fait si elle améliore la performance sur l'ensemble de validation.
\subsubsection{Valeurs manquantes}
\label{sec:ch18valmanq}
S'il y a des valeurs manquantes dans le jeu d'entrainement, on peut:
\begin{itemize}
\item Donner la valeur moyenne de cet attribut. Le calcul de l'information de change pas.
\item Attribuer une probabilité pour la valeur manquante, On a maintenant des fractions d'exemples dans nos calculs.
\end{itemize}
\subsubsection{Attributs multivariés}
\label{sec:ch18multivar}
Si on a des attributs qui ont plusieurs valeursm on peut avoir un problème avec la fonction de gain d'information, car chaque attribut peut être unique. On se retrouve donc avec un arbre horizontal de profondeur 1. Au lieu d'utiliser le gain d'information, on utilise la ratio de gain d'information, ce qui pénalise ces attributs.
On apprened plusieurs hypothèses et on combine leurs prédictions.
\begin{itemize}
\item\textbf{Vote par majorité}. La prédiction \textbf{la plus fréquente} est retournée.
\item\textbf{Boosting}. On attribue un poids à chacun des exemples. Plus un exemple a un poids important, plus il sera considéré par l'algorithme d'apprentissage. On augmente le poids des exemples mal classés et diminue celui de ceux bien classés. On calcule la \textbf{majorité pondérée} par la performance sur l'ensemble d'entrainement.
Le seul paramètre est le nombre de voisins à considérer. On a un échantillon d'exemples et de classes. Pour un nouvel exemple, on calcul la distances avec chaque exemple de l'échantillon. On choisit les $k$ plus proches et on effectue un vote de majorité de la classe.
\item La fonction d'entrée est une somme pondérée $\sum_{i=0}^nw_ix_i$.
\item Un perceptron peut donc représenter toutes les fonctions linéairement séparables. Ex: OR et AND le sont, mais XOR ne l'est pas.
\item Dans ces deux premiers cas, la fonction d'activation $a_i=1, \sum_{i=1}^nw_ix_i>0; -1, sinon$. On change $w_0$ pour avoir le comportement désiré.
\end{itemize}
Règle d'apprentissage:
On débute avec des valeurs de poids aléatoires
Puis on mets les poids à jour pour chaque exemple.
\begin{align}
w_i \leftarrow w_i + \eta(t-o)x_i
\end{align}
On peut aussi le faire après une première passe sur tous les exemples:
Problèmes à deux classes linéairement séparables. Plusieurs solutions possibles pour la surface de décision. On veut aloir la surface la plus éloignée possible des données proches de chaque classe.
\subsubsection{Hyperplans}
\label{sec:ch18hyperplans}
La distance d'un point à l'hyperplan est:
\begin{align}
\frac{\abs{D(x)}}{\norm{w}}\text{ où } D(x) = w^Tx+b
\end{align}
On définit le vecteur unité par la distance minimale entre les points et l'hyperplan:
\begin{align}
\min_{i=1,\ldots,m}\abs{w^tx+i+b}=1
\end{align}
Le point le plus proche est maintenant à une distance $\frac{1}{\norm{w}}$. Le classificateur est donnée par le signe de $D(x)$ en nombre de vecteurs unités. La marge maximale est donc de $m=\frac{2}{\norm{w}}$.
On doit donc minimiser:
\begin{align}
\min\frac{1}{2}\norm{w}^2 \text{ s.c. }y_i(w^Tx_i+b) \geq 1 \forall i
\end{align}
On a donc une problème d'optimisation quadratique. On peut résoudre par les méthodes classiques si $d$ n'est pas trop grand. L'approche SVM utilise plutôt les multiplicateurs de Lagrange.
\subsubsection{Lagrangien}
\label{sec:ch18lagrangien}
\begin{mydef}
Pour un problème d'optimisation
\begin{align}
\min f(x) \text{ s.c. } c_i(x) \leq 0, \forall i
\end{align}
Le lagrangien est défini par
\begin{align}
\Lambda(x,\alpha)=f(x)+\sum_{i=1}^n\alpha_ic_i(x), \alpha_i \geq 0, \forall i
\end{align}
\end{mydef}
\subsubsection{Représentation duale}
\label{fig:ch18svmduale}
Représentation duale du problème:
\begin{align}
\Lambda(w,b,\alpha) &= \frac{1}{2}\norm{w}^2-\sum_{i=1}^n \alpha_i\left[(x_i^Tw+b)y_i-1 \right], \\alpha_i &\geq 0, \forall i
\end{align}
On a, par les conditions KKT, que $\nabla_{w,b}\Lambda(w,b,a=0\iff w=\sum_{i=1}^n\alpha_iy_yx_i$ et $\sum_{i=1}^n\alpha_iy_i=0$. Par substitution, on obtient que
On peut projeter les $x_i$ dans un nouvel espace où ils sont linéairement séparables. On utilise alors une fonction de re-description $\Phi(x)$. Afin de résoudre les problèmes de dimensionnalité, on utilise les fonctions noyau.
\begin{mydef}
Une \textbf{fonction noyau} prend la forme
\begin{align}
K(x,y) = \langle\phi(x),\phi(y) \rangle
\end{align}
Cette fonction doit répondre aux conditions de Mercer pour que $\Phi(x)$ existe.
\end{mydef}
\begin{mydef}
La condition de Mercer énonce que, pour une fonction $K$ symétrique, $\Phi$ existe tel que: