ift7025-projet/Code/DecisionTree.py

# -*- coding: utf-8 -*-
"""
Vous allez definir une classe pour chaque algorithme que vous allez développer,
votre classe doit contenit au moins les 3 methodes definies ici bas, 
    * train     : pour entrainer le modèle sur l'ensemble d'entrainement
    * predict     : pour prédire la classe d'un exemple donné
    * test         : pour tester sur l'ensemble de test
vous pouvez rajouter d'autres méthodes qui peuvent vous etre utiles, mais moi
je vais avoir besoin de tester les méthodes train, predict et test de votre code.
"""

import numpy as np
import metrics
import time

# le nom de votre classe
# NeuralNet pour le modèle Réseaux de Neurones
# DecisionTree le modèle des arbres de decision

class DecisionTree: #nom de la class à changer

    def __init__(self, attribute_type, **kwargs):
        """
        c'est un Initializer. 
        Vous pouvez passer d'autre paramètres au besoin,
        c'est à vous d'utiliser vos propres notations
        """
        self.tree=[]
        self.attribute_type=attribute_type
        
    def plurality_value(self,train_labels):
        values,_,counts = np.unique(train_labels,return_index=True, return_counts=True)
        return values[np.argmax(counts)]
        
    def importance(self,train, train_labels, attribute):
        #Entropie Avant
        _,_,counts = np.unique(train_labels,return_index=True, return_counts=True)
        total_count = sum(counts)
        entropie_total = -sum(counts/total_count * np.log2(counts/total_count))
        #print("Entropie Total:"+str(entropie_total))
        
        if (self.attribute_type=="continuous"):
            #Trouver split
            attribute_sort_order = np.argsort(train[:,attribute])
            sorted_labels = train_labels[attribute_sort_order]
            lags = np.hstack((np.array([False]),sorted_labels[:-1] != sorted_labels[1:]))
            lags2 = np.hstack((np.array([False]),lags))[:-1]
            potential_splits = 0.5*train[attribute_sort_order,attribute][lags]+0.5*train[attribute_sort_order,attribute][lags2]
            if (len(potential_splits)==0):
                potential_splits = np.array([np.median(train[attribute_sort_order,attribute])])
            #print("Potential Split:"+str(potential_splits))
            split_gain = []
            for v in potential_splits:
                split_labels_1 = train_labels[train[:,attribute] <= v]
                split_labels_2 = train_labels[train[:,attribute] > v]
                _,_,counts1 = np.unique(split_labels_1,return_index=True, return_counts=True)
                total_count1 = sum(counts1)
                entropie_total1 = -sum(counts1/total_count1 * np.log2(counts1/total_count1))
                _,_,counts2 = np.unique(split_labels_2,return_index=True, return_counts=True)
                total_count2 = sum(counts2)
                entropie_total2 = -sum(counts2/total_count2 * np.log2(counts2/total_count2))
                split_gain.append(entropie_total-(total_count1/total_count*entropie_total1+total_count2/total_count*entropie_total2))
            #Valeur unique attribut
            #print("Split Gain:"+str(split_gain))
            best_split = potential_splits[np.argmax(split_gain)]
            best_gain = max(split_gain)
            return best_gain,best_split
        if (self.attribute_type=="discrete"):
            _,counts1 = np.unique(train[:,attribute], return_counts=True)
            total_count1 = sum(counts1)
            entropie_total1 = -sum(counts1/total_count1 * np.log2(counts1/total_count1))
            gain = entropie_total - entropie_total1
            return gain,None
        
    
    def decision_tree_learning(self,train, train_labels, attributes, parent_examples):
        n_examples,n_attributes = train.shape
        classes_uniques = np.unique(train_labels)
        # la feuille est vide
        if (n_examples == 0):
            l1 = []
            l1.append(("Feuille",self.plurality_value(parent_examples)))
            return list(l1)
        # tous les exemples ont la même classe
        elif len(classes_uniques)==1:
            l1 = []
            l1.append(("Feuille",classes_uniques[0]))
            return l1
        # la liste d'attributs est vides
        elif (sum(attributes)==0):
            l1 = []
            l1.append(("Feuille",self.plurality_value(train_labels)))
            return l1
        else:
            # Calcul du gain
            attr = np.where(attributes==1)[0]
            a_gain = []
            a_split = []
            for a in attr:
                gain, split = self.importance(train, train_labels, a)
                a_gain.append(gain)
                a_split.append(split)
                
            # Calcul du meilleur attribut
            
            pos_gain_max = np.argmax(a_gain)
            a_max = attr[pos_gain_max]
            a_max_split = a_split[pos_gain_max]
            attributes[a_max]=0
            
            # Nouvel arbre
            
            tree = []
            
            # pour chaque valeur de l'attribut, faire un sous-arbre
            if (self.attribute_type=="continuous"):
                for v in [True,False]:
                    print("Nouvelle branche: l'attribut "+str(a_max)+"<="+str(a_max_split)+" est: "+str(v))
                    train_pos = np.where((train[:,a_max] <= a_max_split) == v)
                    subtree = self.decision_tree_learning(train[train_pos],train_labels[train_pos],attributes,train_labels)
                    tree.append(("Branche",a_max,a_max_split,v,subtree))
            if (self.attribute_type=="discrete"):
                for v in np.unique(train[:,a_max]):
                    print("Nouvelle branche: l'attribut "+str(a_max)+" est: "+str(v))
                    train_pos = np.where(train[:,a_max] == v)
                    subtree = self.decision_tree_learning(train[train_pos],train_labels[train_pos],attributes,train_labels)
                    tree.append(("Branche",a_max,v,subtree))
        return tree
                
        
    def train(self, train, train_labels,verbose=True): #vous pouvez rajouter d'autres attribus au besoin
        """
        c'est la méthode qui va entrainer votre modèle,
        train est une matrice de taille nxm, avec 
        n : le nombre d'exemple d'entrainement dans le dataset
        m : le mobre d'attribus (le nombre de caractéristiques)
        
        train_labels : est une matrice de taille nx1
        verbose: afficher les métriques calculées
        
        vous pouvez rajouter d'autres arguments, il suffit juste de
        les expliquer en commentaire
        
        
        
        ------------
        
        """
        
        n,m = train.shape
        # Vecteur booléen qui définit quels attributs n'ont pas été utilisés
        attributes = np.ones(m)
        
        self.tree = self.decision_tree_learning(train, train_labels, attributes, None)
        
        return self.test(train, train_labels,verbose)
        
        
    def extract_tree(self,myTree,exemple):
        for b in myTree:
            # On a atteint la feuille
            if b[0] == 'Feuille':
                return b[1]
            # On est dans une branche, on teste le split
            if self.attribute_type=="continuous":
                if ((exemple[b[1]] <= b[2]) == b[3]):
                    return self.extract_tree(b[4],exemple)
            if self.attribute_type=="discrete":
                if (exemple[b[1]] == b[2]):
                    return self.extract_tree(b[3],exemple)
        return None
            
        
    def predict(self, exemple, label):
        """
        Prédire la classe d'un exemple donné en entrée
        exemple est de taille 1xm
        
        si la valeur retournée est la meme que la veleur dans label
        alors l'exemple est bien classifié, si non c'est une missclassification

        """
        
        return self.extract_tree(self.tree,exemple)
        
    def test(self, test, test_labels, verbose=True):
        """
        c'est la méthode qui va tester votre modèle sur les données de test
        l'argument test est une matrice de taille nxm, avec 
        n : le nombre d'exemple de test dans le dataset
        m : le mobre d'attribus (le nombre de caractéristiques)
        verbose: afficher les métriques calculées
        
        test_labels : est une matrice taille nx1
        
        vous pouvez rajouter d'autres arguments, il suffit juste de
        les expliquer en commentaire
        
        Faites le test sur les données de test, et afficher :
        - la matrice de confision (confusion matrix)
        - l'accuracy (ou le taux d'erreur)
        
        Bien entendu ces tests doivent etre faits sur les données de test seulement
        
        """
        start_time = time.time()
        prediction_test = [self.predict(exemple,label) for exemple,label in zip(test,test_labels)]
        cm = metrics.confusion_matrix(test_labels,prediction_test)
        accuracy, precision, recall = metrics.prediction_metrics(cm,test_labels,prediction_test)
        compute_time = time.time() - start_time
        if (verbose):
            metrics.print_prediction_metrics(cm,accuracy,precision,recall,compute_time)

        return cm,accuracy,precision,recall,compute_time
    
    
    # Vous pouvez rajouter d'autres méthodes et fonctions,
    # il suffit juste de les commenter.
ajout fichiers decision tree training 2019-04-29 05:10:20 +00:00			`# -- coding: utf-8 --`
			`"""`
			`Vous allez definir une classe pour chaque algorithme que vous allez développer,`
			`votre classe doit contenit au moins les 3 methodes definies ici bas,`
			`* train : pour entrainer le modèle sur l'ensemble d'entrainement`
			`* predict : pour prédire la classe d'un exemple donné`
			`* test : pour tester sur l'ensemble de test`
			`vous pouvez rajouter d'autres méthodes qui peuvent vous etre utiles, mais moi`
			`je vais avoir besoin de tester les méthodes train, predict et test de votre code.`
			`"""`

			`import numpy as np`
ajout du cas discret 2019-04-30 01:35:45 +00:00			`import metrics`
			`import time`
ajout fichiers decision tree training 2019-04-29 05:10:20 +00:00
			`# le nom de votre classe`
			`# NeuralNet pour le modèle Réseaux de Neurones`
			`# DecisionTree le modèle des arbres de decision`

			`class DecisionTree: #nom de la class à changer`

ajout du cas discret 2019-04-30 01:35:45 +00:00			`def __init__(self, attribute_type, **kwargs):`
ajout fichiers decision tree training 2019-04-29 05:10:20 +00:00			`"""`
			`c'est un Initializer.`
			`Vous pouvez passer d'autre paramètres au besoin,`
			`c'est à vous d'utiliser vos propres notations`
			`"""`
			`self.tree=[]`
ajout du cas discret 2019-04-30 01:35:45 +00:00			`self.attribute_type=attribute_type`
ajout fichiers decision tree training 2019-04-29 05:10:20 +00:00
			`def plurality_value(self,train_labels):`
			`values,_,counts = np.unique(train_labels,return_index=True, return_counts=True)`
			`return values[np.argmax(counts)]`

			`def importance(self,train, train_labels, attribute):`
			`#Entropie Avant`
			`_,_,counts = np.unique(train_labels,return_index=True, return_counts=True)`
			`total_count = sum(counts)`
			`entropie_total = -sum(counts/total_count * np.log2(counts/total_count))`
maintenant, l'arbre se construit et se parse correctement 2019-04-30 00:20:05 +00:00			`#print("Entropie Total:"+str(entropie_total))`
ajout du cas discret 2019-04-30 01:35:45 +00:00
			`if (self.attribute_type=="continuous"):`
			`#Trouver split`
			`attribute_sort_order = np.argsort(train[:,attribute])`
			`sorted_labels = train_labels[attribute_sort_order]`
			`lags = np.hstack((np.array([False]),sorted_labels[:-1] != sorted_labels[1:]))`
			`lags2 = np.hstack((np.array([False]),lags))[:-1]`
			`potential_splits = 0.5train[attribute_sort_order,attribute][lags]+0.5train[attribute_sort_order,attribute][lags2]`
			`if (len(potential_splits)==0):`
			`potential_splits = np.array([np.median(train[attribute_sort_order,attribute])])`
			`#print("Potential Split:"+str(potential_splits))`
			`split_gain = []`
			`for v in potential_splits:`
			`split_labels_1 = train_labels[train[:,attribute] <= v]`
			`split_labels_2 = train_labels[train[:,attribute] > v]`
			`_,_,counts1 = np.unique(split_labels_1,return_index=True, return_counts=True)`
			`total_count1 = sum(counts1)`
			`entropie_total1 = -sum(counts1/total_count1 * np.log2(counts1/total_count1))`
			`_,_,counts2 = np.unique(split_labels_2,return_index=True, return_counts=True)`
			`total_count2 = sum(counts2)`
			`entropie_total2 = -sum(counts2/total_count2 * np.log2(counts2/total_count2))`
			`split_gain.append(entropie_total-(total_count1/total_countentropie_total1+total_count2/total_countentropie_total2))`
			`#Valeur unique attribut`
			`#print("Split Gain:"+str(split_gain))`
			`best_split = potential_splits[np.argmax(split_gain)]`
			`best_gain = max(split_gain)`
			`return best_gain,best_split`
			`if (self.attribute_type=="discrete"):`
			`_,counts1 = np.unique(train[:,attribute], return_counts=True)`
ajout fichiers decision tree training 2019-04-29 05:10:20 +00:00			`total_count1 = sum(counts1)`
			`entropie_total1 = -sum(counts1/total_count1 * np.log2(counts1/total_count1))`
ajout du cas discret 2019-04-30 01:35:45 +00:00			`gain = entropie_total - entropie_total1`
			`return gain,None`
ajout fichiers decision tree training 2019-04-29 05:10:20 +00:00

			`def decision_tree_learning(self,train, train_labels, attributes, parent_examples):`
			`n_examples,n_attributes = train.shape`
			`classes_uniques = np.unique(train_labels)`
			`# la feuille est vide`
			`if (n_examples == 0):`
maintenant, l'arbre se construit et se parse correctement 2019-04-30 00:20:05 +00:00			`l1 = []`
			`l1.append(("Feuille",self.plurality_value(parent_examples)))`
			`return list(l1)`
ajout fichiers decision tree training 2019-04-29 05:10:20 +00:00			`# tous les exemples ont la même classe`
			`elif len(classes_uniques)==1:`
maintenant, l'arbre se construit et se parse correctement 2019-04-30 00:20:05 +00:00			`l1 = []`
			`l1.append(("Feuille",classes_uniques[0]))`
			`return l1`
ajout fichiers decision tree training 2019-04-29 05:10:20 +00:00			`# la liste d'attributs est vides`
			`elif (sum(attributes)==0):`
maintenant, l'arbre se construit et se parse correctement 2019-04-30 00:20:05 +00:00			`l1 = []`
			`l1.append(("Feuille",self.plurality_value(train_labels)))`
			`return l1`
ajout fichiers decision tree training 2019-04-29 05:10:20 +00:00			`else:`
			`# Calcul du gain`
			`attr = np.where(attributes==1)[0]`
			`a_gain = []`
			`a_split = []`
			`for a in attr:`
			`gain, split = self.importance(train, train_labels, a)`
			`a_gain.append(gain)`
			`a_split.append(split)`
ajout du cas discret 2019-04-30 01:35:45 +00:00
ajout fichiers decision tree training 2019-04-29 05:10:20 +00:00			`# Calcul du meilleur attribut`
ajout du cas discret 2019-04-30 01:35:45 +00:00
ajout fichiers decision tree training 2019-04-29 05:10:20 +00:00			`pos_gain_max = np.argmax(a_gain)`
			`a_max = attr[pos_gain_max]`
			`a_max_split = a_split[pos_gain_max]`
			`attributes[a_max]=0`
ajout du cas discret 2019-04-30 01:35:45 +00:00
			`# Nouvel arbre`

			`tree = []`

ajout fichiers decision tree training 2019-04-29 05:10:20 +00:00			`# pour chaque valeur de l'attribut, faire un sous-arbre`
ajout du cas discret 2019-04-30 01:35:45 +00:00			`if (self.attribute_type=="continuous"):`
			`for v in [True,False]:`
			`print("Nouvelle branche: l'attribut "+str(a_max)+"<="+str(a_max_split)+" est: "+str(v))`
			`train_pos = np.where((train[:,a_max] <= a_max_split) == v)`
			`subtree = self.decision_tree_learning(train[train_pos],train_labels[train_pos],attributes,train_labels)`
			`tree.append(("Branche",a_max,a_max_split,v,subtree))`
			`if (self.attribute_type=="discrete"):`
			`for v in np.unique(train[:,a_max]):`
			`print("Nouvelle branche: l'attribut "+str(a_max)+" est: "+str(v))`
			`train_pos = np.where(train[:,a_max] == v)`
			`subtree = self.decision_tree_learning(train[train_pos],train_labels[train_pos],attributes,train_labels)`
			`tree.append(("Branche",a_max,v,subtree))`
ajout fichiers decision tree training 2019-04-29 05:10:20 +00:00			`return tree`


ajout du cas discret 2019-04-30 01:35:45 +00:00			`def train(self, train, train_labels,verbose=True): #vous pouvez rajouter d'autres attribus au besoin`
ajout fichiers decision tree training 2019-04-29 05:10:20 +00:00			`"""`
			`c'est la méthode qui va entrainer votre modèle,`
			`train est une matrice de taille nxm, avec`
			`n : le nombre d'exemple d'entrainement dans le dataset`
			`m : le mobre d'attribus (le nombre de caractéristiques)`

			`train_labels : est une matrice de taille nx1`
ajout du cas discret 2019-04-30 01:35:45 +00:00			`verbose: afficher les métriques calculées`
ajout fichiers decision tree training 2019-04-29 05:10:20 +00:00
			`vous pouvez rajouter d'autres arguments, il suffit juste de`
			`les expliquer en commentaire`



			`------------`

			`"""`

			`n,m = train.shape`
			`# Vecteur booléen qui définit quels attributs n'ont pas été utilisés`
			`attributes = np.ones(m)`

			`self.tree = self.decision_tree_learning(train, train_labels, attributes, None)`

ajout du cas discret 2019-04-30 01:35:45 +00:00			`return self.test(train, train_labels,verbose)`

ajout fichiers decision tree training 2019-04-29 05:10:20 +00:00
maintenant, l'arbre se construit et se parse correctement 2019-04-30 00:20:05 +00:00			`def extract_tree(self,myTree,exemple):`
			`for b in myTree:`
			`# On a atteint la feuille`
			`if b[0] == 'Feuille':`
			`return b[1]`
			`# On est dans une branche, on teste le split`
ajout du cas discret 2019-04-30 01:35:45 +00:00			`if self.attribute_type=="continuous":`
			`if ((exemple[b[1]] <= b[2]) == b[3]):`
			`return self.extract_tree(b[4],exemple)`
			`if self.attribute_type=="discrete":`
			`if (exemple[b[1]] == b[2]):`
			`return self.extract_tree(b[3],exemple)`
maintenant, l'arbre se construit et se parse correctement 2019-04-30 00:20:05 +00:00			`return None`

ajout fichiers decision tree training 2019-04-29 05:10:20 +00:00
			`def predict(self, exemple, label):`
			`"""`
			`Prédire la classe d'un exemple donné en entrée`
			`exemple est de taille 1xm`

			`si la valeur retournée est la meme que la veleur dans label`
			`alors l'exemple est bien classifié, si non c'est une missclassification`

			`"""`
maintenant, l'arbre se construit et se parse correctement 2019-04-30 00:20:05 +00:00
			`return self.extract_tree(self.tree,exemple)`

ajout du cas discret 2019-04-30 01:35:45 +00:00			`def test(self, test, test_labels, verbose=True):`
ajout fichiers decision tree training 2019-04-29 05:10:20 +00:00			`"""`
			`c'est la méthode qui va tester votre modèle sur les données de test`
			`l'argument test est une matrice de taille nxm, avec`
			`n : le nombre d'exemple de test dans le dataset`
			`m : le mobre d'attribus (le nombre de caractéristiques)`
ajout du cas discret 2019-04-30 01:35:45 +00:00			`verbose: afficher les métriques calculées`
ajout fichiers decision tree training 2019-04-29 05:10:20 +00:00
			`test_labels : est une matrice taille nx1`

			`vous pouvez rajouter d'autres arguments, il suffit juste de`
			`les expliquer en commentaire`

			`Faites le test sur les données de test, et afficher :`
			`- la matrice de confision (confusion matrix)`
			`- l'accuracy (ou le taux d'erreur)`

			`Bien entendu ces tests doivent etre faits sur les données de test seulement`

			`"""`
ajout du cas discret 2019-04-30 01:35:45 +00:00			`start_time = time.time()`
			`prediction_test = [self.predict(exemple,label) for exemple,label in zip(test,test_labels)]`
			`cm = metrics.confusion_matrix(test_labels,prediction_test)`
			`accuracy, precision, recall = metrics.prediction_metrics(cm,test_labels,prediction_test)`
			`compute_time = time.time() - start_time`
			`if (verbose):`
			`metrics.print_prediction_metrics(cm,accuracy,precision,recall,compute_time)`

			`return cm,accuracy,precision,recall,compute_time`
ajout fichiers decision tree training 2019-04-29 05:10:20 +00:00

			`# Vous pouvez rajouter d'autres méthodes et fonctions,`
			`# il suffit juste de les commenter.`