ift7025-projet/Code/load_datasets.py

#!/usr/bin/env python3
# -*- coding: utf-8 -*
import numpy as np
import random

def load_iris_dataset(train_ratio=0.7):
    """Cette fonction a pour but de lire le dataset Iris

    Args:
        train_ratio: le ratio des exemples (ou instances) qui vont etre attribués à l'entrainement,
        le rest des exemples va etre utilisé pour les tests.
        Par exemple : si le ratio est 50%, il y aura 50% des exemple (75 exemples) qui vont etre utilisé
        pour l'entrainement, et 50% (75 exemples) pour le test.

    Retours:
        Cette fonction doit retourner 4 matrices de type Numpy, train, train_labels, test, et test_labels

        - train : une matrice numpy qui contient les exemples qui vont etre utilisés pour l'entrainement, chaque
        ligne dans cette matrice représente un exemple (ou instance) d'entrainement.

        - train_labels : contient les labels (ou les étiquettes) pour chaque exemple dans train, de telle sorte
          que : train_labels[i] est le label (ou l'etiquette) pour l'exemple train[i]

        - test : une matrice numpy qui contient les exemples qui vont etre utilisés pour le test, chaque
        ligne dans cette matrice représente un exemple (ou instance) de test.

        - test_labels : contient les labels (ou les étiquettes) pour chaque exemple dans test, de telle sorte
          que : test_labels[i] est le label (ou l'etiquette) pour l'exemple test[i]
    """

    random.seed(1) # Pour avoir les meme nombres aléatoires à chaque initialisation.

    # Vous pouvez utiliser des valeurs numériques pour les différents types de classes, tel que :
    conversion_labels = {'Iris-setosa': 0, 'Iris-versicolor' : 1, 'Iris-virginica' : 2}

    # Le fichier du dataset est dans le dossier datasets en attaché

    f = open('datasets/bezdekIris.data', 'r')
    lines=[line.strip() for line in f.readlines()]
    f.close()

    lines=[line.split(",") for line in lines if line]

    features=[]
    labels=[]

    for line in lines:
        features.append(line[0:4])
        labels.append(conversion_labels[line[4]])

    np_features=np.array(features,dtype=np.float)
    np_labels=np.array(labels,dtype=np.int)

    n_obs = np_features.shape[0]

    n_train = int(n_obs*train_ratio)

    all_indices = [i for i in range(n_obs)]
    random.shuffle(all_indices)

    train_index = all_indices[0:n_train]
    test_index = all_indices[n_train:n_obs]

    train = np_features[train_index]
    train_labels = np_labels[train_index]
    test =  np_features[test_index]
    test_labels = np_labels[test_index]


    # REMARQUE très importante :
	# remarquez bien comment les exemples sont ordonnés dans
    # le fichier du dataset, ils sont ordonnés par type de fleur, cela veut dire que
    # si vous lisez les exemples dans cet ordre et que si par exemple votre ration est de 60%,
    # vous n'allez avoir aucun exemple du type Iris-virginica pour l'entrainement, pensez
    # donc à utiliser la fonction random.shuffle pour melanger les exemples du dataset avant de séparer
    # en train et test.


    # Tres important : la fonction doit retourner 4 matrices (ou vecteurs) de type Numpy.
    return (train, train_labels, test, test_labels)


def load_congressional_dataset(train_ratio):
    """Cette fonction a pour but de lire le dataset Congressional Voting Records

    Args:
        train_ratio: le ratio des exemples (ou instances) qui vont servir pour l'entrainement,
        le rest des exemples va etre utilisé pour les test.

    Retours:
        Cette fonction doit retourner 4 matrices de type Numpy, train, train_labels, test, et test_labels

        - train : une matrice numpy qui contient les exemples qui vont etre utilisés pour l'entrainement, chaque
        ligne dans cette matrice représente un exemple (ou instance) d'entrainement.

        - train_labels : contient les labels (ou les étiquettes) pour chaque exemple dans train, de telle sorte
          que : train_labels[i] est le label (ou l'etiquette) pour l'exemple train[i]

        - test : une matrice numpy qui contient les exemples qui vont etre utilisés pour le test, chaque
        ligne dans cette matrice représente un exemple (ou instance) de test.

        - test_labels : contient les labels (ou les étiquettes) pour chaque exemple dans test, de telle sorte
          que : test_labels[i] est le label (ou l'etiquette) pour l'exemple test[i]
    """

    random.seed(1) # Pour avoir les meme nombres aléatoires à chaque initialisation.

    # Vous pouvez utiliser un dictionnaire pour convertir les attributs en numériques
    # Notez bien qu'on a traduit le symbole "?" pour une valeur numérique
    # Vous pouvez biensur utiliser d'autres valeurs pour ces attributs
    conversion_labels = {'republican' : 0, 'democrat' : 1,
                         'n' : 0, 'y' : 1, '?' : 2}

    # Le fichier du dataset est dans le dossier datasets en attaché
    f = open('datasets/house-votes-84.data', 'r')
    lines=[line.strip() for line in f.readlines()]
    f.close()

    lines=[line.split(",") for line in lines if line]

    features=[]
    labels=[]

    for line in lines:
        features.append([conversion_labels[i] for i in line[1:17]])
        labels.append(conversion_labels[line[0]])

    np_features=np.array(features,dtype=np.float)
    np_labels=np.array(labels,dtype=np.int)

    n_obs = np_features.shape[0]


    n_train = int(n_obs*train_ratio)

    all_indices = [i for i in range(n_obs)]
    random.shuffle(all_indices)

    train_index = all_indices[0:n_train]
    test_index = all_indices[n_train:n_obs]

    train = np_features[train_index]
    train_labels = np_labels[train_index]
    test =  np_features[test_index]
    test_labels = np_labels[test_index]

	# La fonction doit retourner 4 structures de données de type Numpy.
    return (train, train_labels, test, test_labels)


def load_monks_dataset(numero_dataset):
    """Cette fonction a pour but de lire le dataset Monks

    Notez bien que ce dataset est différent des autres d'un point de vue
    exemples entrainement et exemples de tests.
    Pour ce dataset, nous avons 3 différents sous problèmes, et pour chacun
    nous disposons d'un fichier contenant les exemples d'entrainement et
    d'un fichier contenant les fichiers de tests. Donc nous avons besoin
    seulement du numéro du sous problème pour charger le dataset.

    Args:
        numero_dataset: lequel des sous problèmes nous voulons charger (1, 2 ou 3 ?)
		par exemple, si numero_dataset=2, vous devez lire :
			le fichier monks-2.train contenant les exemples pour l'entrainement
			et le fichier monks-2.test contenant les exemples pour le test
        les fichiers sont tous dans le dossier datasets
    Retours:
        Cette fonction doit retourner 4 matrices de type Numpy, train, train_labels, test, et test_labels

        - train : une matrice numpy qui contient les exemples qui vont etre utilisés pour l'entrainement, chaque
        ligne dans cette matrice représente un exemple (ou instance) d'entrainement.
        - train_labels : contient les labels (ou les étiquettes) pour chaque exemple dans train, de telle sorte
          que : train_labels[i] est le label (ou l'etiquette) pour l'exemple train[i]

        - test : une matrice numpy qui contient les exemples qui vont etre utilisés pour le test, chaque
        ligne dans cette matrice représente un exemple (ou instance) de test.
        - test_labels : contient les labels (ou les étiquettes) pour chaque exemple dans test, de telle sorte
          que : test_labels[i] est le label (ou l'etiquette) pour l'exemple test[i]
    """


	# TODO : votre code ici, vous devez lire les fichiers .train et .test selon l'argument numero_dataset

    f = open('datasets/monks-'+str(numero_dataset)+'.train', 'r')
    lines_train=[line.strip() for line in f.readlines()]
    f.close()

    f = open('datasets/monks-'+str(numero_dataset)+'.test', 'r')
    lines_test=[line.strip() for line in f.readlines()]
    f.close()

    lines_train=[line.split(" ") for line in lines_train if line]
    lines_test=[line.split(" ") for line in lines_test if line]

    features_train=[]
    labels_train=[]
    features_test=[]
    labels_test=[]

    for line in lines_train:
        features_train.append(line[1:7])
        labels_train.append(line[0])

    for line in lines_test:
        features_test.append(line[1:7])
        labels_test.append(line[0])

    train=np.array(features_train,dtype=np.float)
    train_labels=np.array(labels_train,dtype=np.int)

    test=np.array(features_test,dtype=np.float)
    test_labels=np.array(labels_test,dtype=np.int)

    # La fonction doit retourner 4 matrices (ou vecteurs) de type Numpy.
    return (train, train_labels, test, test_labels)