depensesTI/courriel_donnees_ouvertes

33 lines
2.7 KiB
Text
Raw Normal View History

Bonjour,
Je vous écris par rapport à certains éléments problématiques dans les fichiers de données avec identifiant c60b2248-0ca4-4b12-89d3-2f087a319bea (Tableau de bord de létat de santé des projets en ressources informationnelles de ladministration publique):
1. Erreur d'encodage dans les données.
Les données sont encodées dans le format ISO-8859-1 et non UTF-8. Il serait approprié de modifier le descriptif à cet effet. La commande linux suivante permet de faire la conversion du fichier si vous souhaitez utiliser le UTF-8, pour un fichier fichier.csv :
iconv -f "iso-8859-1" -t "utf8" fichier.csv -o fichier_corrige.csv
2. Caractères non-standards dans les entêtes de fichiers.
De façon générale, il est recommandé de mettre uniquement des lettres, des chiffres et le caractère _ dans les entêtes de fichiers CSV. De fait, la majorité des logiciels statistiques et de bases de données ne supportent pas les caractères spéciaux et les caractères accentués. Dans le logiciel R, ceci génère le message d'erreur suivant: «chaîne de charactères multioctets incorrecte 7»
3. Valeur incorrecte dans un champ numérique
Dans le fichier "tableau_de_bord_4.csv", pour la variable "Pourcentage_avancement" on retrouve le caractère "-" pour les données manquantes. Dans un fichier CSV, la norme est de laisser le champ à vide lorsque la donnée est manquante. Ceci évite aux logiciels de considérer uen colonne numérique comme une colonne texte
4. Incohérence dans le format numérique de variables comptables.
Dans le fichier "tableau_de_bord_5.csv", les premières lignes de données des variables "Budget_autorise_initial","Budget_autorise_revise", "Montant_reel_depense" et "Cout_estime_pour_completer_le_projet" contiennent des nombres avec des espaces (un nombre ne devrait jamais contenir d'espaces dans un fichier de données). Ces nombres représentent des montants en $. Puis, à partir de la 105e ligne, les montants deviennent soudaienement en milliers$ et sans espaces, maintenant. Ces incohérences des données rendent difficile le traitement automatisé de fichiers de données, car une intervention manuelle est nécessaire.
5. Incohérences dans les noms de variables entre les fichiers
Les noms de colonnes changent entre les fichiers: il y a des minuscules et des majuscules, certains ont des accents, d'autres non. Les noms de colonnes devraient être soit en minuscules, soit en majuscules et ne pas comporter d'accents. Ils doivent de plus être uniformes entre les fichiers afin de permettre de les concaténer facilement.
exemples:
date_de_fin_revise -> date_de_fin_revisee,
Nom_organisme -> Nom_Organisme,
Date_de_début_prévue -> Date_de_debut_prevue
Merci !
François Pelletier