début analyse
This commit is contained in:
parent
ad541030f5
commit
da58ef73c5
2 changed files with 47 additions and 0 deletions
46
Analyse.Rmd
Normal file
46
Analyse.Rmd
Normal file
|
@ -0,0 +1,46 @@
|
|||
---
|
||||
title: "Analyse des données"
|
||||
author: "François Pelletier"
|
||||
date: "17 octobre 2015"
|
||||
output: html_document
|
||||
---
|
||||
|
||||
## Chargement des données
|
||||
```{r}
|
||||
load(file = "donnees_clean.RData")
|
||||
```
|
||||
|
||||
## Aperçu quantitatif des données
|
||||
|
||||
```{r}
|
||||
library(psych)
|
||||
attach(rawdata2)
|
||||
```
|
||||
|
||||
## Nom de l'organisme
|
||||
|
||||
On remarque, en calculant la fréquence des noms des organismes, que certains d'entre eux présentent des variations dans leur nom. Nous allons corriger ceci en utilisant un algorithme de similarité de la famille Latent Dirichlet Allocation.
|
||||
```{r}
|
||||
(freq_nom_organisme <- as.data.frame(table(nom_organisme)))
|
||||
library(tm)
|
||||
library(RTextTools)
|
||||
library(topicmodels)
|
||||
|
||||
unique_nom_organisme <- unique(nom_organisme)
|
||||
|
||||
organisme_matrix <- create_matrix(as.vector(unique_nom_organisme),
|
||||
language = "french",
|
||||
removeNumbers = TRUE,
|
||||
stemWords = TRUE,
|
||||
weighting = weightTf)
|
||||
|
||||
|
||||
lda <- LDA(organisme_matrix, 154 , method = "VEM", control = list(alpha = 0.75))
|
||||
nom_topic <- data.frame(nom_organisme = unique_nom_organisme,TOPIC = as.integer(topics(lda)))
|
||||
|
||||
nom_topic_merged <- merge(nom_topic,freq_nom_organisme,by = "nom_organisme")
|
||||
nom_topic_sorted <- nom_topic_merged[order(nom_topic_merged$TOPIC,-nom_topic_merged$Freq),]
|
||||
```
|
||||
|
||||
|
||||
|
|
@ -138,6 +138,7 @@ Jointure de tous les fichiers de données dans une même table
|
|||
rawdata2 <- dplyr::bind_rows(rawdata)
|
||||
|
||||
write.csv(rawdata2, "donnees_clean.csv",quote = TRUE,row.names = FALSE, na = "")
|
||||
save(rawdata2,file = "donnees_clean.RData")
|
||||
```
|
||||
|
||||
|
||||
|
|
Loading…
Reference in a new issue