corrections code
This commit is contained in:
parent
5ace8354ba
commit
9b03b4f66c
2 changed files with 942 additions and 937 deletions
13
Analyse.Rmd
13
Analyse.Rmd
|
@ -25,6 +25,7 @@ library(topicmodels)
|
|||
On remarque, en calculant la fréquence des noms des organismes, que certains d'entre eux présentent des variations dans leur nom. Nous allons corriger ceci en utilisant un algorithme de similarité de la famille Latent Dirichlet Allocation.
|
||||
```{r}
|
||||
(freq_nom_organisme <- as.data.frame(table(rawdata2$nom_organisme)))
|
||||
colnames(freq_nom_organisme) <- c("nom_organisme","frequence")
|
||||
|
||||
|
||||
unique_nom_organisme <- unique(rawdata2$nom_organisme)
|
||||
|
@ -37,15 +38,19 @@ organisme_matrix <- create_matrix(as.vector(unique_nom_organisme),
|
|||
|
||||
|
||||
lda_organisme <- LDA(organisme_matrix, 154 , method = "VEM", control = list(alpha = 0.75))
|
||||
nom_topic <- data.frame(nom_organisme = unique_nom_organisme,organisme = as.integer(topics(lda_topic)))
|
||||
nom_topic <- data.frame(nom_organisme = unique_nom_organisme,
|
||||
organisme = as.integer(topics(lda_organisme)))
|
||||
|
||||
nom_topic_merged <- merge(nom_topic,freq_nom_organisme,by = "nom_organisme")
|
||||
nom_topic_sorted <- nom_topic_merged[order(nom_topic_merged$organisme,-nom_topic_merged$Freq),]
|
||||
nom_topic_sorted <- nom_topic_merged[order(nom_topic_merged$organisme,-nom_topic_merged$frequence),]
|
||||
nom_topic_sorted$organisme[nom_topic_sorted$nom_organisme=="Sécurité publique"] <- 53
|
||||
|
||||
nom_topic_unique <- ddply(nom_topic_sorted, .(organisme), summarize, nom_organisme=nom_organisme[which.max(Freq)])
|
||||
nom_topic_unique <- ddply(nom_topic_sorted,
|
||||
.(organisme),
|
||||
summarize,
|
||||
nom_organisme=nom_organisme[which.max(frequence)])
|
||||
correspondance_nom_organisme <- merge(nom_topic_sorted,nom_topic_unique,by="organisme")
|
||||
rawdata3 <- subset(merge(rawdata2,subset(correspondance_nom_organisme, select = -c(Freq,organisme)),by.x = "nom_organisme", by.y = "nom_organisme.x"),select=-c(nom_organisme))
|
||||
rawdata3 <- subset(merge(rawdata2,subset(correspondance_nom_organisme, select = -c(frequence,organisme)),by.x = "nom_organisme", by.y = "nom_organisme.x"),select=-c(nom_organisme))
|
||||
colnames(rawdata3)[which(names(rawdata3) == "nom_organisme.y")] <- "nom_organisme"
|
||||
```
|
||||
|
||||
|
|
1866
donnees_clean.csv
1866
donnees_clean.csv
File diff suppressed because it is too large
Load diff
Loading…
Reference in a new issue