corrections code

This commit is contained in:
François Pelletier 2015-10-31 11:37:53 -04:00
parent 5ace8354ba
commit 9b03b4f66c
2 changed files with 942 additions and 937 deletions

View file

@ -25,6 +25,7 @@ library(topicmodels)
On remarque, en calculant la fréquence des noms des organismes, que certains d'entre eux présentent des variations dans leur nom. Nous allons corriger ceci en utilisant un algorithme de similarité de la famille Latent Dirichlet Allocation.
```{r}
(freq_nom_organisme <- as.data.frame(table(rawdata2$nom_organisme)))
colnames(freq_nom_organisme) <- c("nom_organisme","frequence")
unique_nom_organisme <- unique(rawdata2$nom_organisme)
@ -37,15 +38,19 @@ organisme_matrix <- create_matrix(as.vector(unique_nom_organisme),
lda_organisme <- LDA(organisme_matrix, 154 , method = "VEM", control = list(alpha = 0.75))
nom_topic <- data.frame(nom_organisme = unique_nom_organisme,organisme = as.integer(topics(lda_topic)))
nom_topic <- data.frame(nom_organisme = unique_nom_organisme,
organisme = as.integer(topics(lda_organisme)))
nom_topic_merged <- merge(nom_topic,freq_nom_organisme,by = "nom_organisme")
nom_topic_sorted <- nom_topic_merged[order(nom_topic_merged$organisme,-nom_topic_merged$Freq),]
nom_topic_sorted <- nom_topic_merged[order(nom_topic_merged$organisme,-nom_topic_merged$frequence),]
nom_topic_sorted$organisme[nom_topic_sorted$nom_organisme=="Sécurité publique"] <- 53
nom_topic_unique <- ddply(nom_topic_sorted, .(organisme), summarize, nom_organisme=nom_organisme[which.max(Freq)])
nom_topic_unique <- ddply(nom_topic_sorted,
.(organisme),
summarize,
nom_organisme=nom_organisme[which.max(frequence)])
correspondance_nom_organisme <- merge(nom_topic_sorted,nom_topic_unique,by="organisme")
rawdata3 <- subset(merge(rawdata2,subset(correspondance_nom_organisme, select = -c(Freq,organisme)),by.x = "nom_organisme", by.y = "nom_organisme.x"),select=-c(nom_organisme))
rawdata3 <- subset(merge(rawdata2,subset(correspondance_nom_organisme, select = -c(frequence,organisme)),by.x = "nom_organisme", by.y = "nom_organisme.x"),select=-c(nom_organisme))
colnames(rawdata3)[which(names(rawdata3) == "nom_organisme.y")] <- "nom_organisme"
```

File diff suppressed because it is too large Load diff