version corrigée pour que ça fonctionne encore
# History files
# Example code in package build process
# RStudio files
# produced vignettes
# pipelineViz
Working with pipeline incidents data from
Nom de colonne PODS,Nom du champ,Description du champ
OCC_NO,Numéro d'événement,"Le numéro d'identification de l'événement. Le « P » sert à désigner le mode pipeline, suivi de deux chiffres qui indiquent l'année de l'événement. La lettre qui vient après l'année sert à désigner la région de l'événement, suivie du numéro de séquence attribué par le système PODS."
OCC_YEAR,Année,L'année civile de l'événement.
OCC_DATE,Date,"La date de l'événement, soit AAAA-MM-JJ. Le format de la date dépend de l'application utilisée pour ouvrir le fichier csv."
CLASS_ID,Catégorie,"La classification d'enquête du BST pour l'événement. Lorsqu'un événement est en cours d'évaluation, la valeur 10 lui est assignée temporairement pour indiquer qu'il est « en cours d'évaluation »."
OCC_TYPE,Type d'événement,Détermine si l'événement était un accident ou un incident à signaler.
ACC_INC_TYPE,Type d'accident/d'incident,Détermine le type de l'accident ou de l'incident à signaler.
PROVINCE,Province,La province du lieu de l'événement.
LOCATION,Lieu,Ville ou village le plus proche du lieu où s'est produit l'évènement.
TERRAIN_TYPE,Type de terrain,Zonage autorisé de l'utilisation des terres du lieu où s'est produit l'évènement.
FACILITY_NAME,Nom de l'installation,Nom de l'installation.
FACILITY_TYPE,Type d'installation,"Type d'installation tel que : station de compression, usine de traitement du gaz naturel, station de pompage, etc."
PIPELINE_CO,Société de pipeline,Nom de la société de pipeline.
PIPELINE_TYPE_CO,Type de société de pipeline,Type de société de pipeline : gaz ou HPV/FPV (haute/faible pression de vapeur)
PROD_RELEASED_IND,Indicateur de produit déversé,Pour indiquer si un produit a été déversé relativement ou consécutivement à l'évènement.
PRODUCT_TYPE,Type de produit,Type de produit déversé relativement ou consécutivement à l'évènement.
QUANTITY_LOST,Quantité perdue,Quantité de produit déversée lorsque le déversement peut être quantifié et que cette information a été communiquée au BST. On mesure cette quantité en mètres cubes.
DETECTION_METHOD,Méthode de détection,Moyen par lequel l'évènement a été détecté.
LOCATION_ON_PIPELINE,Emplacement sur le pipeline,L'emplacement sur le pipeline où l'évènement s'est produit.
ENVIRO_DAMAGE_IND,Indicateur de dégâts environnementaux,Pour indiquer si des dégâts ont été causés à l'environnement.
PROPERTY_DAMAGE_IND,Indicateur de dégâts matériels,Pour indiquer si des biens ont été endommagés.
FIRE_IND,Indicateur d'incendie,Indique s'il y a eu un incendie durant l'événement ou à la suite de l'événement.
EXPLOSION_IND,Indicateur d'explosion,Indique s'il y a eu une explosion durant l'événement ou à la suite de l'événement.
NO_EVACUATED,Nombre évacuées,Le nombre total de personnes évacuées à la suite de l'événement.
FATALITIES,Total de morts,Nombre total connu de morts.
SERIOUS_INJURIES,Total de blessés graves,Nombre total connu de blessés graves.
PRODUCTION_DT,Date de production,La date et l'heure à laquelle le fichier de données a été généré. Format de date AAAA-MM-JJThh:mm:ss.
title: "PipelineViz"
author: "François Pelletier"
date: "26 août 2015"
fig_caption: yes
fig_height: 8
fig_width: 10
keep_md: yes
number_sections: yes
toc: yes
# Analyse d'un jeu de données ouvertes
Source: [Données sur les évenements de pipeline de Janvier 2004 au présent](
## Chargement du dictionnaire de données
# install.packages(c("data.table", "dplyr","maps","ggmap"))
options(unzip = 'internal')
## Lecture des données
datadict <- read.csv(file = "dd-20150216.csv",header = TRUE, stringsAsFactors = TRUE, encoding = "latin1") %>%
donnees <- read.csv(file = "p2015-07-fr.csv",header = TRUE,stringsAsFactors = TRUE) %>%
class_donnees <- sapply(donnees,class)
character_columns <- names(donnees)[class_donnees == "character"]
num_columns <- names(donnees)[class_donnees != "character"]
donnees_conv <- cbind(donnees[, lapply(.SD, iconv, "utf-8", "latin1"),
.SDcols = character_columns],donnees[,.SD,.SDcols = num_columns])
## Geocoder les incidents
```{r, eval=FALSE}
LocationsUnique <- unique(donnees_conv[,.(LOCATION,PROVINCE)])
catLocationsUnique <- unique(paste(LocationsUnique$LOCATION, ifelse(!$PROVINCE),LocationsUnique$PROVINCE, ""), "CANADA", sep = " "))
geocodedLocations <- cbind(LocationsUnique,geocode(catLocationsUnique))
save(geocodedLocations, file = "geocodedLocations.Rdata")
## Joindre les données géocodées aux données existantes
donnees_conv2 <,geocodedLocations, by=c("LOCATION","PROVINCE")))
donnees_conv3 <- donnees_conv2[! & !]
## Préparation de la carte de fond
```{r, eval=FALSE}
range_lat <- range(donnees_conv3$lat)
range_lon <- range(donnees_conv3$lon)
openstreetmap1 <- get_openstreetmap(bbox = c(left = range_lon[1],
bottom = range_lat[1],
right = range_lon[2],
top = range_lat[2]),
scale = 32500000,
format = c("png"),
crop = TRUE, messaging = FALSE, urlonly = FALSE, color = c("color", "bw"))
save(openstreetmap1, file = "openstreetmap1.Rdata")
## Chargement de la carte de fond
## Carte des incidents avec déversement
```{r, dev='png'}
donnees_incidents <- donnees_conv3[QUANTITY_LOST > 0]
ggmap(openstreetmap1) +
geom_point(aes(x = lon,
y = lat,
colour = PRODUCT_TYPE,
data = donnees_incidents) +
scale_size(range = c(2, 8), name=datadict[datadict$"QUANTITY_LOST"][2]) +
scale_colour_discrete(name=datadict[datadict$"PRODUCT_TYPE"][2]) +
ggtitle(label = "Incidents avec déversement") +
xlab("Longitude") +
## initiales
Cette fonction extrait les initiales d'un mot
initials <- function(str)
regex <- '(?<=^|\\s|-)[[:alpha:]]'
ini <- regmatches(str, gregexpr(regex, str, perl=TRUE))
toupper(sapply(ini, paste0, collapse=''))
## Distribution des accidents et incidents
dist_incidents <- donnees_conv3 %>%
group_by(PROVINCE=factor(initials(PROVINCE)),OCC_TYPE=factor(OCC_TYPE)) %>%
summarise(N = n())
```{r, dev='png'}
ggplot(dist_incidents,aes(x=PROVINCE,fill=OCC_TYPE)) +
geom_bar(aes(y=N),stat="identity") +
ggtitle(paste0(datadict[datadict$"OCC_TYPE"][2],", par ",datadict[datadict$"PROVINCE"][2])) +
scale_fill_discrete(name=datadict[datadict$"OCC_TYPE"][2]) +
xlab(datadict[datadict$"PROVINCE"][2]) +
## Série chronologique
data_serie <- donnees_conv3 %>%
mutate(N=1, date_clean = parse_date_time(OCC_DATE, orders = "%Y-%m-%d")) %>%
arrange(PIPELINE_CO,date_clean) %>%
group_by(PIPELINE_CO,date_clean) %>%
summarise(Nsum = sum(N)) %>%
mutate(Ncumsum = cumsum(Nsum))
### Nombre d'évènements cumulés
```{r, dev='png'}
ggplot(data_serie,aes(x=date_clean,y=Ncumsum,color=PIPELINE_CO)) +
geom_line(stat="identity") +
xlab("Date") +
ylab("Nombre d'indicents cumulés") +
ggtitle("Nombre d'incidents cumulés, par compagnie")
## Arbre de décision
### Affichage de l'arbre de décision
rpart.plot::rpart.plot(tree1, main = paste0("Arbre de classification pour ",
