261 lines
11 KiB
Text
261 lines
11 KiB
Text
{
|
|
"cells": [
|
|
{
|
|
"cell_type": "markdown",
|
|
"metadata": {},
|
|
"source": [
|
|
"# Utiliser les données ouvertes géospatiales: explorer, comprendre, agir\n",
|
|
"\n",
|
|
"Le portail du gouvernement ouvert déborde de jeux de données géospatiales. Cependant, il peut être difficile d'exploiter ces données à leur plein potentiel. Nous ne pouvons pas les utiliser avec les logiciels de bureautique. On doit donc recourir à des outils plus spécialisés : les systèmes d'information géographique (SIG). J'ai pour objectif d'aider les citoyens et les entreprises à les découvrir en quelques billets sur ce blogue. Ils nous permettront d'explorer les données géospatiales ouvertes. Nous produirons nos propres cartes. Nous pourrons ensuite mieux comprendre différents enjeux locaux. Enfin, nous pourrons créer des guides pour favoriser la prise de décision."
|
|
]
|
|
},
|
|
{
|
|
"cell_type": "code",
|
|
"execution_count": 92,
|
|
"metadata": {
|
|
"collapsed": true,
|
|
"scrolled": true
|
|
},
|
|
"outputs": [],
|
|
"source": [
|
|
"textbloc001=\"\"\"\n",
|
|
"Le portail du gouvernement ouvert déborde de jeux de données géospatiales. Cependant, il peut être difficile d'exploiter ces données à leur plein potentiel. Nous ne pouvons pas les utiliser avec les logiciels de bureautique. On doit donc recourir à des outils plus spécialisés : les systèmes d'information géographique (SIG). J'ai pour objectif d'aider les citoyens et les entreprises à les découvrir en quelques billets sur ce blogue. Ils nous permettront d'explorer les données géospatiales ouvertes. Nous produirons nos propres cartes. Nous pourrons ensuite mieux comprendre différents enjeux locaux. Enfin, nous pourrons créer des guides pour favoriser la prise de décision.\n",
|
|
"\"\"\""
|
|
]
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"metadata": {},
|
|
"source": [
|
|
"## Les données géospatiales\n",
|
|
"\n",
|
|
"Les jeux de données géospatiales incluent des références géographiques. Ce sont les limites, les trajets et les points d'intérêt. Ils sont souvent décrits sous forme de coordonnées : longitude et latitude. Nous associons de l'information à chacune de ces références pour construire une base de données. Celle-ci entrepose deux principaux types de données : vectorielles et matricielles. Les données vectorielles sont composées de formes géométriques. Les cartes routières en sont un exemple. Les données matricielles sont formées de lignes et de colonnes de cellules qui contiennent de l'information. Les photos aériennes et les images radar en font partie."
|
|
]
|
|
},
|
|
{
|
|
"cell_type": "code",
|
|
"execution_count": 93,
|
|
"metadata": {
|
|
"collapsed": true
|
|
},
|
|
"outputs": [],
|
|
"source": [
|
|
"textbloc002=\"\"\"\n",
|
|
"Les jeux de données géospatiales incluent des références géographiques. Ce sont les limites, les trajets et les points d'intérêt. Ils sont souvent décrits sous forme de coordonnées : longitude et latitude. Nous associons de l'information à chacune de ces références pour construire une base de données. Celle-ci entrepose deux principaux types de données : vectorielles et matricielles. Les données vectorielles sont composées de formes géométriques. Les cartes routières en sont un exemple. Les données matricielles sont formées de lignes et de colonnes de cellules qui contiennent de l'information. Les photos aériennes et les images radar en font partie.\n",
|
|
"\"\"\""
|
|
]
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"metadata": {},
|
|
"source": [
|
|
"## Les systèmes d'information géographique\n",
|
|
"\n",
|
|
"Les SIG permettent de travailler avec du contenu géoréférencé. Ils poursuivent deux principaux objectifs : la transformation de données géospatiales et la cartographie. Souvent, un de ces objectifs est mis au premier plan. C'est pourquoi nous utiliserons en alternance deux outils : [GNU R](https://www.r-project.org/) et [QGIS](http://qgis.org/fr/site/). Ce sont deux logiciels libres disponibles en français et en anglais pour Microsoft Windows, Mac OS et GNU/Linux. Nous pourrons ainsi aborder des notions des plus simples aux plus complexes avec l'un et l'autre. R est un langage de programmation populaire chez les statisticiens et QGIS un outil connu des géographes."
|
|
]
|
|
},
|
|
{
|
|
"cell_type": "code",
|
|
"execution_count": 94,
|
|
"metadata": {
|
|
"collapsed": true
|
|
},
|
|
"outputs": [],
|
|
"source": [
|
|
"textbloc003=\"\"\"\n",
|
|
"Les SIG permettent de travailler avec du contenu géoréférencé. Ils poursuivent deux principaux objectifs : la transformation de données géospatiales et la cartographie. Souvent, un de ces objectifs est mis au premier plan. C'est pourquoi nous utiliserons en alternance deux outils : GNU R et QGIS. Ce sont deux logiciels libres disponibles en français et en anglais pour Microsoft Windows, Mac OS et GNU/Linux. Nous pourrons ainsi aborder des notions des plus simples aux plus complexes avec l'un et l'autre. R est un langage de programmation populaire chez les statisticiens et QGIS un outil connu des géographes.\n",
|
|
"\"\"\""
|
|
]
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"metadata": {},
|
|
"source": [
|
|
"![Une carte produite avec GNU R]()\n",
|
|
"![Une carte produite avec QGIS]()"
|
|
]
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"metadata": {},
|
|
"source": [
|
|
"## Les enjeux locaux\n",
|
|
"\n",
|
|
"Nous vivons dans un monde de plus en plus connecté. Les infrastructures et les ressources qui nous entourent ont un impact sur notre quotidien. À l'aide des données publiques, nous pourrons mieux comprendre notre milieu de vie. Nous pourrons apprendre davantage sur la santé, l'éducation, l'économie et l'environnement. Ensuite, nous créerons des indicateurs afin de comparer diverses situations. Enfin, nous pourrons prendre de meilleures décisions à l'aide de cette nouvelle source d'information."
|
|
]
|
|
},
|
|
{
|
|
"cell_type": "code",
|
|
"execution_count": 95,
|
|
"metadata": {
|
|
"collapsed": true
|
|
},
|
|
"outputs": [],
|
|
"source": [
|
|
"textbloc004=\"\"\"\n",
|
|
"Nous vivons dans un monde de plus en plus connecté. Les infrastructures et les ressources qui nous entourent ont un impact sur notre quotidien. À l'aide des données publiques, nous pourrons mieux comprendre notre milieu de vie. Nous pourrons apprendre davantage sur la santé, l'éducation, l'économie et l'environnement. Ensuite, nous créerons des indicateurs afin de comparer diverses situations. Enfin, nous pourrons prendre de meilleures décisions à l'aide de cette nouvelle source d'information.\n",
|
|
"\"\"\""
|
|
]
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"metadata": {},
|
|
"source": [
|
|
"## La prise de décision\n",
|
|
"\n",
|
|
"Différentes mesures peuvent être calculées à partir de ces données. La distance, la superficie et la densité sont les plus courantes. Il est aussi possible d'effectuer des observations à partir d'une carte sur mesure. Des méthodes statistiques permettent de développer des indicateurs et effectuer des comparaisons en combinant ces informations. Dans mes prochains billets, je vous partagerai comment procéder à partir de données ouvertes."
|
|
]
|
|
},
|
|
{
|
|
"cell_type": "code",
|
|
"execution_count": 96,
|
|
"metadata": {},
|
|
"outputs": [],
|
|
"source": [
|
|
"textbloc005=\"\"\"\n",
|
|
"Différentes mesures peuvent être calculées à partir de ces données. La distance, la superficie et la densité sont les plus courantes. Il est aussi possible d'effectuer des observations à partir d'une carte sur mesure. Des méthodes statistiques permettent de développer des indicateurs et effectuer des comparaisons en combinant ces informations. Dans mes prochains billets, je vous partagerai comment procéder à partir de données ouvertes.\n",
|
|
"\"\"\""
|
|
]
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"metadata": {},
|
|
"source": [
|
|
"## Hors-Publication: Mesures de lisibilité\n",
|
|
"\n",
|
|
"### The Flesch Reading Ease formula\n",
|
|
"\n",
|
|
"* 90-100 : Very Easy\n",
|
|
"* 80-89 : Easy\n",
|
|
"* 70-79 : Fairly Easy\n",
|
|
"* 60-69 : Standard\n",
|
|
"* 50-59 : Fairly Difficult\n",
|
|
"* 30-49 : Difficult\n",
|
|
"* 0-29 : Very Confusing\n",
|
|
"\n",
|
|
"### The Flesch-Kincaid Grade Level\n",
|
|
"\n",
|
|
"Returns the grade score using the Flesch-Kincaid Grade Formula."
|
|
]
|
|
},
|
|
{
|
|
"cell_type": "code",
|
|
"execution_count": 97,
|
|
"metadata": {
|
|
"collapsed": true
|
|
},
|
|
"outputs": [],
|
|
"source": [
|
|
"from textstat.textstat import textstat as ts"
|
|
]
|
|
},
|
|
{
|
|
"cell_type": "code",
|
|
"execution_count": 98,
|
|
"metadata": {
|
|
"collapsed": true
|
|
},
|
|
"outputs": [],
|
|
"source": [
|
|
"def stat_paragraphe(textes):\n",
|
|
" for texte in textes:\n",
|
|
" yield {\n",
|
|
" \"word_count\":ts.lexicon_count(texte),\n",
|
|
" \"flesch\":ts.flesch_reading_ease(texte), \n",
|
|
" \"flesch-kincaid\": ts.flesch_kincaid_grade(texte)\n",
|
|
" }"
|
|
]
|
|
},
|
|
{
|
|
"cell_type": "code",
|
|
"execution_count": 99,
|
|
"metadata": {},
|
|
"outputs": [
|
|
{
|
|
"data": {
|
|
"text/plain": [
|
|
"[{'flesch': 60.31, 'flesch-kincaid': 7.6, 'word_count': 99},\n",
|
|
" {'flesch': 52.15, 'flesch-kincaid': 8.6, 'word_count': 96},\n",
|
|
" {'flesch': 57.67, 'flesch-kincaid': 8.6, 'word_count': 95},\n",
|
|
" {'flesch': 50.84, 'flesch-kincaid': 9.2, 'word_count': 72},\n",
|
|
" {'flesch': 50.02, 'flesch-kincaid': 9.5, 'word_count': 64}]"
|
|
]
|
|
},
|
|
"execution_count": 99,
|
|
"metadata": {},
|
|
"output_type": "execute_result"
|
|
}
|
|
],
|
|
"source": [
|
|
"paragraphes = [textbloc001,textbloc002,textbloc003,textbloc004,textbloc005]\n",
|
|
"[i for i in stat_paragraphe(paragraphes)]"
|
|
]
|
|
},
|
|
{
|
|
"cell_type": "code",
|
|
"execution_count": 100,
|
|
"metadata": {
|
|
"collapsed": true
|
|
},
|
|
"outputs": [],
|
|
"source": [
|
|
"from functools import reduce\n",
|
|
"fulltext=str(reduce((lambda x,y: x+y),paragraphes))"
|
|
]
|
|
},
|
|
{
|
|
"cell_type": "code",
|
|
"execution_count": 101,
|
|
"metadata": {},
|
|
"outputs": [
|
|
{
|
|
"data": {
|
|
"text/plain": [
|
|
"{'flesch': 51.04, 'flesch-kincaid': 9.1, 'word_count': 426}"
|
|
]
|
|
},
|
|
"execution_count": 101,
|
|
"metadata": {},
|
|
"output_type": "execute_result"
|
|
}
|
|
],
|
|
"source": [
|
|
"{\n",
|
|
" \"word_count\":ts.lexicon_count(fulltext),\n",
|
|
" \"flesch\":ts.flesch_reading_ease(fulltext), \n",
|
|
" \"flesch-kincaid\": ts.flesch_kincaid_grade(fulltext)\n",
|
|
" }"
|
|
]
|
|
},
|
|
{
|
|
"cell_type": "code",
|
|
"execution_count": null,
|
|
"metadata": {
|
|
"collapsed": true
|
|
},
|
|
"outputs": [],
|
|
"source": []
|
|
}
|
|
],
|
|
"metadata": {
|
|
"kernelspec": {
|
|
"display_name": "Python 3",
|
|
"language": "python",
|
|
"name": "python3"
|
|
},
|
|
"language_info": {
|
|
"codemirror_mode": {
|
|
"name": "ipython",
|
|
"version": 3
|
|
},
|
|
"file_extension": ".py",
|
|
"mimetype": "text/x-python",
|
|
"name": "python",
|
|
"nbconvert_exporter": "python",
|
|
"pygments_lexer": "ipython3",
|
|
"version": "3.6.1"
|
|
}
|
|
},
|
|
"nbformat": 4,
|
|
"nbformat_minor": 2
|
|
}
|