# Web scraping avec Python
## RoboBrowser

- RoboBrowser est une librairie python qui permet de simuler un comportement de navigation dans un navigateur web.
- Elle permet aussi d'extraire des éléments précis d'information d'une page et de les structurer. 
- C'est la plus populaire qui combine les avantages de `beautifulsoup` avec la flexibilité de `requests`. 
- Elle est disponible pour Python 2.7 et Python 3.6

In [11]:
import re
from robobrowser import RoboBrowser

On crée un objet navigateur et on navigue vers une première URL

In [12]:
browser = RoboBrowser(history=True,parser="lxml")

In [13]:
browser.open('https://meteo.gc.ca/')

Ouverture d'un formulaire à partir d'une de ses propriétés (ici, son identifiant unique)

In [14]:
form = browser.get_form(id="cityjump")

En affichant le formulaire, on peut voir les différents champs disponibles, ainsi que les valeurs par défauts qui sont attribuées, si applicable

In [15]:
form



En utilisant la propriété `value`, on peut remplir le formulaire

In [16]:
form['city'].value = 'Québec'

On envoie ensuite le formulaire, comme si on cliquait sur le bouton d'envoi

In [17]:
browser.submit_form(form)

In [18]:
"dl.mrgn-bttm-0"

'dl.mrgn-bttm-0'

On obtient le résultat de la page suivante dans le navigatuer. À partir de ce résultat, on peut extraire différents éléments en utilisant le sélecteur `CSS`.

In [19]:
location_xml = browser. \
select('.col-sm-10')[0]. \
select('dl.mrgn-bttm-0')[0]. \
select('dd.mrgn-bttm-0')

Lorsqu'un motif se répète, on préfère alors créer une fonction qui va extraire l'élément selon des paramètres. La librairie RoboBrowser ne gere pas les noeuds enfants de la structure XML (sélecteur `nth_child()`), mais on peut utiliser les listes de Python pour répliquer un comportement similaire.

In [None]:
"div.div-column:nth-child(4) > div:nth-child(2) > p:nth-child(2) > span:nth-child(1)"

In [21]:
def temperature_xml(jour): 
 return browser. \
 select('div.div-column')[jour]. \
 select('div')[1]. \
 select('p.mrgn-bttm-0')[0]. \
 select('span')[0]

On peut assembler les données extraites dans un dictionnaire python et les utiliser dans son application.

In [23]:
{'city': location_xml[0].text, 
 'date': location_xml[1].text,
 'temperature': [temperature_xml(i).text for i in range(0,7)]}

{'city': 'Aéroport int. Lesage de Québec',
 'date': '13h00 HNE le samedi 9 décembre 2017',
 'temperature': ['-1°C\n',
 '-2°C\n',
 '-13°C\n',
 '-4°C\n',
 '-8°C\n',
 '-11°C\n',
 '-11°C\n']}