R pour l'extraction de données sur le web
Avant-propos
À quoi attendre de ce livre
Structure du livre
Ressources et scripts
Remerciements
Dévouement
A propos de l’auteur
I Généralités
1
Généralités sur le web scraping
1.1
Définitions
1.1.1
Data Scraping
1.1.2
Le web scraping
1.2
Justification
1.2.1
Collecter des données rapidement et automatiquement
1.2.2
A quoi sert le web scraping au sein d’une entreprise ?
1.2.3
La surveillance des prix
1.2.4
Étude de marché
1.2.5
Apprentissage automatique
1.2.6
Surveillance des actualités
1.2.7
Analyse des sentiments et relation client
1.2.8
Marketing par courriel et la prospection
1.3
Légalité
1.3.1
AVERTISSEMENT
1.3.2
Aperçu
1.3.3
Comment éviter les ennuis ?
1.3.4
Analyse d’un fichier robots.txt
1.4
Outils et méthodes
1.4.1
Les Bases du web scraping
1.4.2
Comment démarrer un projet de web scraping
1.4.3
Quelles compétences pour développer son web scraper ?
1.4.4
Quelle alternative si vous n’avez pas de compétences techniques ?
1.5
Prérequis
2
Les technologies web 1.0 vs web 2.0
2.1
Le web 1.0 : le web statique
2.1.1
La communication web client-serveur
2.1.2
HTTP : règles de communication web
2.1.3
Exploration HTTP avec R
2.1.4
Les URLs
2.1.5
Conception de base du web dynamique
2.1.6
Les aspects clés de l’extraction automatisée de données web
2.1.7
API et site web dynamique
2.2
En conclusion
II La collecte des données sans APIs
3
Introduction au web scraping
3.1
Les logiciels de web scraping gratuits
3.2
Comment faire du web-scraping avec R ?
3.3
Identifier les éléments d’intérêt dans une page
3.4
Les packages R dédiées au web scraping
3.5
L’extraction des données avec le package rvest
3.6
L’extraction des données avec le package Rcrawler
3.7
L’extraction des données avec le package RSelenium
3.8
La différence entre rvest et RSelenium
4
Le Scraping 2.0 pour le web dynamique
4.1
Comment scraper un site web dynamique ?
4.2
Cookies
4.3
AJAX et XHR
4.4
Selenium
5
Cas pratiques : des projets d’extraction de données textuelles
5.1
Projet 1 : données d’un site de e-commerce
5.2
Projet 2 : Collecte de coorpus paire pour un modèle de traduction
5.3
Projet 3 : Collecte de données pour un système de recommandation
6
Cas pratiques : des projets d’extraction de tableaux de données
6.1
Projet 1 : Extration des tables statistiques du Football
6.2
Projet 2 : Les tableaux statistiques sur l’emploi du BLS
7
Cas pratiques : des projets d’extraction des images et pdfs
7.1
Projet 1 : WaxClassification - Collecte d’images pour une app d’IA
7.2
Projet 2 : ReportHub - Collecte de rapports annuels d’entreprises
8
Automatisation de scrapers sur le cloud ou serveur local
8.1
Google Cloud et l’automatisation du scraping
8.2
Mon ordinateur et l’automatisation du scraping
9
Le package de scraping afnews
9.1
Présentation de afnews
9.2
Installation
III APIs scraping
10
Le web scraping avancé avec API
10.1
Le rôle des APIs web pour l’extraction des données
10.2
Une API au lieu d’un web scraper
10.3
Les APIs web publiquement accessible
10.4
API cassée
10.5
Les APIs web fermés
IV Les robots Crawlers du web
11
Le minage et l’exploration du web
11.1
Les avantages d’un robot d’exploration web
11.2
L’algorithme de base d’un crawler
11.3
Mise en œuvre pratique
12
L’implémentation d’un robot Crawler
12.1
Les problèmes de mise en œuvre d’un robot crawler
12.2
L’implémentation d’un crawler avec Rcrawler
V Bibliographie
Référence bibliographique
R pour l’extraction de données sur le web : textes, images, tables et pdfs
Chapitre 7
Cas pratiques : des projets d’extraction des images et pdfs
7.1
Projet 1 : WaxClassification - Collecte d’images pour une app d’IA
7.2
Projet 2 : ReportHub - Collecte de rapports annuels d’entreprises