Le business du Ctrl+C / Ctrl+V est en sursis
On ne compte plus le nombre de CEO qui demandent d’un air ingénu : « On peut scraper LinkedIn ? ». Spoiler : non, sauf si votre rêve est de recevoir une lettre d’avocat frappée du logo Microsoft. Mais pour tout le reste, le scraping est l’un des super-pouvoirs les plus sous-estimés du numérique.
Le web est rempli de données accessibles mais pas exploitables. Un gigantesque buffet dans lequel personne n’a pensé à mettre de couverts. Et pendant que certains se résignent à faire des copier-coller manuels depuis des carrousels Bootstrap, un script bien affûté peut transformer un tas de <div> cabossés en un joli JSON prêt à l’emploi.
L’usage réel : quand c’est le client qui supplie
Dernier cas vécu : un client veut récupérer les 173 commentaires affichés sur son site. Pas de base de données. Pas d’API. Pas même un pauvre flux JSON. Juste un HTML antique imbibé de classes Bootstrap façon archéologie industrielle.
Ils étaient littéralement sur le point d’ouvrir Excel et de copier coller les témoignages un par un depuis un carrousel. Une punition médiévale.
En identifiant deux classes récurrentes – temoignages_text, date_com, et quelques autres – un simple script Python + BeautifulSoup (50 lignes, pas plus) a extrait l’ensemble en trois secondes :
Le Résultat (3 secondes de script) :
C’est ça, le vrai pouvoir du scraping : libérer des données coincées dans du HTML.
Quand on scrape pour de vrai
- Surveiller les prix des concurrents → usage légitime, massif, archi répandu.
- Récupérer des leads corporate → faisable, mais juridiquement piquant.
- Scraper LinkedIn → non, vraiment, non.
Mais dans 30% des cas… c’est juste un client qui a besoin de récupérer ses propres données, coincées dans un site vieillissant sans back-end. Dans ces situations, le scraping n'est pas une technique borderline : c'est un outil de migration.
Les outils : la trousse de secours
BeautifulSoup
Le couteau suisse pour le HTML statique. Rapide, léger, efficace pour nettoyer des données mal structurées.
Playwright
Pour le web moderne (React, Vue). Il pilote un vrai navigateur pour charger le JS dynamique.
Scrapy
Le bulldozer optimisé. Si vous devez avaler 10 000 pages statiques, c'est l'outil qu'il vous faut.
Proxies rotatifs
Votre manteau d'invisibilité pour ne pas être banni au bout de 4 minutes par Amazon.
⚖️ Légalité : le résumé honnête
- Scraper des prix publics : Toléré, risque faible.
- Scraper des emails pro : Terrain miné (RGPD).
- Scraper LinkedIn : Interdit, inutile d'insister.