Table des matières

Que voulez-vous étudier aujourd’hui?

netClassroom Cours

Relevez les défis de l’extraction de données web

Les problèmes éthiques de l’extraction de données web

L’extraction de données web est un outil vraiment pratique et puissant, mais parfois il y a des zones moralement grises. 

Vous ne voudriez pas que des personnes extraient vos données personnelles, n’est-ce pas ? Ou qu’elles collectent des informations en ligne sur vous et vos amis ? Ces questions ne sont pas seulement légales, mais aussi morales. Que vous soyez ou non dans un pays dont la loi interdit l’extraction de données web, il est important de vous assurer que vous extrayez de façon éthique. Nous allons voir comment nous y prendre. Quels sites web sont extractibles ?

Les sites web n’ont pas tous des politiques qui autorisent d’extraire leurs données. Pour savoir si une entreprise l’autorise, assurez-vous de vérifier ses conditions générales.

Pour de nombreux sites, ceux-ci sont disponibles sur leur fichier robots.txt. Vous pouvez ajouter « /robots.txt » après l’URL du site pour voir s’ils en ont un.

Ici vous pouvez voir une capture d’écran de la page robots.txt de Facebook, qui indique très clairement (en anglais) que l’extraction est interdite :

La page robots.txt de facebook renvoie un texte en anglais indiquant que l'extraction est interdite.
La collecte de données sur Facebook est interdite par le site web.

Les solutions aux problèmes éthiques

Les astuces suivantes vont vous aider à éviter de potentiels problèmes moraux et éthiques avec la collecte de données :

  • Utilisez une interface publique si possible et si disponible. Plus de détails sur les interfaces sont disponibles dans le cours Adoptez les API REST pour vos projets web.

  • Fournissez un agent utilisateur dans l’en-tête de votre requête pour vous identifier en tant que développeur qui extrait de façon éthique.

  • Créditez toujours le propriétaire pour éviter les problèmes de copyright.

  • Ne faites pas de requêtes de données trop souvent.

Les défis de l’extraction web

L’extraction de données web est un outil puissant et utile, mais elle présente quelques difficultés.

La variété des sites web avec des structures HTML différentes 

Si vous vous rappelez, nous avons été dans le code source et cherché les noms de classes précis pour cette page, pour extraire les données du site du gouvernement britannique. Si nous avions utilisé le même code pour extraire des données à partir d’un autre site, ça n’aurait pas marché. Il nous faut un outil d’extraction de données web spécifique pour chaque site !

Durabilité des scripts 

Comme vous le savez, internet change et se met à jour constamment. Bien qu’ils soient très utiles pour se tenir au courant, les scripts de données web qui reposent sur une structure HTML en particulier peuvent vite devenir obsolètes. Si vous avez un script que vous répétez sur une longue période, assurez-vous qu’il fonctionne comme vous le voulez.

En résumé

  • Il y a des problèmes légitimes sur l’éthique et la confidentialité quand on extrait des données web.

  • N’extrayez jamais les données personnelles de qui que ce soit, ou d’un site qui ne l’autorise pas.

  • Comme internet est en constante évolution, les scripts d’extraction de données web nécessitent d’être mis à jour.

Bravo !

Félicitations, vous avez atteint la fin de ce cours ! Une fois que vous aurez terminé le quiz, n’hésitez pas à relire les chapitres et à refaire les exercices qui étaient les plus difficiles à comprendre pour vous.

Si vous vous sentez en confiance avec vos compétences en Python, vous devriez passer à nos cours suivants, comme Mettez en place votre environnement Python.

À partir de là, vous pouvez appliquer vos talents dans le domaine des données avec le cours Découvrez les librairies Python pour la data science, ou dans le développement d’applications avec le cours Apprenez la programmation orientée objet avec Python.

Quelle que soit votre décision, j’ai aimé préparer ce cours pour vous, et je vous souhaite le meilleur dans vos projets à l’avenir ! ????