Que voulez-vous étudier aujourd’hui?
Apprenez les bases du langage Python
Table des matières
Partie 1:
Créez des données avec Python
Tirez un maximum de ce cours
Installez votre environnement Python
Lancez votre premier programme Python
Enregistrez vos données avec des variables
Classez des données avec les types de données
Enregistrez des groupes de données avec les listes
Enregistrez des données complexes avec des dictionnaires
Partie 2:
Gérez la logique du programme dans Python
Contrôlez le déroulement de votre programme avec des conditions
Répétez des tâches facilement à l’aide de boucles
Regroupez des tâches en utilisant des fonctions
Écrivez du code en évitant les erreurs courantes
Partie 3:
Extrayez des données du web avec les packages Python
Importez des packages Python
Extrayez et transformez des données avec l’extraction web
Chargez des données avec Python
Relevez les défis de l’extraction de données web
Relevez les défis de l’extraction de données web
Les problèmes éthiques de l’extraction de données web
L’extraction de données web est un outil vraiment pratique et puissant, mais parfois il y a des zones moralement grises.
Vous ne voudriez pas que des personnes extraient vos données personnelles, n’est-ce pas ? Ou qu’elles collectent des informations en ligne sur vous et vos amis ? Ces questions ne sont pas seulement légales, mais aussi morales. Que vous soyez ou non dans un pays dont la loi interdit l’extraction de données web, il est important de vous assurer que vous extrayez de façon éthique. Nous allons voir comment nous y prendre. Quels sites web sont extractibles ?
Les sites web n’ont pas tous des politiques qui autorisent d’extraire leurs données. Pour savoir si une entreprise l’autorise, assurez-vous de vérifier ses conditions générales.
Pour de nombreux sites, ceux-ci sont disponibles sur leur fichier robots.txt. Vous pouvez ajouter « /robots.txt » après l’URL du site pour voir s’ils en ont un.
Ici vous pouvez voir une capture d’écran de la page robots.txt de Facebook, qui indique très clairement (en anglais) que l’extraction est interdite :

Les solutions aux problèmes éthiques
Les astuces suivantes vont vous aider à éviter de potentiels problèmes moraux et éthiques avec la collecte de données :
Utilisez une interface publique si possible et si disponible. Plus de détails sur les interfaces sont disponibles dans le cours Adoptez les API REST pour vos projets web.
Fournissez un agent utilisateur dans l’en-tête de votre requête pour vous identifier en tant que développeur qui extrait de façon éthique.
Créditez toujours le propriétaire pour éviter les problèmes de copyright.
Ne faites pas de requêtes de données trop souvent.
Les défis de l’extraction web
L’extraction de données web est un outil puissant et utile, mais elle présente quelques difficultés.
La variété des sites web avec des structures HTML différentes
Si vous vous rappelez, nous avons été dans le code source et cherché les noms de classes précis pour cette page, pour extraire les données du site du gouvernement britannique. Si nous avions utilisé le même code pour extraire des données à partir d’un autre site, ça n’aurait pas marché. Il nous faut un outil d’extraction de données web spécifique pour chaque site !
Durabilité des scripts
Comme vous le savez, internet change et se met à jour constamment. Bien qu’ils soient très utiles pour se tenir au courant, les scripts de données web qui reposent sur une structure HTML en particulier peuvent vite devenir obsolètes. Si vous avez un script que vous répétez sur une longue période, assurez-vous qu’il fonctionne comme vous le voulez.
En résumé
Il y a des problèmes légitimes sur l’éthique et la confidentialité quand on extrait des données web.
N’extrayez jamais les données personnelles de qui que ce soit, ou d’un site qui ne l’autorise pas.
Comme internet est en constante évolution, les scripts d’extraction de données web nécessitent d’être mis à jour.
Bravo !
Félicitations, vous avez atteint la fin de ce cours ! Une fois que vous aurez terminé le quiz, n’hésitez pas à relire les chapitres et à refaire les exercices qui étaient les plus difficiles à comprendre pour vous.
Si vous vous sentez en confiance avec vos compétences en Python, vous devriez passer à nos cours suivants, comme Mettez en place votre environnement Python.
À partir de là, vous pouvez appliquer vos talents dans le domaine des données avec le cours Découvrez les librairies Python pour la data science, ou dans le développement d’applications avec le cours Apprenez la programmation orientée objet avec Python.
Quelle que soit votre décision, j’ai aimé préparer ce cours pour vous, et je vous souhaite le meilleur dans vos projets à l’avenir ! ????