Dans cette vidéo, nous verrons comment utiliser ChatGPT pour extraire des données sur le Web. Nous allons utiliser l’API de …
Salut à tous et à toutes et bienvenue sur tuto face à l’écran dans cette vidéo nous verrons comment utiliser chat GPT pour faire du web scrapping [Musique] d’abord c’est quoi le web scraping le web scrapping et le processus qui consiste à extraire automatiquement des données de site Web à l’aide d’un script
Ou d’un programme il existe un grand nombre de librairies et framwork pour le web scrapping dans divers langages de programmation tels que Scrapy et beautiful soupe de Python ou chariot de Javascript pour créer un script de webscrapping vous devez généralement suivre les étapes suivantes inspectez le code source HTML du site
Web pour identifier les éléments que vous souhaitez extraire utilisez une bibliothèque ou un framework de scrapping web pour envoyer une requête HTTP au site Web et analysez la réponse HTML extrayez les données souhaitées du code HTML à l’aide de sélecteur ou d’expression x-pass stocker ou exporter les données selon vos besoins
Il est possible d’utiliser des IA pour faire du web scrapping mais cela dépend de la complexité de la tâche de scrapping et de la nature des données pour les tâches de scrapping simple tels que l’extraction de données structurées à partir de page web statique il est possible d’utiliser des outils de
Scrapping automatique et basé sur des règles pour des tâches de scrapping plus complexes tels que l’extraction de données à partir de page Web dynamique ou l’analyse de données non structurées il est possible d’utiliser des IA pour améliorer les performances de scrapping par exemple on peut utiliser des réseaux
De neurones pour l’analyse de données non structurées telles que le texte ou des algorithmes de traitement de la vision pour extraire des informations à partir d’images il est important de noter que l’utilisation dia pour le scrapping peut être considérée comme illégal ou contre les conditions d’utilisation du site web
Il est donc important de vérifier les Conditions d’utilisation avant de commencer dans cette vidéo nous verrons comment utiliser chat GPT pour extraire des données sur le web nous allons utiliser l’API de openheim pour accéder à chaque GPT et nous allons utiliser la bibliothèque python beautiful sous 4 pour analyser les données extraites
Commençons par installer les dépendances nécessaires en utilisant pipe rendez-vous dans votre navigateur et rechercher python beautiful sous 4 ensuite cliquez sur le premier lien et copier la commande suivante [Musique] ouvrez votre terminal et collez la commande puis installe beautiful sous 4 après l’installation nous allons faire la démonstration avec chat GPT
Rendez-vous dans votre navigateur et recherchez chat GPT ensuite connectez-vous afin d’accéder à l’interface principale si vous avez des difficultés je vous invite à regarder la vidéo qui s’affiche en qui présente le fonctionnement de chat GPT je vous mettrai également le lien dans la description première nous allons extraire des
Données d’un site web qui répertorie les citations de personnes célèbres il comporte de nombreux points d’accès présentant les citations de différentes manières chacune d’entre elles présentant de nouveaux défis de scrapping pour vous comme des cris ci-dessous chaque citation est reliée à un auteur et peut avoir un ou plusieurs tags
Donc demandé à tchat GPT de Me scrapper cote au scrap.com en utilisant Python et beautiful saut il m’a généré des blocs de code alors je lui demanda de me regrouper ça ensemble [Musique] ensuite j’ai créé un répertoire que j’ai nommé scrapping GPT test sur mon bureau dans ce répertoire j’ai créé un fichier
Code point Pailly que j’ai ensuite ouvert dans vxcode [Musique] après cela j’ai copié le code que m’a généré chat GPT et je l’ai collé dans mon fichier pointpaille [Musique] pour tester ça j’ouvre un terminal dans le répertoire de mon fichier lorsque j’exécute le code pour la première fois j’obtiens un index erreur
Ce qui veut dire qu’il essaie d’accéder à un élément de la liste qui n’existe pas probablement les données ont été mal récupérées pour confirmer cela j’ai lu rapidement le code on remarque donc qu’il est ses différer sur les listes cotes et auteurs avec une même boucle for logiquement les deux listes doivent
Avoir une même taille j’ai donné vérifié cela en affichant leur taille dans la console [Musique] après vérification je vois que la liste des auteurs est vide je retourne donc dans mon code et je vois que les auteurs sont récupérés avec le sélecteur spam ayant la classe au Thor je vais donc
Inspecter le site web pour confirmer cela [Musique] là je remarque qu’on devrait plutôt utiliser le sélecteur small pour la récupération après rectification je refais le test en affichant la taille de la liste hauteur en console et je vois que tout se sont bien passés finalement je teste à
Nouveau le code de tchat GPT avec la petite rectification et je vois que tout s’est bien passé il y a un tas de données qui ont été extraites on peut être fier de ça ensuite je demande à tchat GPT d’utiliser l’encodage utfi en définissant le paramètre d’encodage sur
L’utf8 nous nous assurons que tous les caractères spéciaux ou caractère non acquis du contenu HTML du site web seront correctement décodés et affichés dans la sortie de notre script je demande ensuite à notre ami chat GPT de m’exporter les données en CSV pour une bonne transportabilité des données
J’ai créé un nouveau fichier Python pour tester ce nouveau code [Musique] chat GPT nous a encore généré un bout de code je lui demande alors de régénérer le code entier après exécution un fichier code.csv nous a été généré dans notre répertoire [Musique] j’installe rapidement une extension excelviewer sur vxcode pour une meilleure visibilité
[Musique] dans notre deuxième exemple nous allons scrapper un site de booking ce site renferme des milliers de livres dont les prix et les évaluations ont été attribués au hasard et non pas de signification réelle j’ai tapé la même commande qu’avant webscrapbooks pointe au scrap.com usine Python [Musique]
J’ai donc décidé de créer un nouveau fichier pointpis pour exécuter ce code ensuite j’ai demandé à tchat GPT de m’extraire les le titre le prix et le lien de chaque livre chose qu’il a fait en quelques secondes [Musique] [Musique] il est important de noter que l’utilisation dia pour le scrapping peut
Être considérée comme illégal ou contre les conditions d’utilisation du site web il est donc important de vérifier les Conditions d’utilisation avant de commencer merci d’avoir regardé ce tutoriel n’oubliez pas de vous abonner à notre chaîne pour plus de contenu si vous avez des questions ou des commentaires
N’hésitez pas à les laisser dans la section commentaire j’espère que ce tutoriel vous a été utile à la prochaine [Musique]