CONNEXION
  • RetourJeux
    • Sorties
    • Hit Parade
    • Les + populaires
    • Les + attendus
    • Soluces
    • Tous les Jeux
    • Gaming
  • RetourActu Gaming
    • News
    • Astuces
    • Tests
    • Previews
    • Toute l'actu gaming
  • RetourBons plans
    • Bons plans
    • Bons plans Smartphone
    • Bons plans Hardware
    • Bons plans Image et Son
    • Bons plans Amazon
    • Bons plans Cdiscount
    • Bons plans Decathlon
    • Bons plans Fnac
    • Tous les Bons plans
  • RetourJVTech
    • Actus High-Tech
    • Intelligence Artificielle
    • Smartphones
    • Mobilité urbaine
    • Hardware
    • Image et son
    • Tutoriels
    • Tests produits High-Tech
    • Guides d'achat High-Tech
    • JVTech
  • RetourCulture
    • Actus Culture
    • Culture
  • RetourVidéos
    • A la une
    • Gaming Live
    • Vidéos Tests
    • Vidéos Previews
    • Gameplay
    • Trailers
    • Chroniques
    • Replay Web TV
    • Toutes les vidéos
  • RetourForums
    • Hardware PC
    • PS5
    • Switch 2
    • Xbox Series
    • Switch
    • Pokemon pocket
    • FC 25 Ultimate Team
    • League of Legends
    • Tous les Forums
  • PC
  • PS5
  • Xbox Series
  • Switch 2
  • PS4
  • One
  • Switch
  • iOS
  • Android
  • MMO
  • RPG
  • FPS
En ce moment Genshin Impact Valhalla Breath of the wild Animal Crossing GTA 5 Red dead 2
Liste des sujets

Scraping twitter python

MonsieurBeauf
MonsieurBeauf
Niveau 10
09 juillet 2020 à 19:40:18

Salut, pour un projet j'ai besoin faire de récolter des tweets, environ 500 tweets chaque jours sur une période de 10 ans sur 500 recherches (ça fait beaucoup oui), je suis en python et pour l'instant j'utilise GetOldTweets3 pour les récupérer mais ça prend un temps de dingue, pour une seule recherche (sur ~500 donc) il me faudrait environ une semaine pour tout obtenir, auriez vous une méthode pour accélérer le processus ?

En gros voilà ce que je fais pour l'instant :
J'ai une table contenant toutes les dates, qui représentent environ 10 ans, le critère de recherche et je boucle, pour chaque jour, une requête via la librairie pour récupérer les tweets puis je les stock.

Azerban
Azerban
Niveau 16
09 juillet 2020 à 19:51:41

Il y a twint codé en Python qui est vraiment bien. Tu peux l'utiliser en ligne de commande. J'imagine qu'un script Bash peut résoudre ton problème.

Tu peux faire des recherches via des mots-clés, dates, pseudos, etc... Super outils.

https://github.com/twintproject/twint

Pour l'installer :

pip install twint
MonsieurBeauf
MonsieurBeauf
Niveau 10
09 juillet 2020 à 19:55:03

Le 09 juillet 2020 à 19:51:41 Azerban a écrit :
Il y a twint codé en Python qui est vraiment bien. Tu peux l'utiliser en ligne de commande. J'imagine qu'un script Bash peut résoudre ton problème.

Tu peux faire des recherches via des mots-clés, dates, pseudos, etc... Super outils.

https://github.com/twintproject/twint

Pour l'installer :

pip install twint

ah nickel ouais merci ! mais côté vitesse il est rapide ?

Azerban
Azerban
Niveau 16
09 juillet 2020 à 20:01:50

Le 09 juillet 2020 à 19:55:03 MonsieurBeauf a écrit :

Le 09 juillet 2020 à 19:51:41 Azerban a écrit :
Il y a twint codé en Python qui est vraiment bien. Tu peux l'utiliser en ligne de commande. J'imagine qu'un script Bash peut résoudre ton problème.

Tu peux faire des recherches via des mots-clés, dates, pseudos, etc... Super outils.

https://github.com/twintproject/twint

Pour l'installer :

pip install twint

ah nickel ouais merci ! mais côté vitesse il est rapide ?

C'est pas le plus rapide, mais le problème c'est qu'avec l'API twitter t'es limité en scrapping. Là le parsing est "manuel" donc illimité. Mais si tu as plusieurs recherches, tu peux les lancer en parallèle. https://openclassrooms.com/fr/courses/235344-apprenez-a-programmer-en-python/2235545-faites-de-la-programmation-parallele-avec-threading

Sous forums
  • Aide à l'achat Mac
  • Création de Jeux
  • Linux
  • Création de sites web
  • Programmation
  • Internet
  • Steam Deck
  • Macintosh
  • Hardware
La vidéo du moment