CONNEXION
  • RetourJeux
    • Tests
    • Soluces
    • Previews
    • Sorties
    • Hit Parade
    • Les + attendus
    • Tous les Jeux
  • RetourActu
    • Culture Geek
    • Astuces
    • Réalité Virtuelle
    • Rétrogaming
    • Toutes les actus
  • RetourHigh-Tech
    • Actus JVTECH
    • Bons plans
    • Tutoriels
    • Tests produits High-Tech
    • Guides d'achat High-Tech
    • JVTECH
  • RetourVidéos
    • A la une
    • Gaming Live
    • Vidéos Tests
    • Vidéos Previews
    • Gameplay
    • Trailers
    • Chroniques
    • Replay Web TV
    • Toutes les vidéos
  • RetourForums
    • Hardware PC
    • PS5
    • Switch
    • Xbox Series
    • Overwatch 2
    • FUT 23
    • League of Legends
    • Genshin Impact
    • Tous les Forums
  • PC
  • PS5
  • Xbox Series
  • PS4
  • One
  • Switch
  • Wii U
  • iOS
  • Android
  • MMO
  • RPG
  • FPS
En ce moment Genshin Impact Valhalla Breath of the wild Animal Crossing GTA 5 Red dead 2
Etoile Abonnement RSS

Sujet : [Recrut] Scraping d'un Forumjv

DébutPage précedente
1
Page suivantePage suivante
Glutamate Glutamate
MP
Niveau 10
18 novembre 2017 à 18:36:40

Bonjour,

Je suis le créateur d'un Forumjv : https://www.forumjv.com/forums/0-2000034-0-1-0-1-0-glu.htm

Qui sera amené à disparaître en Janvier 2018 suite à une décision de Webedia.

En conséquent, j'aimerais récupérer l'intégralité des messages de mon forum dans l'optique éventuelle de déménager par la suite sur une autre plateforme.

Je cherche donc un moyen d'extraire les messages du forum et de les stocker à un endroit, quel que soit le format de sortie (fichier csv, base de données MySQL...).

Le nombre de messages est estimé à 400 000. L'idée serait d'avoir une base qui ressemblerait à ça :

id_message | id_auteur | id_topic | date | contenu

Sachant programmer en R, Python, SQL et disposant de connaissances superficielles dans d'autres langages (C,C++, Java, HTML, PHP) je cherche une personne qui serait en mesure :

:d) Soit de m'aider à scraper le forum en R ou Python, et m'orienter vers un choix pertinent sur le format de stockage de ces données textuelles.
:d) Soit de faire ce travail à ma place, en échange d'une rémunération qu'on définira ensemble.

Ma boîte MP est ouverte. Merci à ceux qui pourraient nous venir en aide.

JoachimDuck JoachimDuck
MP
Niveau 9
19 novembre 2017 à 00:16:47

D'ailleurs, si ça peut aider, y a une limite au nombre de requêtes que tu peux faire sur JVC sans être considéré comme du DDOS. 3 requêtes / seconde de mémoire. Si t'enchaines les 3r/s, tu passes à 1r/s, etc.

cogis cogis
MP
Niveau 10
19 novembre 2017 à 16:22:01

C'est assez facile à faire

Une bdd mysql relationnel :

  • topics
  • Posts
  • pseudos

Tu boucles sur toutes les pages du forum, une page = 26 topics

=>>> tu boucles sur tout les topic de la page, l'id du topic est dans l'URL du topic, tu prend le même

=>>>>>> tu boucle sur toutes les pages du topic et sauvegardes tout les posts en prennant leur ID qui est dans l'html

Pour 400'000 messages ça devrait aller assez vite :hap:

Message édité le 19 novembre 2017 à 16:22:50 par cogis
Glutamate Glutamate
MP
Niveau 10
20 novembre 2017 à 19:08:03

En fait c'est la partie extraction des données à partir d'une page d'un topic où j'avais galéré, j'arrivais pas a trouver facilement les messages, pseudos et dates dans le code source html de la page.

Mais j'avais fait ça en 5mn sur R à une époque où c'était pas aussi urgent et prioritaire, je vais essayer de m'y replonger :hap:

D'ailleurs j'ai une autre question du même genre mais je la posterai plus tard sur ce topic car j'ai pas le temps là

merci pour les infos, 3 requêtes/s ça me suffit largement

Message édité le 20 novembre 2017 à 19:09:00 par Glutamate
Glutamate Glutamate
MP
Niveau 10
02 décembre 2017 à 14:34:19

Bon j'ai trouvé quelqu'un qui va faire tourner un script pour récupérer les données dans un format minimaliste.

Au-delà de ça, j'ai une deuxième requête qui consisterait cette fois-ci à récupérer les pages telles qu'elles sont actuellement, pour pouvoir consulter le forum en local après sa suppression. Est-ce que ma demande est claire et est-ce que vous pensez que c'est envisageable, si oui de quelle manière ?

Glutamate Glutamate
MP
Niveau 10
02 décembre 2017 à 14:39:56

En gros il faudrait aspirer l'ensemble des pages du forum pour en faire une version locale, avec les liens entre les pages qui seraient fonctionnels (genre si je clique sur un topic puis que je clique sur la page 2, il m'affiche la page 2). Vous allez me dire que ça serait très gourmand en mémoire, mais je suppose que les fichiers volumineux (images, arrières-plans) sont redondants et il n'y a donc pas besoin de les stocker autant de fois qu'il y a de pages à aspirer.

La 2ème possibilité, ce serait de se servir des données que j'ai récupérées pour redéployer le forum, toujours de manière locale, à partir du "squelette html" de l'interface de jvc. Comme si on voulait faire un jvc-like avec tout l'historique de mon forum quoi. Je suis ouvert à vos propositions :hap:

Pseudo supprimé
Niveau 10
02 décembre 2017 à 17:23:28

Le 02 décembre 2017 à 14:39:56 Glutamate a écrit :
En gros il faudrait aspirer l'ensemble des pages du forum pour en faire une version locale, avec les liens entre les pages qui seraient fonctionnels (genre si je clique sur un topic puis que je clique sur la page 2, il m'affiche la page 2). Vous allez me dire que ça serait très gourmand en mémoire, mais je suppose que les fichiers volumineux (images, arrières-plans) sont redondants et il n'y a donc pas besoin de les stocker autant de fois qu'il y a de pages à aspirer.

La 2ème possibilité, ce serait de se servir des données que j'ai récupérées pour redéployer le forum, toujours de manière locale, à partir du "squelette html" de l'interface de jvc. Comme si on voulait faire un jvc-like avec tout l'historique de mon forum quoi. Je suis ouvert à vos propositions :hap:

Tu peux utiliser un aspirateur de site genre celui là : http://www.httrack.com/
Mais ta 2e solution en utilisant les données récupérées serait plus propre :noel:

DébutPage précedente
1
Page suivantePage suivante
Répondre
Prévisu
?
Victime de harcèlement en ligne : comment réagir ?
Infos 0 connecté(s)

Gestion du forum

Modérateurs : Thymotep
Contacter les modérateurs - Règles du forum

Sujets à ne pas manquer

La vidéo du moment