oui, les erreurs, je les ai aussi de temps en temps :
en fait, j´appelle un programme externe (Nconvert.exe) qui se lance en ligne de commande, qui me resize les images pour qu´elles soient plus legeres, et des fois, il échoue.
(j´ai vérifié, l´image existe bien, c´est juste nconvert qui ne la trouve pas... pourquoi ? peut etre qu´il n´aime pas les appels en chaine... pourtant, je l´appelle en 2e phase, celle qui n´est plus multithread)
Cependant, cette erreur n´est pas grave : au pire, l´image garde sa taille d´origine et, quand je construits le HTML, j´impose la taille de l´image : donc ça marche quand meme : au pire, le peu d´image rejetées sont resizées par IE ou Mozilla.
Sinon, pour la base de JV, en fait, j´ai fait des tests empiriques, et voici ce que j´ai trouvé :
Tout est fait dans le meme moule, donc quand ça marche pour un jeu, ça marche pour tous :
Voici la recette :
https://www.jeuxvideo.com/jeux/000d/000xxxxx.htm
avec :
xxxxx = numéro du jeu
d = xxxxx/10000 (pour ne pas avoir trop de fichier dans le meme répertoire)
Avec ça, j´ai le jeu numéro xxxxx.
ça commence a 00002 (c´est Quake), et, les jeux récents sont dans les ~15000, donc si on veut toute la base, faut faire varier de 2 à 17000 on va dire (évolutif avec les années)
avec cette adresse, tu as la page de garde d´un jeu, pareil, toujours dans le meme moule.
Ensuite, il faut retrouver la "clé" du jeu, son identifiant pour les images.
Celui la est de la forme :
xxxxmm
avec :
xxxx -> code de 4 lettres pour le jeu
mm -> code de la machine
Ce code me permet de classer les jeux par machine.
Je le trouve avec un simple strstr, en partant du principe que ce code est, au moins une fois dans la page, par :
https://image.jeuxvideo.com/images/
Ensuite, l´adresse des images est :
http://image.jeuxvideo.com/images/mm/x/x/xxxxmm###.jpg
avec :
/x/x/ -> les 2 premiers lettres de xxxx
- -> numéro de l´image (la premiere est la 1, non la 0)
Ensuite, le programme balaie tout simplement les adresses comme ça. Je ne peux pas récupérer le nombre d´images : donc je teste entre 1 et une constante.
je me prends tres souvent des erreurs 404 -> mais je detecte, et j´ignore dans ce cas, tout simplement
Bref, une petite analyse, un peu de reverse engeneering sur structure de site 