Bonjour,
Il y a quelques mois j'ai écris un webscrapper qui me permettrait de récupérer les images du site Japscan (je ne donnerai pas l'URL pour des raisons évidentes)
Je pense que le site est accoutumé aux webscrappers car il semble disposer de pas mal de sécurité.
Le processus que le site utilise pour afficher les images semble être le suivant:
Il y a une <div> dont l'id est "image" avec comme paramètre data-src="url chiffrée"
A partir de cet URL chiffré il y a surement un script JS qui va chercher l'image à sa source sur le serveur.
La <div> image est ensuite peuplée de plusieurs canvas et d'un <a> qui fournit le lien vers la page suivante.
Du coup mon processus pour récupérer les pages était le suivant
# on recupere la div image
imageElement = driver.find_element(By.ID, "image")
# on attend que l'image soit affichée
WebDriverWait(imageElement, 10).until(EC.presence_of_element_located((By.TAG_NAME, "a")))
# ensuite je peux enregistrer l'image en faisant imageElement.screenshot()
Le problème c'est que maintenant quand j'accède au site depuis Selenium l'image n'est jamais chargée, comme s'il arrivait à détecter que j'utilisais un navigateur automatisé.
Il y aurait pas un paramètre à modifier pour tromper le site ?