Erreur scrapping python (urllib) sur le forum Programmation - 27-04-2020 12:49:05

Liste des sujets

Erreur scrapping python (urllib)

sumadartson

Niveau 3

27 avril 2020 à 12:49:05

Salut, je suis entrain de faire un code de scrapping en python .
A un moment il télécharge des clips sur twitch, ça fonctionne sauf qu'à un moment ça tombe sur un clip indisponible (il est indisponible même en y allant moi même).

Les lignes de téléchargement :

chemin = "clips/" + ps + "/" + c + ".mp4"
urllib.request.urlretrieve(dlUrl, chemin)

Quand ça arrive au clip indisponible j'ai cette erreur : urllib.error.HTTPError: HTTP Error 403: Forbidden

Ma question du coup c'est comment est ce que je peux, avant de télécharger le fichier, savoir que je vais avoir cette erreur et l'éviter, avec une condition par exemple.

J'ai essayé ça :


chemin = "clips/" + ps + "/" + c + ".mp4"
req = urllib.request.urlopen(dlUrl)
if req.getcode() == 200:
    urllib.request.urlretrieve(dlUrl, chemin)
else:
    print("Le clip n'est pas disponible .")

Mais ça change rien .

Message édité le 27 avril 2020 à 12:50:47 par sumadartson

MonsieurBeauf

Niveau 10

27 avril 2020 à 13:28:29

https://stackoverflow.com/questions/13303449/urllib2-httperror-http-error-403-forbidden

sumadartson

Niveau 3

27 avril 2020 à 14:13:43

Le 27 avril 2020 à 13:28:29 MonsieurBeauf a écrit :
https://stackoverflow.com/questions/13303449/urllib2-httperror-http-error-403-forbidden

Merci pour ta réponse.
J'ai vu ce genre de solution mais je suis pas sur que ce soit ce qu'il me faut.
Je suis retourné sur la page twitch ou les clips étaient indispo a cause d'un bug du site mais cette fois je pouvais y accéder, alors j'ai lancé mon script et ça a fonctionné.
Mais peut être que ce bug va revenir sur une autre page mais vu qu'elle est pas du a mon code et que je sais pas pourquoi la page bugé beh je sais pas comment adapter mon code.
J'ai voulu essayer avec try mais je sais pas comment lire l'erreur.

Message édité le 27 avril 2020 à 14:15:38 par sumadartson

blackapplex

Niveau 10

27 avril 2020 à 16:05:07

Savoir l'erreur avant qu'elle n'arrive ça me parait compliqué.
Tu peux cependant regarder la syntaxe de try oui, mais ça ne marche que si urllib te renvoit une exception.
https://docs.python.org/3/tutorial/errors.html
Oublie pas d'enregistrer les URL que t'as déjà scrap pour pas y retourner, et de mettre des délais entre tes requêtes. Des scrappers trop agressifs peuvent facilement se faire bloquer

sumadartson

Niveau 3

28 avril 2020 à 21:17:06

Le 27 avril 2020 à 16:05:07 blackapplex a écrit :
Savoir l'erreur avant qu'elle n'arrive ça me parait compliqué.
Tu peux cependant regarder la syntaxe de try oui, mais ça ne marche que si urllib te renvoit une exception.
https://docs.python.org/3/tutorial/errors.html
Oublie pas d'enregistrer les URL que t'as déjà scrap pour pas y retourner, et de mettre des délais entre tes requêtes. Des scrappers trop agressifs peuvent facilement se faire bloquer

Je vais essayer ça merci ...
C'est exactement ce que je suis entrain de faire

Aide à l'achat Mac
Macintosh
Création de Jeux
Programmation
Création de sites web
Linux
Internet
Steam Deck
Hardware

La vidéo du moment

News jeu

32 996 spectateurs

Avec ce projet de loi, il serait impossible de parler à ses coéquipiers de moins de 16 ans sur les jeux vidéo multijoueur

C’est officiel ! Au Royaume-Uni, l’accès aux réseaux sociaux pour les moins de 16 ans sera banni à partir du printemps 2027. Après des semaines de débat acharné, le Premier ministre britannique Keir Starmer et son gouvernement ont décidé d’attaquer de front un problème qu’ils estiment grandissant : l’accès peu ou prou contrôle des mineurs aux espaces numériques. Mais si la réforme vise principalement à refouler les moins de 16 ans des plateformes que sont TikTok, YouTube, Snapchat ou Instagram, c’est surtout ce qu’elle entraîne dans l’industrie vidéoludique qui nous intéresse ici.

Toutes les news jeu