Programme : Récupérer les images dans les articles Boursorama sur le forum Programmation - 01-10-2020 06:29:45

Sujet : Programme : Récupérer les images dans les articles Boursorama

Répondre

Nouveau sujet Liste des sujets

DébutPage précedente

Page suivantePage suivante

defectible

Niveau 4

01 octobre 2020 à 06:29:45

Bonjour,

Est il facile de faire un programme qui peut ouvrir tous les artciles du jour de Boursorama pour récupérer toutes les photos qui y sont présentes ? https://www.boursorama.com/actualite-economique/

Je le fais manuellement pour récupérer les images que je trouve intéressantes mais c'est long, fatiguant et répétitif. Si je pouvais voir toutes les photos disponibles en un coup d'oeil cela me ferait gagner un temps précieux.

Je ne m'y connais pas en programmation mais je vais me lancer dans python bientot. Est ce qu'un programme comme celui que je viens de décrire est compliqué à mettre en oeuvre ?

Message édité le 01 octobre 2020 à 06:30:23 par defectible

Pseudo supprimé

Niveau 8

03 octobre 2020 à 11:45:06

Non, le web scrapping avec Python est quelque chose de très facile.

Regarde du côté de BeautifulSoup, Scrapy, ..

Azerban

Niveau 15

03 octobre 2020 à 16:24:51

Cadeau


import os

import requests
from bs4 import BeautifulSoup


def urls_articles(url_page):
    response = requests.get(url_page)
    soup = BeautifulSoup(response.content, "html.parser")
    print(f"Scraping de : {soup.title.text}")
    return set([url['href'] for url in soup.find_all("a", class_="c-link") if url['href'].startswith('/actualite-economique/actualites/')])

def image_parser(url_article):
    content = requests.get(url_article).content
    soup = BeautifulSoup(content, "html.parser")
    images = [url['data-original-src'] for url in soup.find_all('div', class_='c-thumb-lazy')]
    return images

def download(image_url, directory):
    filename = image_url.split('/')[-1]
    content = requests.get(image_url).content
    filepath = os.path.join(directory, filename)
    
    if not os.path.exists(filepath):
                
        with open(filepath, 'wb') as file:
            file.write(content)
        
if __name__ == "__main__":
    
    directory = "Images"

    if not os.path.exists(directory):
        os.makedirs(directory)
    
    # On récupère les articles des 10 premières pages d'actualités
    for i in range(1, 11):
            
        boursorama_url = f"https://www.boursorama.com/actualite-economique/page-{str(i)}"

        for article in urls_articles(boursorama_url):
            url = "https://www.boursorama.com" + article
            print(url)
            for image_url in image_parser(url):
                print('--->', image_url)
                download(image_url, directory)
            print("\n")

On récupère toutes les images de tous les articles des 10 premières pages.

defectible

Niveau 4

05 octobre 2020 à 17:15:06

Un GROS merci khey !

je te mp pour plus d'info

DébutPage précedente

Page suivantePage suivante

Nouveau sujet Liste des sujets

Répondre

Sous-forums

Infos 0 connecté(s)

Gestion du forum

Modérateurs : godrik, LGV

Contacter les modérateurs - Règles du forum

Sujets à ne pas manquer

La vidéo du moment

News culture

115 389 spectateurs

Ce film fantastique est un classique, mais sa suite notée 0% est l'une des pires jamais réalisées !

Highlander II, la pire suite jamais réalisée ?

Toutes les news culture