CONNEXION
  • RetourJeux
    • Tests
    • Soluces
    • Previews
    • Sorties
    • Hit Parade
    • Les + attendus
    • Tous les Jeux
  • RetourActu
    • Culture Geek
    • Astuces
    • Réalité Virtuelle
    • Rétrogaming
    • Toutes les actus
  • RetourHigh-Tech
    • Actus JVTECH
    • Bons plans
    • Tutoriels
    • Tests produits High-Tech
    • Guides d'achat High-Tech
    • JVTECH
  • RetourVidéos
    • A la une
    • Gaming Live
    • Vidéos Tests
    • Vidéos Previews
    • Gameplay
    • Trailers
    • Chroniques
    • Replay Web TV
    • Toutes les vidéos
  • RetourForums
    • Hardware PC
    • PS5
    • Switch
    • Xbox Series
    • Overwatch 2
    • FUT 23
    • League of Legends
    • Genshin Impact
    • Tous les Forums
  • PC
  • PS5
  • Xbox Series
  • PS4
  • One
  • Switch
  • Wii U
  • iOS
  • Android
  • MMO
  • RPG
  • FPS
En ce moment Genshin Impact Valhalla Breath of the wild Animal Crossing GTA 5 Red dead 2
Etoile Abonnement RSS

Sujet : Programme : Récupérer les images dans les articles Boursorama

News culture
La Planète des Singes : Le Nouveau Royaume - la révolution simienne est en marche !
DébutPage précedente
1
Page suivantePage suivante
defectible defectible
MP
Niveau 4
01 octobre 2020 à 06:29:45

Bonjour,

Est il facile de faire un programme qui peut ouvrir tous les artciles du jour de Boursorama pour récupérer toutes les photos qui y sont présentes ? https://www.boursorama.com/actualite-economique/

Je le fais manuellement pour récupérer les images que je trouve intéressantes mais c'est long, fatiguant et répétitif. Si je pouvais voir toutes les photos disponibles en un coup d'oeil cela me ferait gagner un temps précieux.

Je ne m'y connais pas en programmation mais je vais me lancer dans python bientot. Est ce qu'un programme comme celui que je viens de décrire est compliqué à mettre en oeuvre ?

Message édité le 01 octobre 2020 à 06:30:23 par defectible
Pseudo supprimé
Niveau 8
03 octobre 2020 à 11:45:06

Non, le web scrapping avec Python est quelque chose de très facile.

Regarde du côté de BeautifulSoup, Scrapy, ..

Azerban Azerban
MP
Niveau 15
03 octobre 2020 à 16:24:51

Cadeau :hap:


import os

import requests
from bs4 import BeautifulSoup


def urls_articles(url_page):
    response = requests.get(url_page)
    soup = BeautifulSoup(response.content, "html.parser")
    print(f"Scraping de : {soup.title.text}")
    return set([url['href'] for url in soup.find_all("a", class_="c-link") if url['href'].startswith('/actualite-economique/actualites/')])

def image_parser(url_article):
    content = requests.get(url_article).content
    soup = BeautifulSoup(content, "html.parser")
    images = [url['data-original-src'] for url in soup.find_all('div', class_='c-thumb-lazy')]
    return images

def download(image_url, directory):
    filename = image_url.split('/')[-1]
    content = requests.get(image_url).content
    filepath = os.path.join(directory, filename)
    
    if not os.path.exists(filepath):
                
        with open(filepath, 'wb') as file:
            file.write(content)
        
if __name__ == "__main__":
    
    directory = "Images"

    if not os.path.exists(directory):
        os.makedirs(directory)
    
    # On récupère les articles des 10 premières pages d'actualités
    for i in range(1, 11):
            
        boursorama_url = f"https://www.boursorama.com/actualite-economique/page-{str(i)}"

        for article in urls_articles(boursorama_url):
            url = "https://www.boursorama.com" + article
            print(url)
            for image_url in image_parser(url):
                print('--->', image_url)
                download(image_url, directory)
            print("\n")

On récupère toutes les images de tous les articles des 10 premières pages.

defectible defectible
MP
Niveau 4
05 octobre 2020 à 17:15:06

Un GROS merci khey !

je te mp pour plus d'info :hap:

DébutPage précedente
1
Page suivantePage suivante
Répondre
Prévisu
?
Victime de harcèlement en ligne : comment réagir ?
Infos 0 connecté(s)

Gestion du forum

Modérateurs : godrik, LGV
Contacter les modérateurs - Règles du forum

Sujets à ne pas manquer

La vidéo du moment