CONNEXION
  • RetourJeux
    • Tests
    • Soluces
    • Previews
    • Sorties
    • Hit Parade
    • Les + attendus
    • Tous les Jeux
  • RetourActu
    • Culture Geek
    • Astuces
    • Réalité Virtuelle
    • Rétrogaming
    • Toutes les actus
  • RetourHigh-Tech
    • Actus JVTECH
    • Bons plans
    • Tutoriels
    • Tests produits High-Tech
    • Guides d'achat High-Tech
    • JVTECH
  • RetourVidéos
    • A la une
    • Gaming Live
    • Vidéos Tests
    • Vidéos Previews
    • Gameplay
    • Trailers
    • Chroniques
    • Replay Web TV
    • Toutes les vidéos
  • RetourForums
    • Hardware PC
    • PS5
    • Switch
    • Xbox Series
    • Overwatch 2
    • FUT 23
    • League of Legends
    • Genshin Impact
    • Tous les Forums
  • Smartphone et Tablette
  • Mobilité urbaine
  • Hardware
  • Image et son
  • WEB 3.0
  • Bons Plans
En ce moment Genshin Impact Valhalla Breath of the wild Animal Crossing GTA 5 Red dead 2
Créer un contenu
News JVTech Comme Dall-E, cette IA génère un son à partir de texte !
Profil de NilloF,  Jeuxvideo.com
NilloF - Rédaction jeuxvideo.com

L’intelligence artificielle n’en finit pas de nous surprendre. Alors que nous la connaissons principalement pour la génération d’images, des chercheurs ont réussi à trouver un moyen de l’utiliser pour générer des sons et ça marche plutôt bien.

39 207 vues

Après les générateurs d’images, voici les générateurs de sons

Les générateurs d’images à partir de texte sont maintenant inscrits dans l’ère temps, d’autant plus qu’OpenAI a annoncé la semaine dernière que DALL-E allait être disponible en ligne pour tout le monde. Grâce à des IA, comme Midjourney ou Stable Diffusion, nous pouvons désormais laisser les intelligences artificielles faire le travail à notre place. Il suffit de voir les résultats pour « une peinture d'un mignon chat noir dans une ville de style cyberpunk », pour comprendre que nos pinceaux et nos crayons peuvent finalement rester bien au chaud.

À vrai dire, c’est assez surprenant de constater les progrès qui ont été faits. Il y a quelques années à peine, les résultats que nous obtenions aujourd’hui étaient tout bonnement « horribles ». Mais finalement, c’est assez logique de voir que les avancées faites dans le domaine de l'intelligence artificielle se multiplient. Il y a quelques mois, les premiers générateurs vidéo textuels ont commencé à apparaître, et aujourd’hui, c’est au tour d’AudioGen, un générateur audio de se dévoiler au grand jour.

AudioGen : le DALL-E du son

AudioGen est un programme d'intelligence artificielle qui génère des sons à partir de descriptions textuelles - jusqu’ici rien d’étonnant. Les chercheurs de Meta et de l'Université hébraïque de Jérusalem, responsables du projet, décrivent leur outil comme un modèle génératif autorégressif utilisé pour interpréter des requêtes en langage naturel et générer des échantillons audio à partir de zéro.

Nous présentons « AudioGen : Textually Guided Audio Generation » !

AudioGen est un transformateur autorégressif qui synthétise de l’audio général à partir de texte (Text-to-Audio).

Penchons-nous maintenant sur quelques échantillons de l’IA en action. Comme on peut l'entendre dans le Tweet partagé par le chercheur Felix Kreuk, le programme d'intelligence artificielle a pu générer des sons liés à :

  • Quelqu'un qui siffle pendant que le vent souffle
  • Un homme qui parle pendant que les oiseaux chantent et que les chiens aboient
  • Des sirènes et un engin qui approche puis passe

Selon les chercheurs, ce modèle d'IA passe outre certains problèmes audio complexes. Elle est notamment capable de distinguer différents types de sons et de les séparer acoustiquement, elle peut aussi filtrer deux personnes qui parlent en même temps, tout en étant capable de simuler un bruit de fond tel que la réverbération.

Nous ne savons pas précisément quel ensemble de données a été utilisé, mais les membres du projet disent avoir formé le modèle « à l'aide de dix ensembles de données audio et d'étiquettes correspondantes ». Cela nous permet de rappeler que de nombreux modèles d'IA sont entraînés avec des ensembles ou sous-ensembles de données contenant des créations protégées par des droits d'auteur. Pour le moment, le projet se développe toujours à l'abri des regards, cependant les équipes ont l'intention de le rendre accessible au public assez rapidement. Ils publieront prochainement le code AudioGen et d'autres détails techniques sur leur profil GitHub.

Commentaires
Vous devez être connecté pour poster un commentaire.
Arajiny Arajiny
MP
Niveau 10
le 09 oct. 2022 à 22:08

Vivement la singularité.

Lire la suite...
Les jeux attendus
1
Grand Theft Auto VI
2025
2
Stellar Blade
26 avr. 2024
3
SAND LAND
26 avr. 2024
4
Légendes Pokémon Z-A
2025
5
Kingmakers
2024
La vidéo du moment