L’intelligence artificielle n’en finit pas de nous surprendre. Alors que nous la connaissons principalement pour la génération d’images, des chercheurs ont réussi à trouver un moyen de l’utiliser pour générer des sons et ça marche plutôt bien.
Après les générateurs d’images, voici les générateurs de sons
Les générateurs d’images à partir de texte sont maintenant inscrits dans l’ère temps, d’autant plus qu’OpenAI a annoncé la semaine dernière que DALL-E allait être disponible en ligne pour tout le monde. Grâce à des IA, comme Midjourney ou Stable Diffusion, nous pouvons désormais laisser les intelligences artificielles faire le travail à notre place. Il suffit de voir les résultats pour « une peinture d'un mignon chat noir dans une ville de style cyberpunk », pour comprendre que nos pinceaux et nos crayons peuvent finalement rester bien au chaud.
À vrai dire, c’est assez surprenant de constater les progrès qui ont été faits. Il y a quelques années à peine, les résultats que nous obtenions aujourd’hui étaient tout bonnement « horribles ». Mais finalement, c’est assez logique de voir que les avancées faites dans le domaine de l'intelligence artificielle se multiplient. Il y a quelques mois, les premiers générateurs vidéo textuels ont commencé à apparaître, et aujourd’hui, c’est au tour d’AudioGen, un générateur audio de se dévoiler au grand jour.
AudioGen : le DALL-E du son
AudioGen est un programme d'intelligence artificielle qui génère des sons à partir de descriptions textuelles - jusqu’ici rien d’étonnant. Les chercheurs de Meta et de l'Université hébraïque de Jérusalem, responsables du projet, décrivent leur outil comme un modèle génératif autorégressif utilisé pour interpréter des requêtes en langage naturel et générer des échantillons audio à partir de zéro.
We present “AudioGen: Textually Guided Audio Generation”!
— Felix Kreuk (@FelixKreuk) September 30, 2022
AudioGen is an autoregressive transformer LM that synthesizes general audio conditioned on text (Text-to-Audio).
📖 Paper: https://t.co/XKctRaShN1
🎵 Samples: https://t.co/e7vWmOUfva
💻 Code & models - soon!
(1/n) pic.twitter.com/UiJaA627bv
Nous présentons « AudioGen : Textually Guided Audio Generation » !
AudioGen est un transformateur autorégressif qui synthétise de l’audio général à partir de texte (Text-to-Audio).
Penchons-nous maintenant sur quelques échantillons de l’IA en action. Comme on peut l'entendre dans le Tweet partagé par le chercheur Felix Kreuk, le programme d'intelligence artificielle a pu générer des sons liés à :
- Quelqu'un qui siffle pendant que le vent souffle
- Un homme qui parle pendant que les oiseaux chantent et que les chiens aboient
- Des sirènes et un engin qui approche puis passe
Selon les chercheurs, ce modèle d'IA passe outre certains problèmes audio complexes. Elle est notamment capable de distinguer différents types de sons et de les séparer acoustiquement, elle peut aussi filtrer deux personnes qui parlent en même temps, tout en étant capable de simuler un bruit de fond tel que la réverbération.
Nous ne savons pas précisément quel ensemble de données a été utilisé, mais les membres du projet disent avoir formé le modèle « à l'aide de dix ensembles de données audio et d'étiquettes correspondantes ». Cela nous permet de rappeler que de nombreux modèles d'IA sont entraînés avec des ensembles ou sous-ensembles de données contenant des créations protégées par des droits d'auteur. Pour le moment, le projet se développe toujours à l'abri des regards, cependant les équipes ont l'intention de le rendre accessible au public assez rapidement. Ils publieront prochainement le code AudioGen et d'autres détails techniques sur leur profil GitHub.