Les intelligences artificielles peuvent créer tant de choses de toutes pièces, et pourquoi pas les voix ? Alors que cette technologie était déjà possible, elle est maintenant normalisée, et ne nécessite que cinq secondes de votre voix pour vous copier…
Copier une voix en 5 secondes : vraiment ?
Imiter une voix est déjà quelque chose qui a été fait dans le passé. Sauf que ce genre d’accomplissement se fait via l’écoute d’un très grand nombre d’échantillons d'une voix, et permet de reproduire une sonorité moyennement proche de la réalité. On pense de suite aux assistants vocaux comme Siri qui, à ses débuts, avait une voix très robotique, jusqu’à l’arrivée d’une mise à jour qui la rendait beaucoup plus naturelle.
Mais ici, on ne parle pas de grandes entreprises qui confectionnent un robot capable de parler, mais bien d’une intelligence qui copie une voix et peut se faire passer pour elle en écoutant à peine cinq secondes en guise d’échantillon.
La chaîne YouTube Two Minute Papers nous montre quelques exemples. Avec des enregistrements de voix de 4 ou 5 secondes où une phrase très courte est prononcée par un homme ou un femme, plusieurs fichiers audios sont alors créés, dans lesquels une nouvelle phrase est dite. Le résultat est bluffant. On a réellement l’impression que c’est exactement la même personne qui parle. Mis à part quelques très légères différences de rythmes, c’est très facile de tomber dans le panneau.
Concrètement, l’IA doit être capable de capter les sons, de comprendre comment une personne parle, mais surtout de supposer comment sont prononcées certaines lettres et syllabes qui ne sont pas présentes dans l’échantillon. Il lui faut donc créer un modèle, qui s’appuie sur l’écoute de plusieurs milliers de personnes différentes.
Sur la vidéo, on peut voir que c’est l’API WaveNet de Google qui est utilisée, la même qui anime la voix de Google Assistant. D’après Google :
WaveNet crée des formes d'ondes sonores brutes à partir de zéro. Il fait appel à un réseau de neurones entraîné à l'aide d'un grand nombre d'échantillons vocaux. Pendant l'entraînement, le réseau extrait la structure sous-jacente de la parole, par exemple quelles tonalités se succèdent et à quoi ressemble une forme d'onde vocale réaliste. Lorsqu'il reçoit une entrée de texte, le modèle WaveNet entraîné peut générer les formes d'ondes vocales correspondantes à partir de zéro, un échantillon à la fois, et ce, en traitant jusqu'à 24 000 échantillons par seconde et en réalisant des transitions fluides entre chaque son.
Une vraie plaie pour les arnaques, et les doubleurs
Imaginez qu’il existe une ou plusieurs robots qui sont capables d’écouter moins de cinq secondes de vous en train de parler pour allègrement pomper votre timbre et se faire passer pour vous. Une méthode parfaite d’usurpation d’identité pour s’attaquer à des personnes vulnérables, comme les personnes âgées au téléphone. Comment ne pas se soucier des ses grand-parents, si notre voix est copiée et utilisée pour leur demander un petit “soutien financier”.
N’oublions pas non plus le milieu du doublage, qui ne peut qu’être en danger. Certains doubleurs en ressentent déjà les effets, avec des clients leur demandant de signer des contrats où ils s’engagent à ne pas les attaquer si leur voix est réutilisée par une IA.
On espère que ce genre de pratique et l'usage normalisé d’intelligences artificielles capable de reproduire des voix seront régularisés à l'avenir pour assurer que seuls les aspects positifs de cette technologie ne ressortent.