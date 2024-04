OpenAI a dévoilé une nouvelle capacité révolutionnaire : la possibilité de créer des voix synthétiques très réalistes en s'entraînant sur seulement 15 secondes d'enregistrement audio.

OpenAI vient de lever le voile sur Voice Engine, une toute nouvelle IA qui peut imiter n’importe quelle voix après l’avoir écouté pendant seulement 15 secondes. Le système Voice Engine n’est pas entièrement nouveau, puisqu’il a été développé pour la première fois par OpenAI à la fin de l'année 2022, une première version étant déjà utilisée pour les fonctions de synthèse vocale dans le célèbre assistant d'IA ChatGPT de l'entreprise. Cependant, c’est la première fois qu’Open AI en parle publiquement.

Comme le décrit un récent billet de blog de l'OpenAI, Voice Engine permet aux utilisateurs de créer des voix synthétiques d'un réalisme saisissant, capables de lire n'importe quel texte fourni “de manière émotive et réaliste”. L'entreprise a partagé quelques exemples de clones de voix, qui font preuve d'un naturel impressionnant, bien qu'il y ait encore un côté légèrement artificiel dans certains d'entre eux.

OpenAI veut révolutionner le marché avec Voice Engine

OpenAI cite plusieurs cas d'utilisation prometteurs de la technologie dans le monde réel, tels que des outils éducatifs, la traduction de podcasts dans de nouvelles langues, l'accès à des communautés éloignées et même l'aide à la communication pour les personnes non verbales. L'entreprise a déjà lancé “une avant-première à petite échelle” avec des partenaires sélectionnés qui ont bénéficié d'un accès anticipé.

Age of Learning, une entreprise spécialisée dans l'éducation, a utilisé Voice Engine pour générer des voix off scénarisées, tandis que l'application de narration visuelle par l'IA HeyGen offre aux utilisateurs la possibilité de créer des traductions fluides de l'audio avec la voix et l'accent de l'orateur d'origine.

L'exemple le plus marquant est sans doute celui de chercheurs qui ont pu “restaurer la voix” d'une jeune femme ayant perdu l'usage de la parole à la suite d'une tumeur cérébrale, en entraînant Voice Engine sur seulement 15 secondes d’un ancien enregistrement.

OpenAI alerte déjà sur les dangers d’une telle technologie

Toutefois, en dépit de ces cas d'utilisation qui pourraient s’avérer révolutionnaires, OpenAI adopte une position délibérément prudente quant à une diffusion plus large du système de clonage de la voix. L'entreprise invoque le besoin urgent de se prémunir contre toute utilisation abusive de la technologie à des fins malveillantes, telles que la diffusion de fausses informations et le clonage de voix sans le consentement de l'utilisateur.

Vous imaginez bien que certains pourraient vite s’amuser à diffuser de faux messages de personnalités célèbres sur les réseaux sociaux. On a également déjà vu des arnaqueurs utiliser l’IA pour imiter vos proches et vous demander de l’argent par téléphone,

Les implications de l'utilisation de l'IA de clonage de voix pour des campagnes de désinformation sont particulièrement importantes compte tenu des élections majeures qui se dérouleront aux États-Unis et au Royaume-Uni cette année. Les outils d'IA générative devenant de plus en plus sophistiqués dans les domaines de l'audio, du texte, des images et de la vidéo, il est de plus en plus difficile de distinguer le contenu réel du contenu artificiel. On a par exemple récemment vu Sora, une autre IA d’OpenAI qui peut générer des vidéos très réalistes en un rien de temps.

L'OpenAI a reconnu qu'il était essentiel de commencer à renforcer la “résilience sociétale” face aux défis posés par ces technologies. Elle a encouragé des mesures telles que l'abandon progressif de l'authentification vocale pour les comptes sensibles et a appelé à la mise en place de politiques visant à protéger les voix des individus, ainsi qu'à l'éducation du public sur les capacités de l'IA.

Pour l'instant, tous les échantillons de moteurs vocaux créés par les partenaires de l'OpenAI sont marqués d'un filigrane numérique pour permettre de retracer leur origine. L'entreprise a également déclaré qu'elle exigeait le consentement explicite du locuteur original et qu'elle n'autorisait pas la recréation des voix des candidats politiques pendant les périodes électorales.