Meta présente Voicebox, une IA capable de reproduire n’importe quel voix humaine

Meta vient de présenter officiellement Voicebox, une intelligence artificielle spécialisée dans la synthèse vocale. Ce modèle est capable de convertir du texte en fichier audio et générer des discours en basant avec ces échantillons de seulement deux secondes. 

meta voicebox
Crédits : 123RF

Comme vous le savez, les principaux acteurs de la Tech se sont lancées dans la course à l'IA. Après le lancement de ChatGPT en fin d'année 2022 et les 10 milliards de Microsoft investis dans la startup OpenAI, les géants du web se sont hâtés pour présenter à leur tour leur propre intelligence artificielle.

Google s'est illustré avec Bard, son IA conversationnelle, tandis que Meta a confirmé le développement de son IA dès avril 2023. Durant les derniers mois, la firme de Menlo Park a publié une multitude de modèles d'IA, à commencer par LLaMA (Large Language Model Meta AI), un modèle de langage open-source.

Il y a un peu, l'entreprise californienne a également dévoilé JEPA, un modèle qui a pour ambition de reproduire la pensée humaine, notamment en analysant et en comprenant des notions et concepts abstraits. Dans un tout autre domaine, Meta a également présenté MusicGen, une IA capable de créer une musique via une description textuelle basique.

meta voicebox
Crédits : Meta

Meta dévoile Voicebox, l'IA capable d'imiter la voix humaine

Or, ce 16 juin 2023, Meta a annoncé “sa nouvelle percée dans le domaine de l'IA générative pour la parole”. Cette IA, c'est Voicebox. Pour résumer, ce modèle d'IA de pointe est spécialisée dans la synthèse vocale. En d'autres termes, elle est capable de créer, modifier ou styliser des fichiers audio.

Abordons tout d'abord la fonctionnalité la plus intéressante (et probablement la plus problématique) de Voicebox : la synthèse texte-parole en contexte. En s'appuyant sur un extrait audio de deux secondes seulement, Voicebox est capable de générer un discours en simulant la voix et le phrasé de la personne entendue dans l'extrait.

De cette manière, Voicebox pourra simuler la voix d'un proche, d'un chanteur ou d'un homme politique. A l'avenir, Meta déclare que Voicebox et d'autres modèles d'IA générative similaires pourront donner des voix naturelles aux assistants vocaux ou aux PNJ dans le métaverse. En outre, ils pourraient également permettre aux malvoyants d'entendre des messages écrits avec les voix de leurs amis.

meta voicebox
Crédits : Meta

A lire également : Après Dall-E et Midjourney, cette nouvelle IA permet de générer une vidéo à partir d’un texte

Edition de fichiers audio et traduction instantanée

Mais ce n'est pas tout puisque Voicebox propose d'autres fonctionnalités :

  • L'édition de l'audio et la réduction de bruit : Voicebox peut recréer une portion de discours interrompue par du bruit ou remplacer des mots écorchés et mal prononcés sans avoir à enregistrer un nouveau un discours dans son intégralité (une sorte de gomme magique à la Google pour l'audio)
  • Traduction multilingue : Voicebox prend en charge six langues pour l'instant (anglais, français, espagnol, allemand, polonais et portugais), ce qui lui permet de transposer un discours dans une autre langue que celle du fichier original (tout en transposant le style et les nuances)

Pour réaliser ses différentes tâches, l'IA de Meta s'est perfectionnée sur plus de 50 000 heures d'extraits audio issus majoritairement de livres audio et de contenus libre de droits. Pour l'instant, Voicebox reste inaccessible au grand public, dans un souci de sécurité. Sans surprise, Meta redoute que son IA soit utilisée à mauvais escient, notamment pour imiter la voix de personnes réelles.

Source : Meta


Réagissez à cet article !

Demandez nos derniers articles !

Microsoft : une pluie de nouveautés attend Outlook et Teams ce printemps

Microsoft réserve plusieurs changements majeurs à deux de ses logiciels phares, Outlook et Teams. Ces nouveautés servent un même but : permettre aux utilisateurs de gagner du temps et en efficacité….

Samsung déçoit encore : le Galaxy Z Flip 8 conserverait ce vieil élément du Galaxy Z Flip 4

La puissance de charge est l’un des grands points faibles des Galaxy Z Flip de Samsung. Et ce ne serait pas le nouveau modèle qui viendrait corriger ce défaut. Pionnier…

Assassin’s Creed Black Flag Resynced : le trailer fuite avant la présentation officielle et c’est sublime

Alors qu’Ubisoft prévoyait d’attendre le 23 avril prochain pour enfin dévoiler son remake d’Assassin’s Creed Blackflag, voilà que le trailer s’est fait la malle sur X (anciennement Twitter). La fuite…

L’iPhone, nouveau roi du zoom ? Apple intégrerait un nouveau téléobjectif de 200 MP

Apple plancherait sur l’intégration d’un nouveau téléobjectif de 200 MP sur un futur iPhone. Ce capteur serait aussi particulièrement large. Apple ne participe pas à la course aux mégapixels que…

Le Find X9 Ultra est officiel : Oppo passe au niveau supérieur pour réinventer la photo et la vidéo mobiles

Oppo présente enfin le Find X9 Ultra : son tout premier modèle Ultra à être commercialisé en France. Spécifications, interface, design, prix : on fait le point sur tout ce…

Samsung démocratise la maison connectée : 25 appareils IKEA désormais directement intégrés à SmartThings

Samsung a son propre système de domotique : SmartThings. Ces derniers temps, la firme sud-coréenne multiplie les efforts pour étendre ses capacités. Le dernier en date consiste à rendre la création…

Deezer : près de 50 % des titres mis en ligne chaque jour sont générés par l’IA

La plateforme de streaming audio Deezer dévoile un chiffre choc sur les musiques s’ajoutant chaque jour au catalogue. La présence de l’IA ne cesse d’augmenter au fil du temps. Plus…

IA

Des barrettes de RAM DDR5 2 fois moins performantes : la solution d’Asus contre la pénurie ?

Asus et HKEPC testent des barrettes de mémoire RAM en divisant leur bande passante par deux. Ce serait l’une des solutions envisagées pour pallier la pénurie de composants. La crise…

Cette Citroën électrique à moins de 13 000 € est une bonne affaire, sauf si vous lisez les petites lignes

Les voitures électriques abordables se font rares, mais Citroën vient de franchir un cap inédit. La ë-C3 Autonomie Urbaine descend à 12 990 € aides déduites, un record sur le…

WH-1000XX : Sony confirme par erreur le lancement d’un nouveau casque Bluetooth premium, mais attention à votre portefeuille

Une petite bourde de Sony a permis de confirmer une rumeur qui circule depuis des semaines : la sortie d’un nouveau casque Bluetooth premium. Celui-ci sera baptisé WH-1000XX et, malgré…