Meta présente Voicebox, une IA capable de reproduire n’importe quel voix humaine

Meta vient de présenter officiellement Voicebox, une intelligence artificielle spécialisée dans la synthèse vocale. Ce modèle est capable de convertir du texte en fichier audio et générer des discours en basant avec ces échantillons de seulement deux secondes. 

meta voicebox
Crédits : 123RF

Comme vous le savez, les principaux acteurs de la Tech se sont lancées dans la course à l'IA. Après le lancement de ChatGPT en fin d'année 2022 et les 10 milliards de Microsoft investis dans la startup OpenAI, les géants du web se sont hâtés pour présenter à leur tour leur propre intelligence artificielle.

Google s'est illustré avec Bard, son IA conversationnelle, tandis que Meta a confirmé le développement de son IA dès avril 2023. Durant les derniers mois, la firme de Menlo Park a publié une multitude de modèles d'IA, à commencer par LLaMA (Large Language Model Meta AI), un modèle de langage open-source.

Il y a un peu, l'entreprise californienne a également dévoilé JEPA, un modèle qui a pour ambition de reproduire la pensée humaine, notamment en analysant et en comprenant des notions et concepts abstraits. Dans un tout autre domaine, Meta a également présenté MusicGen, une IA capable de créer une musique via une description textuelle basique.

meta voicebox
Crédits : Meta

Meta dévoile Voicebox, l'IA capable d'imiter la voix humaine

Or, ce 16 juin 2023, Meta a annoncé “sa nouvelle percée dans le domaine de l'IA générative pour la parole”. Cette IA, c'est Voicebox. Pour résumer, ce modèle d'IA de pointe est spécialisée dans la synthèse vocale. En d'autres termes, elle est capable de créer, modifier ou styliser des fichiers audio.

Abordons tout d'abord la fonctionnalité la plus intéressante (et probablement la plus problématique) de Voicebox : la synthèse texte-parole en contexte. En s'appuyant sur un extrait audio de deux secondes seulement, Voicebox est capable de générer un discours en simulant la voix et le phrasé de la personne entendue dans l'extrait.

De cette manière, Voicebox pourra simuler la voix d'un proche, d'un chanteur ou d'un homme politique. A l'avenir, Meta déclare que Voicebox et d'autres modèles d'IA générative similaires pourront donner des voix naturelles aux assistants vocaux ou aux PNJ dans le métaverse. En outre, ils pourraient également permettre aux malvoyants d'entendre des messages écrits avec les voix de leurs amis.

meta voicebox
Crédits : Meta

A lire également : Après Dall-E et Midjourney, cette nouvelle IA permet de générer une vidéo à partir d’un texte

Edition de fichiers audio et traduction instantanée

Mais ce n'est pas tout puisque Voicebox propose d'autres fonctionnalités :

  • L'édition de l'audio et la réduction de bruit : Voicebox peut recréer une portion de discours interrompue par du bruit ou remplacer des mots écorchés et mal prononcés sans avoir à enregistrer un nouveau un discours dans son intégralité (une sorte de gomme magique à la Google pour l'audio)
  • Traduction multilingue : Voicebox prend en charge six langues pour l'instant (anglais, français, espagnol, allemand, polonais et portugais), ce qui lui permet de transposer un discours dans une autre langue que celle du fichier original (tout en transposant le style et les nuances)

Pour réaliser ses différentes tâches, l'IA de Meta s'est perfectionnée sur plus de 50 000 heures d'extraits audio issus majoritairement de livres audio et de contenus libre de droits. Pour l'instant, Voicebox reste inaccessible au grand public, dans un souci de sécurité. Sans surprise, Meta redoute que son IA soit utilisée à mauvais escient, notamment pour imiter la voix de personnes réelles.

Source : Meta


Abonnez-vous gratuitement à la newsletter

Chaque jour, le meilleur de Phonandroid dans votre boite mail !

Réagissez à cet article !

Demandez nos derniers articles !

Notre consommation électrique bientôt limitée pour éviter les coupures de courant, Enedis y songe fortement

Dans la troisième Programmation Pluriannuelle de l’Énergie, on apprend notamment qu’Enedis réfléchit à limiter la consommation électrique de nos foyers pour éviter les coupures de courant généralisées. Comment, pour combien…

Disney+ : voici la liste des nouveaux films et séries à venir en février 2026

Disney vient de dévoiler la liste détaillée des prochaines séries et films à venir sur Disney+ et sur le catalogue Star. Que nous réserve la programmation de février 2026 ?…

Windows 11 : le bug qui a bloqué Chrome pendant des mois est enfin corrigé

Il ne fallait pas s’attendre à une annonce en grandes pompes pour ce correctif qui a pourtant affecté de nombreux utilisateurs pendant plusieurs mois. Dans un récent rapport, Microsoft annonce…

One UI 9 : Samsung testerait déjà la prochaine version de sa surcouche sur les futurs Galaxy Z Fold 8 et Z Flip 8

Alors que One UI 8.5 n’est même pas encore sortie dans sa version stable, une rumeur affirme que Samsung testerait déjà la prochaine version de sa surcouche sur ses prochains smartphones…

Ils envoyaient des SMS frauduleux en circulant dans les rues de Paris : 8 personnes font face à la justice

Six hommes et deux femmes se retrouvent devant le juge pour une affaire d’arnaque aux SMS. Le groupe utilisait illégalement un IMSI-catcher pour envoyer des messages frauduleux sur les smartphones…

Windows 11 pourrait bientôt permettre de bouger la barre des tâches, après des années à supplier Microsoft

Il se pourrait bien que Microsoft ait fini par plier face aux demandes incessantes des utilisateurs. Selon des informations obtenues pas Windows Central, Windows 11 intégrerait bientôt la possibilité de…

Voici les rendus de l’iPhone 17e, un modèle abordable qui ressemble à un haut de gamme

Une nouvelle fuite révèle le design et les premières infos techniques de l’iPhone 17e. Ce modèle abordable adopte un look haut de gamme et des composants modernes. Apple semble viser…

Flemme de lire ce document Google Docs interminable ? Gemini vous en fait désormais un résumé audio

La firme de Mountain View renforce la présence de Gemini dans Google Docs. Après la génération de résumés, la lecture à voix haute et la transformation des documents en podcast,…

Chrome sur Android accueille enfin cette option pratique de la version PC

Le rapprochement entre Chrome version mobile et version bureau continue. L’application Android du navigateur va gagner cette fonctionnalité bien utile pour pas mal d’utilisateurs. Ça paraît bête à dire, mais…

PS5 : un nouveau God of War, le DLC de Ghost of Yotei, Pragmata se montre encore, toutes les plus grosses annonces du State of Play

Hier soir s’est tenu un très gros State of Play qui, comme à son habitude, a dévoilé les prochaines cartouches de Sony pour sa PS5. La soirée a été très…