Microsoft dévoile ses propres modèles d’IA pour défier ChatGPT et Gemini

Microsoft vient de dévoiler deux modèles d’intelligence artificielle. Le premier se spécialise dans la voix, tandis que le second prépare de nouvelles fonctions textuelles. L’entreprise mise sur des outils conçus en interne pour concurrencer les IA déjà existantes.

robots ordinateurs programmation
Crédit : 123rf

Depuis plusieurs mois, les modèles d’intelligence artificielle se multiplient. Entre la rédaction de textes, la génération d’images ou encore la création de voix, les géants de la tech rivalisent pour imposer leurs solutions. Certains misent sur des partenariats, d’autres choisissent d’investir dans leurs propres infrastructures. Dans ce contexte très concurrentiel, chaque annonce attire l’attention et redistribue les cartes.

C’est désormais au tour de Microsoft d’officialiser le lancement de ses premiers modèles développés en interne. L’annonce a été faite ce jeudi par la division Microsoft AI, qui détaille dans un billet de blog la présentation de MAI-Voice-1 et MAI-1-preview. Le premier est un modèle vocal capable de générer une minute d’audio en moins d’une seconde avec une seule carte graphique. Le second est présenté comme une version de test, destinée à préparer de futures intégrations dans l’assistant Copilot.

Microsoft présente MAI-Voice-1 et MAI-1-preview pour concurrencer GPT-5 et ses rivaux

Le modèle MAI-Voice-1 est déjà utilisé pour certaines fonctionnalités. Il fait parler l’assistant Copilot dans “Copilot Daily”, un service qui lit les actualités à voix haute, et sert aussi à créer des discussions audio de type podcast. Les utilisateurs peuvent le tester sur Copilot Labs, en saisissant eux-mêmes du texte et en personnalisant la voix ou le style de lecture. Avec cette approche, Microsoft se place face à des solutions comme Gemini Live de Google ou le mode vocal de ChatGPT-5, qui misent eux aussi sur des échanges rapides et naturels avec une voix “quasi humaine”.

De son côté, MAI-1-preview a été entraîné sur environ 15 000 processeurs graphiques Nvidia H100. Il se concentre sur les usages grand public, avec l’objectif de fournir des réponses utiles à des questions du quotidien. Ce modèle sera progressivement intégré à Copilot pour certaines tâches textuelles, aux côtés des modèles d’OpenAI déjà utilisés. Là encore, la comparaison avec GPT-5 est inévitable, puisque Microsoft vise à offrir une alternative capable de suivre des instructions complexes tout en restant simple d’accès. Selon l’entreprise, l’avenir passera par une combinaison de modèles spécialisés capables de répondre à différents besoins, plutôt que par une unique solution universelle.


Abonnez-vous gratuitement à la newsletter
Chaque jour, le meilleur de Phonandroid dans votre boite mail !
Réagissez à cet article !
Demandez nos derniers articles !