L’IA Gemini de Google peut désormais écouter des fichiers audio pour vous aider

Quelques semaines seulement après avoir dévoilé son nouveau modèle d'IA phare, Gemini, destiné à concurrencer le ChatGPT d'OpenAI, Google a déjà donné un coup de fouet à cette technologie en la dotant de capacités de compréhension audio.

Selon un rapport d'Android Headlines, la dernière version 1.5 Pro de Gemini peut désormais ingérer, traiter et comprendre les données audio au-delà du texte et des images. Cette étape importante permet à Gemini de transcrire, de résumer et d'analyser des fichiers audio tels que des podcasts, des conférences, des appels à bénéfices et plus encore, directement à partir de la source audio d'origine.

Dans le contexte actuel, la plupart des outils de transcription et de résumé de l'IA s'appuient sur la conversion de l'audio en texte avant d'analyser le contenu. Mais Gemini 1.5 Pro supprime cette étape intermédiaire en comprenant l'audio à un niveau plus profond, ce qui peut améliorer la précision des réponses.

Lire également – Gemini : après Messages, l’IA de Google débarque dans cette application de la firme

Gemini peut comprendre votre voix, ou d’autres fichiers audio

Les compétences audio améliorées élargissent considérablement l'utilité de Gemini dans toute une série de cas d'utilisation professionnelle et créative. Imaginez que vous puissiez télécharger l'enregistrement d'une réunion d'entreprise de trois heures et recevoir en quelques secondes un résumé concis des points clés et des actions à entreprendre, généré par l'IA.

Les podcasters et les créateurs audio pourraient utiliser Gemini pour l'analyse thématique, les notes de préparation d'émissions et même la création de contenu audio assistée par la compréhension de l'IA. Les possibilités sont pratiquement infinies lorsque l'audio rejoint le texte et les images dans le répertoire de Gemini. Il s'agit d'un élément essentiel de la feuille de route de Google visant à faire de son modèle d'IA phare un véritable assistant multimodal capable de traiter n'importe quel type de données. D’ailleurs, Google a récemment noué un partenariat avec un géant de la publicité, donc cette nouvelle fonctionnalité pourrait bien l’aider à créer de nouvelles annonces.

Google semble adopter une approche prudente et contrôlée dans un premier temps. Pour l'instant, les nouvelles compétences audio de Gemini ne seront disponibles que via la plateforme de développement Vertex AI de Google et ses outils AI Studio, et non via le service disponible pour les consommateurs. Il s'agit d'une mesure prudente qui permettra à Google de valider rigoureusement la qualité et la robustesse des capacités audio de Gemini avant de les proposer à tous.


Réagissez à cet article !

Demandez nos derniers articles !

The Mandalorian & Grogu : date de sortie, histoire, casting, tout ce qu’il faut savoir sur le retour de Star Wars au cinéma

Le duo le plus célèbre de la galaxie s’apprête à franchir une nouvelle étape. Après trois saisons à succès sur petit écran, Din Djarin et son apprenti Grogu font le…

Des fuites chez Samsung, un logiciel Windows piégé par un malware, c’est le récap’ de la semaine

Samsung dévoile malgré lui ses futurs smartphones pliables, un malware menace les PC Windows, Xiaomi propose de booster vos anciens téléphones, c’est le récap’ de la semaine. Cette semaine, le…

Test Honor 600 Pro : un smartphone équilibré et vraiment convaincant

Après le Honor 600, c’est au tour de sa version « Pro » de passer à la moulinette de nos tests. Plus cher et, surtout, plus ambitieux, le Honor 600 Pro reprend…

L’iPhone 18 Pro aurait une nouvelle technologie d’écran, pour quels bénéfices ?

Apple intégrerait pour la première fois des écrans de technologie LTPO+ pour ses iPhone 18 Pro, plus performants que les affichages LTPO traditionnels. Les iPhone 18 Pro et 18 Pro…

L’aide à la rédaction par IA de Gmail s’améliore, voici ce qui change

L’outil d’aide à la rédaction par IA de Gmail devient plus pertinent en prenant désormais en compte le contexte personnel de l’utilisateur. Des options de personnalisation du ton et du…

Instagram supprime le chiffrement de bout en bout, vos messages privés ne sont plus protégés

La sécurité de vos messages privés sur Instagram a pris un coup. Le réseau social vient d’annoncer la fin de la prise en charge du chiffrement de bout en bout,…

Les consoles portables sous Windows vont gagner en autonomie grâce à cette initiative de Xbox

Le projet Green Leaf de Xbox vise à réduire la consommation d’énergie des jeux afin d’améliorer l’autonomie des consoles portables tournant sous Windows. Xbox est au four et au moulin…

Le air fryer Ninja DualZone XL passe à petit prix en cumulant ces 2 offres, c’est le moment d’en profiter !

Vous cherchez un airfryer polyvalent pour cuisiner pour toute la famille ? La friteuse sans huile Ninja DualZone XL profite d’une grande capacité de 7,6 L divisée en deux zones….

Avec Android 17, l’écran d’accueil va enfin devenir plus personnalisable pour les Pixel

Google pourrait enfin laisser les utilisateurs supprimer la fameuse barre de recherche de l’écran d’accueil des Pixel dans une prochaine version d’Android 17. Le widget de barre de recherche Google…

Une fonctionnalité discrète mais très appréciée de Google Photos disparaît cet été. Elle concerne les utilisateurs qui sauvegardent leurs photos depuis un ordinateur. Google a déjà fixé les dates, et…

PC