L’IA Gemini de Google peut désormais écouter des fichiers audio pour vous aider

Quelques semaines seulement après avoir dévoilé son nouveau modèle d'IA phare, Gemini, destiné à concurrencer le ChatGPT d'OpenAI, Google a déjà donné un coup de fouet à cette technologie en la dotant de capacités de compréhension audio.

Selon un rapport d'Android Headlines, la dernière version 1.5 Pro de Gemini peut désormais ingérer, traiter et comprendre les données audio au-delà du texte et des images. Cette étape importante permet à Gemini de transcrire, de résumer et d'analyser des fichiers audio tels que des podcasts, des conférences, des appels à bénéfices et plus encore, directement à partir de la source audio d'origine.

Dans le contexte actuel, la plupart des outils de transcription et de résumé de l'IA s'appuient sur la conversion de l'audio en texte avant d'analyser le contenu. Mais Gemini 1.5 Pro supprime cette étape intermédiaire en comprenant l'audio à un niveau plus profond, ce qui peut améliorer la précision des réponses.

Lire également – Gemini : après Messages, l’IA de Google débarque dans cette application de la firme

Gemini peut comprendre votre voix, ou d’autres fichiers audio

Les compétences audio améliorées élargissent considérablement l'utilité de Gemini dans toute une série de cas d'utilisation professionnelle et créative. Imaginez que vous puissiez télécharger l'enregistrement d'une réunion d'entreprise de trois heures et recevoir en quelques secondes un résumé concis des points clés et des actions à entreprendre, généré par l'IA.

Les podcasters et les créateurs audio pourraient utiliser Gemini pour l'analyse thématique, les notes de préparation d'émissions et même la création de contenu audio assistée par la compréhension de l'IA. Les possibilités sont pratiquement infinies lorsque l'audio rejoint le texte et les images dans le répertoire de Gemini. Il s'agit d'un élément essentiel de la feuille de route de Google visant à faire de son modèle d'IA phare un véritable assistant multimodal capable de traiter n'importe quel type de données. D’ailleurs, Google a récemment noué un partenariat avec un géant de la publicité, donc cette nouvelle fonctionnalité pourrait bien l’aider à créer de nouvelles annonces.

Google semble adopter une approche prudente et contrôlée dans un premier temps. Pour l'instant, les nouvelles compétences audio de Gemini ne seront disponibles que via la plateforme de développement Vertex AI de Google et ses outils AI Studio, et non via le service disponible pour les consommateurs. Il s'agit d'une mesure prudente qui permettra à Google de valider rigoureusement la qualité et la robustesse des capacités audio de Gemini avant de les proposer à tous.


Réagissez à cet article !

Demandez nos derniers articles !

Les PC Windows plantent trois fois plus souvent que les Mac d’Apple, selon ce rapport

La fiabilité des Mac et autres iPhone est régulièrement mise en avant par la marque à la pomme. Et un nouveau rapport, baptisé « State of Digital Workspace », vient…

PC

Android renforce sa lutte contre le sideloading, préparez-vous à une attente interminable

Google met en place de nouvelles mesures pour sécuriser le téléchargement d’applications tierces sur Android. Il faudra en effet se soumettre à un délai de 24 h pour pouvoir profiter…

Star Wars Maul – Seigneur de l’ombre : date de sortie, histoire, casting, ce qu’il faut retenir de la nouvelle série Disney+

C’est l’événement que les fans de la galaxie lointaine attendaient pour ce printemps 2026. Après des années de rumeurs, le plus célèbre des apprentis Sith revient enfin sur Disney+ dans…

Cette extension très populaire pour Google Chrome met vos données personnelles en danger, faites attention

Des chercheurs en cybersécurité viennent de tirer la sonnette d’alarme. Une extension de Google Chrome permettrait en effet à des hackers de subtiliser vos données en un rien de temps……

Android 17 : grâce cette fonctionnalité inédite, la vitesse de charge des smartphones s’améliore du tout au tout

À l’occasion de la bêta 3 d’Android 17, Google est en train de tester une fonctionnalité bien pratique. Cette dernière, baptisée « Priority Charging », permet de mettre en pause…

Parents, vous devez appliquer ces conseils pour protéger l’empreinte numérique de vos enfants

En tant que parent, vous devez penser dès leur plus jeune âge à contrôler l’empreinte numérique que laissent vos enfants sur internet. Voici quelques bonnes pratiques à appliquer. La protection…

iOS 27 : calendrier de sortie, iPhone compatibles, tout ce que l’on sait de la future mise à jour majeure d’Apple

iOS 27 est la prochaine version majeure du système d’exploitation d’Apple. Cette mise à jour est annoncée comme celle qui permettra enfin à la marque à la pomme d’entrer vraiment…

Samsung prépare un Galaxy Z Fold inédit, de nouvelles lunes entourent Jupiter, c’est le récap’ de la semaine

Un Galaxy Z Fold Wide en approche, quinze satellites naturels découverts dans l’espace, le Galaxy Z Fold 8 se dévoile, c’est le récap’ de la semaine. Cette semaine, alors que…

L’intelligence artificielle commence à se rebeller, à faire n’importe quoi et c’est vraiment flippant

Triche, mensonge, suppression de données : l’intelligence artificielle commence à se retourner contre les utilisateurs. C’est en tout cas ce que laisse entendre une nouvelle étude financée par l’AI Security…

IA

Quand et comment regarder le GP F1 du Japon en direct et gratuitement ce dimanche ?

Le GP F1 du Japon se dispute ce dimanche 29 mars sur le mythique circuit de Suzuka, et avec un départ à 7h du matin heure française, il va falloir…