L’IA Gemini de Google peut désormais écouter des fichiers audio pour vous aider

Quelques semaines seulement après avoir dévoilé son nouveau modèle d'IA phare, Gemini, destiné à concurrencer le ChatGPT d'OpenAI, Google a déjà donné un coup de fouet à cette technologie en la dotant de capacités de compréhension audio.

Selon un rapport d'Android Headlines, la dernière version 1.5 Pro de Gemini peut désormais ingérer, traiter et comprendre les données audio au-delà du texte et des images. Cette étape importante permet à Gemini de transcrire, de résumer et d'analyser des fichiers audio tels que des podcasts, des conférences, des appels à bénéfices et plus encore, directement à partir de la source audio d'origine.

Dans le contexte actuel, la plupart des outils de transcription et de résumé de l'IA s'appuient sur la conversion de l'audio en texte avant d'analyser le contenu. Mais Gemini 1.5 Pro supprime cette étape intermédiaire en comprenant l'audio à un niveau plus profond, ce qui peut améliorer la précision des réponses.

Lire également – Gemini : après Messages, l’IA de Google débarque dans cette application de la firme

Gemini peut comprendre votre voix, ou d’autres fichiers audio

Les compétences audio améliorées élargissent considérablement l'utilité de Gemini dans toute une série de cas d'utilisation professionnelle et créative. Imaginez que vous puissiez télécharger l'enregistrement d'une réunion d'entreprise de trois heures et recevoir en quelques secondes un résumé concis des points clés et des actions à entreprendre, généré par l'IA.

Les podcasters et les créateurs audio pourraient utiliser Gemini pour l'analyse thématique, les notes de préparation d'émissions et même la création de contenu audio assistée par la compréhension de l'IA. Les possibilités sont pratiquement infinies lorsque l'audio rejoint le texte et les images dans le répertoire de Gemini. Il s'agit d'un élément essentiel de la feuille de route de Google visant à faire de son modèle d'IA phare un véritable assistant multimodal capable de traiter n'importe quel type de données. D’ailleurs, Google a récemment noué un partenariat avec un géant de la publicité, donc cette nouvelle fonctionnalité pourrait bien l’aider à créer de nouvelles annonces.

Google semble adopter une approche prudente et contrôlée dans un premier temps. Pour l'instant, les nouvelles compétences audio de Gemini ne seront disponibles que via la plateforme de développement Vertex AI de Google et ses outils AI Studio, et non via le service disponible pour les consommateurs. Il s'agit d'une mesure prudente qui permettra à Google de valider rigoureusement la qualité et la robustesse des capacités audio de Gemini avant de les proposer à tous.


Abonnez-vous gratuitement à la newsletter

Chaque jour, le meilleur de Phonandroid dans votre boite mail !

Réagissez à cet article !

Demandez nos derniers articles !

Annoncée comme une révolution, cette batterie solide se heurte à la réalité

Annoncée pour début 2024, la première moto électrique dotée d’une batterie solide promettait une révolution. Son autonomie doublée et sa recharge en cinq minutes ont suscité de grands espoirs. Mais…

Vérification d’âge : l’Arcom menace de bloquer ces deux sites pour adultes

Deux sites pour adultes sont dans le viseur de l’Arcom pour ne pas avoir mis en place de système de vérification de l’âge. Ils risquent le blocage et le déréférencement….

Surprise ! Jupiter est plus petite que prévu : cette découverte cruciale défie notre vision des géantes gazeuses

Jupiter ne nous a pas encore livré tous ses secrets. La planète a récemment été remesurée grâce à la sonde Juno de la NASA, qui a révélé que la plus…

Ça fait quoi de laisser une Tesla Model 3 par -33 °C sans la préparer ?

Une Tesla Model 3 a été laissée toute une nuit dehors par -33 °C, sans aucune préparation préalable. Ce test en conditions extrêmes a mis en évidence les limites du…

Un blind test musical bientôt sur Spotify ? Le code de l’application révèle une nouvelle fonctionnalité de jeu

Spotify pourrait prochainement intégrer un jeu dans son application mobile. Un blind test est bien sûr attendu, mais des alternatives sont possibles.  Spotify est peu à peu devenue bien plus…

Proton VPN passe à l’offensive avec une offre abordable pour protéger votre confidentialité en ligne

Proton VPN propose jusqu’à 70% de réduction sur son abonnement. Cette offre à durée limitée est une opportunité pour protéger votre confidentialité et contourner les restrictions en ligne, à un…

Tesla déclenche une réforme du design automobile après plusieurs drames

Longtemps copiée, une idée venue de Tesla fait aujourd’hui polémique. Ce choix de design est désormais jugé trop risqué. Un pays a décidé de trancher. Depuis plus de dix ans,…

Google Gemini passera bientôt des commandes à votre place sur Android : en route pour l’ère de l’IA agentique

L’avenir de Gemini est agentique : Google l’a déjà laissé entrevoir à plusieurs reprises. Les fonctionnalités inhérentes à cette ambition se dévoilent progressivement dans le code de l’application. L’une d’elles…

La sortie de la nouvelle Xiaomi SU7 est imminente, voici les nouveautés

La Xiaomi SU7 restylée sera très bientôt disponible. Motorisation, habitacle, design, autonomie, de nombreuses nouveautés sont au programme. Deux ans après l’arrivée de la Xiaomi SU7 sur le marché, le…

Samsung tease l’arrivée de ses Galaxy S26 avec 3 vidéos et promet des fonctionnalités photo hors du commun

Ça y est, Samsung lance sa communication officielle autour de ses prochains flagships. Pour l’occasion, le constructeur coréen a publié trois vidéos, toutes annonçant des fonctionnalités bien précises. Mais surtout,…