L’IA Gemini de Google peut désormais écouter des fichiers audio pour vous aider

Quelques semaines seulement après avoir dévoilé son nouveau modèle d'IA phare, Gemini, destiné à concurrencer le ChatGPT d'OpenAI, Google a déjà donné un coup de fouet à cette technologie en la dotant de capacités de compréhension audio.

Selon un rapport d'Android Headlines, la dernière version 1.5 Pro de Gemini peut désormais ingérer, traiter et comprendre les données audio au-delà du texte et des images. Cette étape importante permet à Gemini de transcrire, de résumer et d'analyser des fichiers audio tels que des podcasts, des conférences, des appels à bénéfices et plus encore, directement à partir de la source audio d'origine.

Dans le contexte actuel, la plupart des outils de transcription et de résumé de l'IA s'appuient sur la conversion de l'audio en texte avant d'analyser le contenu. Mais Gemini 1.5 Pro supprime cette étape intermédiaire en comprenant l'audio à un niveau plus profond, ce qui peut améliorer la précision des réponses.

Lire également – Gemini : après Messages, l’IA de Google débarque dans cette application de la firme

Gemini peut comprendre votre voix, ou d’autres fichiers audio

Les compétences audio améliorées élargissent considérablement l'utilité de Gemini dans toute une série de cas d'utilisation professionnelle et créative. Imaginez que vous puissiez télécharger l'enregistrement d'une réunion d'entreprise de trois heures et recevoir en quelques secondes un résumé concis des points clés et des actions à entreprendre, généré par l'IA.

Les podcasters et les créateurs audio pourraient utiliser Gemini pour l'analyse thématique, les notes de préparation d'émissions et même la création de contenu audio assistée par la compréhension de l'IA. Les possibilités sont pratiquement infinies lorsque l'audio rejoint le texte et les images dans le répertoire de Gemini. Il s'agit d'un élément essentiel de la feuille de route de Google visant à faire de son modèle d'IA phare un véritable assistant multimodal capable de traiter n'importe quel type de données. D’ailleurs, Google a récemment noué un partenariat avec un géant de la publicité, donc cette nouvelle fonctionnalité pourrait bien l’aider à créer de nouvelles annonces.

Google semble adopter une approche prudente et contrôlée dans un premier temps. Pour l'instant, les nouvelles compétences audio de Gemini ne seront disponibles que via la plateforme de développement Vertex AI de Google et ses outils AI Studio, et non via le service disponible pour les consommateurs. Il s'agit d'une mesure prudente qui permettra à Google de valider rigoureusement la qualité et la robustesse des capacités audio de Gemini avant de les proposer à tous.


Abonnez-vous gratuitement à la newsletter

Chaque jour, le meilleur de Phonandroid dans votre boite mail !

Réagissez à cet article !

Demandez nos derniers articles !

NordVPN lance une protection des appels pour bloquer les arnaques et le démarchage téléphonique

La « Protection des appels », la nouvelle fonctionnalité de NordVPN, vise à lutter contre les arnaques et les appels téléphoniques abusifs. Elle est capable d’alerter les utilisateurs avant même…

Un OS entièrement conçu par l’IA, une mise à jour urgente pour votre Samsung, c’est le récap’ de la semaine

Un internaute laisse l’IA créer son propre système d’exploitation, le Galaxy S26 Ultra livré en avance, le patch de sécurité de mars débarque chez Samsung, c’est le récap’ de la…

Xiaomi S20 : le robot aspirateur est à seulement 86 €, l’offre se termine ce soir !

Xiaomi est le spécialiste des appareils high-tech avec un excellent rapport qualité-prix. Mais à l’occasion du Choice Day AliExpress, le robot aspirateur Xiaomi S20 est à un prix hallucinant. Pour…

Honor Magic V2 à prix sacrifié : dernières heures pour vous offrir cet incroyable smartphone pliable, vite !

Sorti pour presque 2000 euros, le smartphone pliable Honor Magic V2 est maintenant disponible pour seulement 573,53 euros. C’est un excellent prix pour un smartphone de cette qualité qui peut…

Garmin Forerunner 255 : la montre GPS multisport passe sous les 160 €

La Garmin Forerunner 255, toujours aussi populaire, voit son prix chuter au plus bas. Pendant quelques heures encore, AliExpress la propose sous la barre des 160 €. Découvrir l’offre sur…

Le PS Store de la PS5 affiche des prix différents pour le même jeu si vous êtes connecté à votre compte PlayStation ou non

Un mécanisme de tarification dynamique sur le PS Store modifie les prix des jeux selon certains critères. L’un d’entre eux semble être la connexion ou non à un compte PlayStation…

Le câble inclus avec le Galaxy S26 Ultra n’est pas compatible avec la charge rapide du smartphone

Pour recharger le Galaxy S26 Ultra à pleine vitesse, il ne faut pas utiliser le câble inclus dans la boîte du smartphone. Tout cela n’est pas très intuitif, Samsung.  Certains…

Orange a trouvé la solution contre le spam : l’opérateur va afficher le nom de celui qui appelle

Orange dévoile sa technologie Branded Calling, qui affiche le nom de l’entreprise appelante sur l’écran du destinataire. L’utilisateur pourra ainsi identifier s’il s’agit d’un spam ou s’il souhaite répondre à…

Une sortie dès 2027 pour la PS6 ? La retarder coûterait plus cher à Sony que de payer la RAM au prix fort

La sortie de la PS6 ne serait pas retardée à 2028 ou 2029, comme le clament certaines sources. Malgré la crise de la RAM et du stockage que l’on connaît,…

Ce mail vous paraît louche ? ChatGPT peut vous dire si c’est une arnaque, on vous explique tout

En plus de répondre à toutes vos questions et de vous aider dans de nombreuses situations, savez-vous que ChatGPT peut également devenir un rempart contre les arnaques en ligne ?…