L’IA Gemini de Google peut désormais écouter des fichiers audio pour vous aider

Quelques semaines seulement après avoir dévoilé son nouveau modèle d'IA phare, Gemini, destiné à concurrencer le ChatGPT d'OpenAI, Google a déjà donné un coup de fouet à cette technologie en la dotant de capacités de compréhension audio.

Selon un rapport d'Android Headlines, la dernière version 1.5 Pro de Gemini peut désormais ingérer, traiter et comprendre les données audio au-delà du texte et des images. Cette étape importante permet à Gemini de transcrire, de résumer et d'analyser des fichiers audio tels que des podcasts, des conférences, des appels à bénéfices et plus encore, directement à partir de la source audio d'origine.

Dans le contexte actuel, la plupart des outils de transcription et de résumé de l'IA s'appuient sur la conversion de l'audio en texte avant d'analyser le contenu. Mais Gemini 1.5 Pro supprime cette étape intermédiaire en comprenant l'audio à un niveau plus profond, ce qui peut améliorer la précision des réponses.

Lire également – Gemini : après Messages, l’IA de Google débarque dans cette application de la firme

Gemini peut comprendre votre voix, ou d’autres fichiers audio

Les compétences audio améliorées élargissent considérablement l'utilité de Gemini dans toute une série de cas d'utilisation professionnelle et créative. Imaginez que vous puissiez télécharger l'enregistrement d'une réunion d'entreprise de trois heures et recevoir en quelques secondes un résumé concis des points clés et des actions à entreprendre, généré par l'IA.

Les podcasters et les créateurs audio pourraient utiliser Gemini pour l'analyse thématique, les notes de préparation d'émissions et même la création de contenu audio assistée par la compréhension de l'IA. Les possibilités sont pratiquement infinies lorsque l'audio rejoint le texte et les images dans le répertoire de Gemini. Il s'agit d'un élément essentiel de la feuille de route de Google visant à faire de son modèle d'IA phare un véritable assistant multimodal capable de traiter n'importe quel type de données. D’ailleurs, Google a récemment noué un partenariat avec un géant de la publicité, donc cette nouvelle fonctionnalité pourrait bien l’aider à créer de nouvelles annonces.

Google semble adopter une approche prudente et contrôlée dans un premier temps. Pour l'instant, les nouvelles compétences audio de Gemini ne seront disponibles que via la plateforme de développement Vertex AI de Google et ses outils AI Studio, et non via le service disponible pour les consommateurs. Il s'agit d'une mesure prudente qui permettra à Google de valider rigoureusement la qualité et la robustesse des capacités audio de Gemini avant de les proposer à tous.


Réagissez à cet article !

Demandez nos derniers articles !

Une énorme cyberattaque empêche le démarrage des voitures, des milliers de conducteurs concernés

L’entreprise américaine Intoxalock, qui propose des systèmes d’éthylotests pour véhicules, est la cible d’une cyberattaque importante. Certains véhicules, dont le démarrage dépend des résultats de l’appareil, sont donc dans l’impossibilité…

Nokia passe déjà du Wi-Fi 7 au Wi-Fi 9, oubliez le Wi-Fi 8

Nokia vit déjà dans le futur. L’entreprise a en effet dévoilé ses ambitions quant à la future version du Wi-Fi, le Wi-Fi 9, sans même prendre la peine d’évoquer le…

Tesla : l’arrivée en Europe de la conduite autonome (FSD) prend du retard, une nouvelle date fixée

Après de nombreux tests aux Pays-Bas, le Full Self-Driving de Tesla (FSD) va encore devoir patienter avant d’y être autorisé. Les autorités devraient ainsi donner leur feu vert dans quelques…

Un nouveau bouton pour Gemini, une faille critique menace Android, c’est le récap’ de la semaine

Gemini profite d’un nouveau raccourci, la sécurité d’Android s’effondre, Samsung abandonne déjà son Galaxy Z Trifold, c’est le récap’ de la semaine. Cette semaine, alors que Google ajoute un bouton…

Windows 11 : le retour de cette option de la barre des tâches va ravir les nostalgiques (mais pas que…)

Plus de cinq ans auparavant, les utilisateurs de Windows avaient la possibilité de déplacer la barre des tâches sur le côté, à la verticale, une fonctionnalité qui a depuis disparu….

Malgré l’échec du Fire Phone, Amazon s’entête et prépare un smartphone dopé à l’IA

L’échec rencontré par le premier smartphone d’Amazon, le Fire Phone, semble avoir refroidi l’entreprise pendant plusieurs années. Mais Amazon serait en train de revenir à la charge, avec un nouveau…

Firefly : le reboot de la série culte se précise, un nouvel acteur au programme

Série culte des années 2000, Firefly va bientôt avoir droit à un reboot sous la forme d’un anime. Et, si la plupart des membres du casting originel prêteront leurs voix…

AliExpress casse les prix pour son anniversaire : voici les offres qui valent le coup

Pour célébrer son anniversaire, AliExpress lance une vague de promotions sur l’ensemble de son site, et notamment sur nombreux produits high-tech. Smartphones, tablettes, PC, casques et écouteurs, objets connectés : pendant…

30% de réduction sur le Sony WH-1000XM6 : enfin une vraie baisse de prix sur le casque premium

Le Sony WH-1000XM6 est l’un des casques sans fil les plus aboutis disponibles aujourd’hui, si ce n’est le meilleur. Il fait aujourd’hui l’objet d’une réduction de 140 €. Profiter de…

En promo à moins de 225 €, le Redmi Note 14 Pro+ est ultra performant pour son prix

Le Redmi Note 14 Pro+ voit son prix chuter de plus de 50% et passe sous la barre des 225 €. À prix-là, c’est un milieu de gamme très performant,…