Gemini active enfin cette fonctionnalité que tout le monde attendait

Le déploiement de certaines fonctionnalités de Gemini se fait progressivement. Si les capacités de compréhension audio de l’IA de Google ont été réservées aux développeurs pendant un temps, les utilisateurs y ont enfin accès.

Gemini mémoire Google
Crédits : 123RF

Lorsqu’il s’agit d’IA, les géants de la tech optent régulièrement pour une approche prudente quant au déploiement des nouvelles fonctionnalités. Cela passe généralement par un déploiement progressif, parfois associé à des programmes d’accès anticipé. Le but ? En vérifier la qualité, la robustesse et la sécurité avant de les proposer à tous.

C’est notamment le cas de Google avec Gemini. L’an dernier, on vous annonçait que la firme de Mountain View avait doté son IA de capacités de compréhension audio, mais que cette fonctionnalité n’était disponible que via la plateforme de développement Vertex AI de Google et ses outils AI Studio. Cette restriction appartient dorénavant au passé, selon nos confrères de 9to5Google : tout le monde peut désormais téléverser des fichiers audio dans l’application Gemini.

Lire aussi – Google annonce les limitations de Gemini avec un compte gratuit

Gemini prend enfin en charge les fichiers audio

Josh Woodward, Vice-Président de Google Labs et responsable de Gemini, a annoncé sur X (ex-Twitter) que l’application sur le web, Android et iOS prend désormais en charge les fichiers audio. Il rappelle qu’il s’agissait de la demande numéro 1 des utilisateurs. Pour accéder à cette nouveauté :

  • Ouvrez l’application Gemini
  • Appuyez sur +
  • Sélectionnez Importer des fichiers (sur le web) ou Fichiers (sur mobile)
  • Choisissez n’importe quel fichier audio : Mp3, M4A, WAV…

Pour les utilisateurs gratuits, « la durée totale de l’audio peut atteindre 10 minutes » et 3 heures pour les abonnés Google AI Pro ou Google AI Ultra. Quant à la vidéo, elle peut peser jusqu’à 2 Go et durer jusqu’à 5 minutes maximum pour les membres gratuits, et jusqu’à 1 heure pour ceux payants. Parmi les autres nouveautés, Google indique également qu’il est possible de téléverser jusqu’à 10 fichiers dans la même invite, et que les fichiers ZIP peuvent aussi en contenir jusqu’à 10. Aussi, peuvent être ajoutés à une discussion un dossier de code ou un dépôt GitHub avec une taille maximale de 100 Mo et 5 000 fichiers maximum.

Il s’agit d’une étape importante qui permet de renforcer le caractère multimodal de Gemini, mais aussi d’élargir son utilité : l’IA peut désormais transcrire, résumer et analyser des fichiers audio comme des podcasts, des appels ou des conférences.


Abonnez-vous gratuitement à la newsletter
Chaque jour, le meilleur de Phonandroid dans votre boite mail !
Réagissez à cet article !
Demandez nos derniers articles !