Gemini : des utilisateurs accusent Google de mentir sur les capacités de mémoire réelles de son IA
Les promesses de Google concernant la fenêtre de contexte de Gemini sur ses formules d'abonnement les plus chères sont très impressionnantes… mais peut-être un peu trop. En effet, plusieurs utilisateurs mettent en garde depuis quelques jours sur les capacités réelles de l'IA, qui oublierait certains passages passé un certain seuil de tokens.

Google propose incontestablement l'une des offres payantes en matière d'IA les plus intéressantes sur le marché. Une stratégie qui s'est d'ailleurs renforcée suite à la dernière Google I/O, qui a vu l'annonce d'une refonte des formules d'abonnement, dont une donnant également accès à YouTube Premium Lite. Ce qui rend ces offres très concurrentielles, ce sont notamment les promesses de performances pour chacun des tiers disponibles.
Ainsi, pour les formules Google AI Pro et Google AI Ultra, la firme assure que Gemini se dote d'une fenêtre de contexte pouvant grimper jusqu'à 1 million de tokens. Pour rappel, la fenêtre de contexte désigne la quantité de données qu'un LLM peut traiter en une seule demande, le token désignant l'unité de mesure des données qui lui sont fournies. Dans ce cas précis, selon Google, cette fenêtre correspondrait à 1500 pages de texte ou 30 000 lignes de code.
Sur le même sujet — Gemini : la fonction Niveau de réflexion est disponible pour tout le monde, mais attention à ne pas en abuser
Google ment-il sur les capacités réelles de Gemini ?
Mais la réalité semble bien éloignée de ces promesses. Sur X (anciennement Twitter), le développeur @Soso_fun_yt alerte sur les pertes de mémoire à répétition de Gemini, mais en version payante. “Si le backend parvient à ingérer un fichier statique volumineux dès la première tentative, la mémoire de conversation active (la fenêtre de contexte dynamique / le cache KV du chat) semble souffrir d'un goulot d'étranglement important, sa capacité étant réduite à environ 16 000 lignes de code (soit 25 à 30 messages en moyenne)“, écrit-il.
Autrement dit, si Gemini peut effectivement traiter jusqu'à 1 million de tokens, il ne peut pas les analyser d'une seule traite. Cela signifie que passé un certain seuil, l'IA de Google commence à oublier ce qui a été dit plus tôt, heurtant la bonne continuité de ses réponses. Ce qui, forcément, s'empire au fur et à mesure que la conversation se poursuit. “En conséquence, le modèle souffre rapidement d'amnésie au sein de la même session de discussion, oubliant complètement les instructions, les blocs de code ou les contraintes précédentes”, explique @Soso_fun_yt.
Hello everybody ! ^^
I need to raise a critical issue regarding the @GeminiApp. There is a major compliance and transparency discrepancy regarding the advertised "1 Million Token Context Window" for AI Pro and AI Ultra plans, specifically how it is marketed versus how it… pic.twitter.com/8MxMApmSD9
— Soso fun ✨ (@Soso_fun_yt) June 3, 2026
“D'un point de vue technique et juridique, il est trompeur de présenter une fenêtre de 1 million de jetons pour les « chats » alors que l'interface repose sur une fenêtre coulissante active très restrictive”, poursuit-il. Ce problème a par ailleurs déjà été soulevé par plusieurs membres de Reddit au cours des dernières semaines — tout en précisant que la formule Google AI Ultra, donc la plus chère, s'en sort mieux dans ce domaine que ses comparses.
Reste donc à savoir si Google ment à ses utilisateurs. A priori, non : le million de tokens analysé semble bel et bien respecté par les versions les plus chères de Gemini. Mais force est de constater que cette puissance est limitée, que ce soit volontairement ou par des contraintes techniques. La fenêtre de contexte réelle semble bien réduite par rapport à la promesse, certes théoriquement atteignable mais en réalité lointaine, de Google. Comme souvent, il s'agit donc d'une question de communication : de ce dont on se vante, et de ce qu'on le cache discrètement sous le tapis.