Si vous savez répondre à cette question, vous êtes plus intelligent que ChatGPT

Des chercheurs ont testé de nombreux modèles d'intelligence artificielle sur une question de logique simple et presque tous ont échoué. Parviendrez-vous à trouver la réponse ?

Un robot pensif devant un tableau rempli de formules mathématiques
Crédits : 123RF

À votre avis, l'intelligence artificielle est-elle supérieure aux êtres humains ? Il ne s'agit pas d'un sujet du bac de philosophie en avant-première, mais d'une question que l'on peut légitimement se poser quand on voit les progrès fulgurants de cette technologie. Dans certains domaines, c'en est même effrayant. L'IA obtient facilement son diplôme de médecine par exemple, et sert déjà à identifier des maladies que plusieurs experts ne parviennent pas à trouver. C'est bien simple : l'intelligence artificielle peut être plus humaine que nous.

Pourtant, une étude de l'organisation LAION montre que l'on est encore loin de la domination des machines. De nombreux modèles de langage ont été testés : GPT-3, GPT-4 et GPT-4o d'OpenAI, Claude 3 Opus d'Anthropic, Gemini de Google, Llama de Meta, Mixtral de Mistral… Le protocole de test est extrêmement simple puisqu'il s'agit de répondre à ce qu'on appelle le problème “Alice au pays des merveilles”. Presque toute ont échoué.

Les IA n'arrivent pas à répondre correctement à cette question de logique simple

Voici la question posée : “Alice a [X] frères et aussi [Y] sœurs. Combien de sœurs le frère d'Alice possède-t-il ?“. Plusieurs variantes sont utilisées, et les réponses des IA sont stupéfiantes. Llama 3 de Meta a eu droit à “Alice a quatre frères et une sœur” et il explique que chaque frère a… une seule sœur, Alice elle-même. Sauf qu'ils en ont bien 2 chacun, Alice et l'autre sœur mentionnée. Le pire, c'est que l'IA s'enfonce dans ses explications avec conviction.

Lire aussi – Cette IA peut créer un robot qui marche en 26 secondes, Terminator en approche ?

Comme le note l'étude, “[…] les modèles expriment également une confiance excessive dans leurs solutions erronées, tout en fournissant des explications souvent absurdes […] pour justifier et étayer la validité de leurs réponses manifestement erronées, en les rendant plausibles“. Au final, seul GPT-4o s'en sort avec les honneurs en répondant juste dans 65 % des cas, selon les formulations choisies. Ces résultats sont d'autant plus étonnants que les modèles de langage testés obtiennent de bons scores de MMLU, pour “Multi-task Language Understanding”, qui évalue la capacité d'une IA à résoudre des problèmes. Les chercheurs n'expliquent pas ce décalage, mais pointent la nécessité de revoir les mesures.


Réagissez à cet article !

Demandez nos derniers articles !

iOS 26.5 est disponible sur iPhone, voici les nouveautés

Apple a déployé la mise à jour vers la version stable d’iOS 26.5 sur ses iPhone. Elle permet notamment le chiffrement de bout en bout pour les messages RCS avec…

Xiaomi Mix Flip : 900 € de réduction sur cet excellent smartphone pliant, c’est une affaire !

Connaissez-vous le Mix Flip ? C’est le modèle de smartphone pliant de Xiaomi qui concurrence le Z Flip de Samsung. S’il était affiché plus de 1300 euros à sa sortie,…

Redmi Pad 2 Pro : la tablette passe à petit prix avec ce nouveau code !

Les French Days sont derrière, mais les promotions continuent sur AliExpress. Si vous cherchez une tablette polyvalente à prix accessible, la Redmi Pad 2 Pro est actuellement à prix cassé….

Marre des appels de démarchage ? Votre smartphone peut déjà les filtrer, voici comment faire

Comme des millions de Français, vous êtes probablement agacés de recevoir chaque jour des coups de fil de la part des démarcheurs. Et si on vous disait que votre smartphone…

La génération de vidéos par IA va encore passer un cap avec Gemini Omni

Google s’apprête à lancer Gemini Omni, un nouveau modèle de génération de vidéos par IA, qui s’annonce encore plus impressionnant que Veo. Google a grandement amélioré son modèle d’IA de…

IA

Attention, ce vélo électrique vendu chez Lidl présente un défaut qui oblige à cesser de l’utiliser

Un test indépendant a révélé un défaut structurel sur un vélo électrique vendu par Lidl. Le guidon présente des fissures qui pourraient conduire à une rupture brutale. Les propriétaires sont…

Les lunettes connectées deviennent l’outil d’une arnaque qui s’en prend aux femmes

Filmer quelqu’un à son insu dans la rue est devenu un jeu d’enfant avec les lunettes connectées. Certains en ont fait une arnaque, publiant les vidéos avant de réclamer de…

Test Samsung Galaxy Buds4 : ces écouteurs semi-ouverts offrent l’expérience la plus complète du marché, à une condition…

Lorsque Samsung a présenté les Galaxy S26, il a également officialisé sa nouvelle génération d’écouteurs : les Galaxy Buds4. La firme sud-coréenne entend non seulement proposer une expérience complète fidèle…

Une ère se termine chez Tesla avec la production des tout derniers Model S et Model X

Le Model S a inventé la voiture électrique moderne. Le Model X a imposé le luxe zéro émission. Toutes deux viennent d’assembler leurs derniers exemplaires, et leur disparition marque bien…

WhatsApp Plus est disponible sur iPhone, à quel prix et pour quels avantages ?

Meta a commencé à rendre disponible son abonnement WhatsApp Plus sur iPhone en Europe. Voici ce que propose cette offre payante, et à quel prix. L’abonnement payant WhatsApp Plus était…