Si vous savez répondre à cette question, vous êtes plus intelligent que ChatGPT

Des chercheurs ont testé de nombreux modèles d'intelligence artificielle sur une question de logique simple et presque tous ont échoué. Parviendrez-vous à trouver la réponse ?

Un robot pensif devant un tableau rempli de formules mathématiques
Crédits : 123RF

À votre avis, l'intelligence artificielle est-elle supérieure aux êtres humains ? Il ne s'agit pas d'un sujet du bac de philosophie en avant-première, mais d'une question que l'on peut légitimement se poser quand on voit les progrès fulgurants de cette technologie. Dans certains domaines, c'en est même effrayant. L'IA obtient facilement son diplôme de médecine par exemple, et sert déjà à identifier des maladies que plusieurs experts ne parviennent pas à trouver. C'est bien simple : l'intelligence artificielle peut être plus humaine que nous.

Pourtant, une étude de l'organisation LAION montre que l'on est encore loin de la domination des machines. De nombreux modèles de langage ont été testés : GPT-3, GPT-4 et GPT-4o d'OpenAI, Claude 3 Opus d'Anthropic, Gemini de Google, Llama de Meta, Mixtral de Mistral… Le protocole de test est extrêmement simple puisqu'il s'agit de répondre à ce qu'on appelle le problème “Alice au pays des merveilles”. Presque toute ont échoué.

Les IA n'arrivent pas à répondre correctement à cette question de logique simple

Voici la question posée : “Alice a [X] frères et aussi [Y] sœurs. Combien de sœurs le frère d'Alice possède-t-il ?“. Plusieurs variantes sont utilisées, et les réponses des IA sont stupéfiantes. Llama 3 de Meta a eu droit à “Alice a quatre frères et une sœur” et il explique que chaque frère a… une seule sœur, Alice elle-même. Sauf qu'ils en ont bien 2 chacun, Alice et l'autre sœur mentionnée. Le pire, c'est que l'IA s'enfonce dans ses explications avec conviction.

Lire aussi – Cette IA peut créer un robot qui marche en 26 secondes, Terminator en approche ?

Comme le note l'étude, “[…] les modèles expriment également une confiance excessive dans leurs solutions erronées, tout en fournissant des explications souvent absurdes […] pour justifier et étayer la validité de leurs réponses manifestement erronées, en les rendant plausibles“. Au final, seul GPT-4o s'en sort avec les honneurs en répondant juste dans 65 % des cas, selon les formulations choisies. Ces résultats sont d'autant plus étonnants que les modèles de langage testés obtiennent de bons scores de MMLU, pour “Multi-task Language Understanding”, qui évalue la capacité d'une IA à résoudre des problèmes. Les chercheurs n'expliquent pas ce décalage, mais pointent la nécessité de revoir les mesures.


Réagissez à cet article !

Demandez nos derniers articles !

Google améliore enfin le Fitbit Air, les choses vont changer

Le bracelet connecté de Google, le Fitbit Air, s’améliore. La firme de Mountain View est en effet en train de déployer un important correctif, qui devrait largement améliorer l’expérience des…

Démarchage téléphonique : le Conseil constitutionnel censure la loi, voici ce qui va changer

Véritable fléau des temps modernes, le démarchage téléphonique pourrait bientôt revenir en masse. Suite à une action en justice d’Orange, le Conseil constitutionnel a en effet censuré plusieurs dispositions d’une…

Test Fiido T2 : Le vélo pour toute la famille sans se ruiner

Le constructeur Fiido ne pouvait passer à côté du segment des longtails, des vélos à assistance électrique pensés pour transporter confortablement et en toute sécurité les enfants. Voici le nouveau…

C’est la fin pour Aibo : Sony enterre son chien-robot emblématique

Le chien-robot ERS-1000 Aibo de Sony, c’est bientôt terminé. Le fabricant a en effet annoncé son intention de cesser de vendre l’adorable compagnon robotique dans son pays d’origine, le Japon….

PS6 portable : Sony lâche un énorme indice, elle pourrait débarquer plus tôt que prévu

Après la PS5 Pro, une PlayStation 6 portable pourrait bien devenir réalité. C’est en tout cas ce que semble suggérer le patron de Sony Interactive Entertainment, Hideaki Nishino, au cours…

La crise de la RAM menace l’iPhone 18, Apple pourrait sacrifier une partie d’iOS 27

La crise de la RAM pourrait faire une victime de plus. À cause de celle-ci, l’iPhone 18 d’Apple pourrait ainsi être privé de certaines fonctionnalités offertes par iOS 27. L’actuelle…

GTA 6 sur Switch 2 ? Rockstar prépare une énorme surprise, vous n’êtes pas prêts

Initialement disponible sur PS5 et Xbox Series X/S, le futur banger de Rockstar pourrait bien débarquer sur la console portable de Nintendo. Un leaker affirme en effet que GTA 6…

Appels indésirables incessants : cette solution efficace est proposée par NordVPN !

Tout le monde connaît NordVPN, le service VPN le plus avancé et le plus complet du marché. Mais cette solution pour sécuriser votre vie en ligne vient de dévoiler un…

Combien d’emplois ont été perdus à cause de l’IA ? Cet outil nous donne la réponse

Face aux inquiétudes concernant les conséquences de l’IA sur le marché du travail, la Californie a mis en ligne un outil de suivi des pertes d’emploi directement liées à cette…

The Frame 4K QLED (2026) de 55 pouces : à peine sortie, Samsung brade déjà son excellente TV pour les Soldes !

Les Soldes ont commencé sur Samsung et cette année encore, le géant coréen ne fait pas les choses à moitié. Sortie récemment, la nouvelle The Frame 4K QLED de 55…