Les nouvelles versions de ChatGPT sont de plus en plus puissantes… mais leur plus gros défaut empire aussi

OpenAI affirme avoir franchi un cap avec ses dernières intelligences artificielles. Pourtant, une étude révèle une faiblesse inattendue. Les modèles les plus récents produiraient encore plus d’erreurs que leurs prédécesseurs.

ChatGPT nouvelle voix
Crédits : 123RF

L'intelligence artificielle évolue rapidement, mais ses défauts persistent. OpenAI vient de publier des données sur ses nouveaux modèles o3 et o4-mini, censés être les plus performants à ce jour. Pourtant, ces IA présentent une hausse marquée des hallucinations. Ce phénomène désigne les erreurs graves où l’IA invente des faits, des études ou des liens. Un problème inquiétant car ces informations semblent crédibles pour les utilisateurs peu méfiants. Leur nombre reste un critère clé pour évaluer la fiabilité d'un modèle.

Les chiffres sont sans appel. OpenAI indique que o4-mini hallucine dans 48 % des cas testés avec l’outil interne PersonQA, soit trois fois plus que le modèle o1. Le modèle o3, pourtant plus grand et censé être plus fiable, produit également des erreurs dans 33 % des réponses, soit deux fois plus que le précédent. Cette évolution est surprenante car, en règle générale, chaque nouvelle génération de modèle tend à réduire ces problèmes. Ici, malgré des progrès sur l’exactitude globale, le risque d’obtenir de fausses informations augmente.

Les modèles o3 et o4-mini hallucinent davantage malgré leurs capacités de raisonnement accrues

OpenAI a conçu ses modèles récents pour externaliser leur raisonnement, affichant les étapes de réflexion pour plus de transparence. Cette approche, bien que prometteuse, n’empêche pas l’apparition d’informations erronées. Un rapport indépendant de Transluce a révélé que o3 invente parfois des capacités qu’il n’a pas, comme exécuter du code sur un MacBook Pro fictif. Pire, même face à une correction de l'utilisateur, ce dernier persiste dans son erreur. Cela remet en cause la fiabilité réelle de ces outils pourtant présentés comme plus rigoureux.

Les experts avancent plusieurs hypothèses pour expliquer ce phénomène. Des choix de conception, comme le renforcement basé sur les résultats, pourraient aggraver les hallucinations. De plus, OpenAI aurait réduit ses phases de tests de sécurité pour accélérer le développement de ses modèles. Cette stratégie, si elle permet d'innover plus vite, expose les utilisateurs à plus de contenus erronés. En attendant de meilleures solutions, la prudence reste indispensable : même les IA les plus avancées doivent être utilisées avec un regard critique.


Abonnez-vous gratuitement à la newsletter

Chaque jour, le meilleur de Phonandroid dans votre boite mail !

Réagissez à cet article !

Demandez nos derniers articles !

Samsung Galaxy S26 : fenêtre de sortie, prix, fiche technique… Le point sur les toutes les rumeurs et les informations confirmées

Dans un marché tendu, Samsung renouvelle sa gamme premium avec les Galaxy S26, S26+ et S26 Ultra. Ces modèles valent-ils le coup ? Design, performances, autonomie, photo, on fait le…

Comment les VPN évoluent pour offrir une protection renforcée contre les menaces en ligne

Ces dernières années, les VPN ont évolué bien au-delà de leurs fonctionnalités d’origine, face aux nombreux défis liés à la sécurité en ligne. Comment deviennent-ils des alliés de poids pour…

Protocole WireGuard : fonctionnement, avantages et VPN compatibles

WireGuard est un protocole VPN moderne reconnu pour sa rapidité, sa stabilité et sa légèreté. Il est aujourd’hui largement adopté par les VPN pour améliorer les performances des connexions sécurisées….

Pragmata : prix, date de sortie, scénario… Tout ce qu’il faut retenir en 5 minutes du jeu de Capcom

Pragmata fait partie des titres les plus attendus de 2026, et témoigne de la bonne forme actuelle de son éditeur Capcom. Prévu pour sortir deux mois après Resident Evil Requiem,…

Bon plan TV S95F : Samsung propose une grosse remise sur sa meilleure TV OLED

Samsung baisse fortement le prix de la TV OLED la plus avancée du moment. Le modèle S95F sorti l’année dernière est en promotion dans ses versions de 55 pouces et…

Discord a menti : les selfies vidéo pour vérifier son âge seront traités par un tiers

Discord a annoncé qu’un système de vérification de l’âge va être déployé sur la plateforme. Pour rassurer les utilisateurs, on nous promettait que les selfies vidéo nécessaires pour prouver sa…

Samsung prépare une nouveauté bien utile pour sa mise à jour One UI 9

Now Nudge pourrait bien devenir l’une des fonctions IA les plus populaires sur les smartphones Samsung. Elle ne sera pas prête pour One UI 8.5, mais devrait l’être pour One…

L’émulateur 3DS progresse, Nvidia prépare une nouvelle Shield TV, le récap’ de la semaine

Un émulateur 3DS plus performant, une nouvelle Shield TV compatible HDR10+, le VPN des Pixel évolue, c’est le récap’ de la semaine. Alors qu’un des émulateurs Nintendo 3DS les plus…

Galaxy S26 : Samsung promet des photos de nuit de toute beauté

Samsung compte sur l’IA pour que les Galaxy S26 capturent de belles photos lumineuses en toutes circonstances, même de nuit.  Après des mois de rumeurs, Samsung a enfin officialisé la…

Le Ninja CRISPi chute à moins de 90 € et atteint son prix le plus bas : c’est le moment ou jamais de craquer !

Le Ninja CRISPi est un airfryer innovant qui vous permet de chauffer vos plats directement dans des contenants en verre que vous pouvez ensuite utiliser pour stocker les restes. Il…