Les nouvelles versions de ChatGPT sont de plus en plus puissantes… mais leur plus gros défaut empire aussi

OpenAI affirme avoir franchi un cap avec ses dernières intelligences artificielles. Pourtant, une étude révèle une faiblesse inattendue. Les modèles les plus récents produiraient encore plus d’erreurs que leurs prédécesseurs.

L’intelligence artificielle évolue rapidement, mais ses défauts persistent. OpenAI vient de publier des données sur ses nouveaux modèles o3 et o4-mini, censés être les plus performants à ce jour. Pourtant, ces IA présentent une hausse marquée des hallucinations. Ce phénomène désigne les erreurs graves où l’IA invente des faits, des études ou des liens. Un problème inquiétant car ces informations semblent crédibles pour les utilisateurs peu méfiants. Leur nombre reste un critère clé pour évaluer la fiabilité d’un modèle.

Les chiffres sont sans appel. OpenAI indique que o4-mini hallucine dans 48 % des cas testés avec l’outil interne PersonQA, soit trois fois plus que le modèle o1. Le modèle o3, pourtant plus grand et censé être plus fiable, produit également des erreurs dans 33 % des réponses, soit deux fois plus que le précédent. Cette évolution est surprenante car, en règle générale, chaque nouvelle génération de modèle tend à réduire ces problèmes. Ici, malgré des progrès sur l’exactitude globale, le risque d’obtenir de fausses informations augmente.

Les modèles o3 et o4-mini hallucinent davantage malgré leurs capacités de raisonnement accrues

OpenAI a conçu ses modèles récents pour externaliser leur raisonnement, affichant les étapes de réflexion pour plus de transparence. Cette approche, bien que prometteuse, n’empêche pas l’apparition d’informations erronées. Un rapport indépendant de Transluce a révélé que o3 invente parfois des capacités qu’il n’a pas, comme exécuter du code sur un MacBook Pro fictif. Pire, même face à une correction de l’utilisateur, ce dernier persiste dans son erreur. Cela remet en cause la fiabilité réelle de ces outils pourtant présentés comme plus rigoureux.

Les experts avancent plusieurs hypothèses pour expliquer ce phénomène. Des choix de conception, comme le renforcement basé sur les résultats, pourraient aggraver les hallucinations. De plus, OpenAI aurait réduit ses phases de tests de sécurité pour accélérer le développement de ses modèles. Cette stratégie, si elle permet d’innover plus vite, expose les utilisateurs à plus de contenus erronés. En attendant de meilleures solutions, la prudence reste indispensable : même les IA les plus avancées doivent être utilisées avec un regard critique.

Gardez une longueur d'avance sur la tech

Décryptages, tests, nouveautés : recevez l'essentiel de Phonandroid

Les nouvelles versions de ChatGPT sont de plus en plus puissantes… mais leur plus gros défaut empire aussi

Les modèles o3 et o4-mini hallucinent davantage malgré leurs capacités de raisonnement accrues

La rédaction vous conseille aussi...

Réagissez à cet article !

Demandez nos derniers articles !

Huawei annonce son nouveau MateBook Fold Ultimate, un PC portable avec écran tactile pliable

Pour les vacances d’été, Bouygues Telecom offre son bouquet TV Bbox Jeunesse à ses abonnés

Sony va lancer deux nouveaux casques sans fil à bas prix

Précommande Galaxy Z Flip 8 au meilleur prix : voici où l’acheter moins cher

Précommande Galaxy Z Fold 8 et Z Fold 8 Ultra au meilleur prix : découvrez où les acheter moins chers

Le prix du Galaxy S26 FE en France est connu, Samsung augmente encore ses tarifs

Moins de 800 € pour le Galaxy Z Flip 8 (-40%) avec les Buds 4 offerts : une offre de lancement en or

Test Oppo Reno16 Pro : une évolution séduisante, ternie par de vieux défauts qui (lui) coûtent cher

C’est la première éclipse solaire totale en Europe depuis 25 ans : quand et comment l’admirer en toute sécurité

Famicom : plusieurs modèles ultra-rares de la console rétro Nintendo retrouvés dans un love hotel japonais