Cette IA bat les médecins aux urgences, mais les chercheurs refusent de s’emballer
Les intelligences artificielles battent les médecins aux urgences, et une nouvelle étude le prouve. Mais derrière les chiffres impressionnants se cachent des limites que personne n'évoque assez. Les auteurs de la recherche sont les premiers à tempérer l'enthousiasme.

L'intelligence artificielle s'impose peu à peu dans la médecine. Depuis plusieurs mois, les modèles de langage affichent des performances inédites face aux professionnels de santé. Une IA de Microsoft avait déjà prouvé qu'elle surpassait les médecins pour poser des diagnostics. Elle réduisait aussi les coûts de 20 %. Ces résultats alimentent un débat croissant sur la place des machines dans les services de soin.
Les avancées se multiplient à grande vitesse. Des chercheurs avaient récemment démontré qu'une IA pouvait détecter plus de 100 maladies en analysant une simple nuit de sommeil. Cette fois, une équipe américaine teste directement un modèle IA aux urgences, face à des médecins, sur de vrais patients.
Le modèle o1-preview d'OpenAI devance deux urgentistes de plus de 11 points dans 76 cas réels
L'étude vient d'être publiée dans la revue Science. Elle a été menée à Harvard et au Beth Israel Deaconess Medical Center de Boston. Les chercheurs ont soumis 76 cas réels d'urgences au modèle o1-preview d'OpenAI. Ce système dit de raisonnement analyse les problèmes étape par étape avant de formuler une réponse. Il a posé le bon diagnostic dans 67,1 % des cas. Les deux médecins humains ont obtenu 55,3 % et 50 % de précision. Des experts interrogés à l'aveugle n'ont pas réussi à distinguer les diagnostics de l'IA de ceux des praticiens.
L'équipe a aussi testé le modèle sur 143 cas complexes publiés dans le New England Journal of Medicine. Le modèle o1-preview a inclus le bon diagnostic dans 78,3 % des situations. Une piste utile est apparue dans 97,9 % des cas. Ces résultats dépassent aussi ceux de médecins ayant accès à des ressources en ligne. Ces derniers n'atteignaient que 44,5 % sur 302 cas similaires.
Les auteurs nuancent pourtant ces conclusions. Arjun Manrai, co-auteur et enseignant en informatique biomédicale à Harvard, l'a déclaré lors d'une conférence de presse. Selon lui, ces résultats ne signifient pas que l'IA remplace les médecins. Le modèle peine aussi à analyser des données multimodales comme les images ou les sons, pourtant essentiels aux urgences. Le taux d'hallucinations n'a pas été mesuré formellement. Un essai clinique randomisé reste indispensable avant tout déploiement réel auprès des patients.