
Un travail publié dans Science par une équipe conjointe de la Harvard Medical School et du Beth Israel Deaconess Medical Center montre qu’un modèle de raisonnement d’OpenAI atteint, sur des cas cliniques réels, un niveau de diagnostic et de proposition thérapeutique comparable à celui de médecins expérimentés, avec des performances souvent supérieures lorsque l’information est fragmentaire.
Le protocole évite les benchmarks contrôlés et impose au système les mêmes contraintes qu’aux praticiens : données incomplètes, hétérogènes, mouvantes, telles qu’elles émergent aux urgences.
De la triage aux décisions d’hospitalisation
Les chercheurs ont évalué le modèle à toutes les étapes du parcours, de la triage en urgence jusqu’au service d’hospitalisation, en limitant l’accès du système aux informations effectivement disponibles à chaque instant. Dans ces conditions, il dépasse deux cliniciens seniors utilisés comme référence.
Un cas illustre le différentiel : un patient admis pour embolie pulmonaire s’améliore puis rechute. Alors que l’hypothèse initiale privilégiait l’échec du traitement anticoagulant, le modèle, à partir des mêmes éléments du dossier électronique, met sur la piste d’un antécédent de lupus. L’orientation s’avère pertinente, la pathologie auto-immune pouvant entre autres provoquer une inflammation cardiaque.
Au-delà des urgences, l’équipe a confronté le système à des cas publiés dans le New England Journal of Medicine et à d’autres défis de diagnostic standardisés, conçus pour tester le raisonnement différentiel. Là encore, le modèle surclasse un large groupe de médecins utilisés comme contrôle.
Forces, limites et prochaine étape
La principale force tient à la robustesse en environnement bruité, domaine où les générations précédentes de modèles flanchaient dès que les données devenaient ambiguës ou partielles. Sur la construction d’un diagnostic différentiel — considérer plusieurs hypothèses simultanées puis élaguer —, le gain est net.
La limite est claire : l’étude repose sur du texte. Aucune interprétation d’images, de signaux, ni de non-verbal, pourtant cruciaux en clinique. Les auteurs soulignent que le résultat n’implique pas un remplacement des médecins, mais crédibilise l’usage comme brique de décision, surtout dans des flux rapides et sous-contrainte d’information.
Le verrou désormais est l’évaluation en conditions réelles avec des essais cliniques prospectifs robustes, non seulement sur l’exactitude des réponses mais sur l’impact sur les issues patients. La conception de tels protocoles est complexe, mais constitue le passage obligé avant toute intégration opérationnelle au chevet.
Si ces résultats se confirment in situ, on peut s’attendre à une accélération des chantiers d’intégration des modèles de raisonnement dans les dossiers médicaux électroniques, avec des API capables d’ingérer en temps réel des données hétérogènes et de tracer les justifications. La bascule se jouera autant sur la gouvernance des risques, l’ergonomie et l’acceptabilité clinique que sur la performance algorithmiques stricto sensu.
Source : ITHome