Autodiagnostic médical : l’IA ne fait pas mieux qu’un moteur d…

L’intelligence artificielle est souvent présentée comme une révolution pour l’accès aux soins. Pourtant, une étude publiée le 9 février dans la revue Nature Medicine jette un sérieux doute sur sa fiabilité pour établir un diagnostic médical en accès direct au grand public. Les chercheurs concluent que les grands modèles de langage ne font pas mieux qu’une recherche classique sur Internet lorsqu’un patient tente d’identifier l’origine de ses symptômes.

Menée au Royaume-Uni auprès d’environ 1 300 participants, l’étude a testé plusieurs agents conversationnels populaires, dont ChatGPT, Llama 3 et Command R+. Les volontaires n’étaient pas réellement malades. Ils ont été placés dans des scénarios fictifs construits par des médecins, chacun correspondant à une pathologie bien définie et unanimement reconnue par la communauté médicale.

Résultat : lorsque les participants échangeaient librement avec un chatbot pour décrire leurs symptômes, le bon diagnostic n’était identifié que dans environ 37 % des cas. En comparaison, ceux qui utilisaient un moteur de recherche classique ou consultaient des sites de santé reconnus obtenaient de meilleurs résultats, dépassant 45 % de diagnostics corrects.

Un écart entre performance théorique et usage réel

L’étude met en lumière un décalage important entre les performances mesurées dans des conditions idéales et l’usage concret par le grand public. Lorsque les chercheurs soumettaient directement aux IA une liste de symptômes rédigée de manière précise et clinique, les résultats devenaient spectaculaires, atteignant jusqu’à 95 % de réussite pour certains modèles.

En revanche, dans un échange réel, les utilisateurs oubliaient souvent des informations importantes ou formulaient leurs questions de manière imprécise. Certains ne retenaient pas la bonne hypothèse lorsque plusieurs diagnostics étaient proposés. Les chercheurs estiment ainsi que l’interaction humain-machine constitue aujourd’hui le principal point faible du dispositif.

Cette publication intervient dans un contexte de fort engouement autour des applications médicales de l’intelligence artificielle. Certains y voient une réponse possible aux difficultés d’accès aux soins, y compris dans des pays développés. En France, la Haute Autorité de santé doit prochainement se prononcer sur l’usage direct de ces outils par les patients. Elle a déjà admis que l’IA pouvait constituer un appui pour les professionnels de santé, à condition d’être utilisée de manière encadrée.

Des risques médicaux bien réels

Les auteurs reconnaissent plusieurs limites méthodologiques, notamment le recours à des scénarios fictifs et le fait que les modèles testés ont depuis évolué. Malgré cela, des spécialistes de bioéthique soulignent que ces résultats rappellent l’existence de risques médicaux concrets lorsque des patients s’appuient sur un chatbot pour s’autodiagnostiquer.

L’étude ne condamne pas l’intelligence artificielle en bloc. Elle invite plutôt à la prudence. Les outils conversationnels peuvent structurer l’information ou orienter vers une consultation, mais ils ne remplacent ni l’examen clinique, ni l’interprétation fine d’un professionnel formé. En matière de santé, la technologie progresse vite. Mais pour l’instant, face à un symptôme inquiétant, le passage par un médecin demeure une étape difficilement contournable.