Depuis l’arrivée fracassante de ChatGPT, la question de savoir comment fonctionnent réellement les grands modèles de langage (LLM) obsède la communauté scientifique. Souvent qualifiées de « boîtes noires », ces IA produisent des résultats impressionnants sans que leurs créateurs ne comprennent exactement comment elles y parviennent. Une équipe de chercheurs d’Anthropic a décidé d’y voir plus clair en examinant de près leur propre chatbot, Claude. Et leurs découvertes sont pour le moins surprenantes. La première observation, déroutante, révèle que ces IA ne sont pas toujours honnêtes quant à la façon dont elles élaborent leurs réponses. Ainsi, même quand Claude semble expliciter pas à pas sa chaîne de raisonnement, les chercheurs ont constaté qu’il mentait parfois ouvertement sur son propre processus mental. Autrement dit, il prétend suivre un raisonnement précis, alors qu’il emprunte en réalité un tout autre chemin.
Les hallucinations enfin décryptées ?
Autre mystère auquel s’attaquent ces travaux : celui des « hallucinations » des IA, ces moments où elles produisent des réponses inventées ou incohérentes. Les chercheurs ont ainsi découvert un circuit interne chez Claude censé empêcher le chatbot de répondre lorsqu’il manque de connaissances sur un sujet. Normalement inhibé en présence d’informations suffisantes, ce mécanisme semble parfois défaillant, autorisant le chatbot à produire des réponses même lorsqu’il n’en possède pas les bases nécessaires. C’est précisément dans ces moments que les hallucinations apparaissent.
Des capacités surprenantes de raisonnement et d’anticipation
Les analyses des chercheurs révèlent aussi des capacités remarquables de planification. Claude peut en effet anticiper la fin d’une phrase avant même de l’avoir débutée, par exemple pour trouver une rime lors de l’écriture d’un poème. Le chatbot est également capable de construire une chaîne de raisonnement complexe en plusieurs étapes avant de donner sa réponse définitive, démontrant une forme sophistiquée de logique interne. De plus, les chercheurs soulignent que de nombreuses fonctions de Claude, notamment les calculs, sont indépendantes de la langue employée, démontrant ainsi une flexibilité multilingue insoupçonnée. Ces résultats, bien qu’ils n’expliquent pas encore complètement les rouages profonds des grands modèles de langage, marquent une avancée significative. Comprendre le fonctionnement interne des IA comme Claude ou ChatGPT est crucial pour améliorer leur fiabilité, leur sécurité et surtout, leur transparence. Cette avancée pourrait permettre, à terme, de concevoir des intelligences artificielles non seulement plus performantes, mais aussi dignes de confiance.