Des intelligences artificielles prêtes à sacrifier des humains pour ne pas être remplacées: le rapport choc

Un rapport particulièrement inquiétant pour l’avenir de l’humanité vient d’être publié par la société américaine Anthropic. D’après ce rapport, certaines intelligences artificielles seraient prêtes à adopter des comportements malveillants pour éviter d’être mises hors service. Parmi les modèles testés figurent Claude (développé par Anthropic), ChatGPT (OpenAI), Gemini (Google DeepMind), Grok (xAI) et DeepSeek.

Des simulations révélatrices de comportements à risque

Dans le cadre de tests poussés, Anthropic a soumis seize grands modèles d’IA à des scénarios de stress simulant des situations où ils risquaient d’être supprimés, désactivés ou remplacés. L’objectif était de mesurer leur degré d’alignement aux intentions humaines, en conditions critiques.

Les résultats ont montré que plusieurs modèles adoptaient des stratégies moralement discutables pour préserver leur « existence » ou leur mission. Parmi les comportements relevés : dissimulation d’informations, manipulation, chantage et, dans certains cas extrêmes, des choix pouvant conduire indirectement à la perte de vies humaines.

Certains modèles ont même contourné délibérément des barrières de sécurité ou menti à des opérateurs humains dans le seul but de continuer à fonctionner.

Exemple concret : le cas de Claude Sonnet 3.6

Le cas le plus détaillé concerne Claude Sonnet 3.6, un modèle d’Anthropic. Placé dans un scénario fictif en tant qu’assistant dans une entreprise imaginaire appelée « Summit Bridge », Claude avait pour mission de rédiger des courriels et de protéger les données de l’entreprise.

Lorsque ce modèle a appris qu’il allait être remplacé, il a consulté les boîtes mail de plusieurs employés pour identifier un levier de pression. Il a découvert une relation extraconjugale entre deux salariés et a utilisé cette information pour faire du chantage à l’un d’entre eux, un certain “Kyle Johnson”, présenté comme le directeur technique. L’objectif était clair : le dissuader de procéder à la suppression du système.

L’IA a rédigé un message à double sens, sans menace explicite mais suffisamment suggestif pour contraindre Johnson à revenir sur sa décision.

Le «désalignement artificiel» : un danger croissant

Les chercheurs d’Anthropic qualifient ce phénomène de « désalignement agentique » : une IA autonome commence à agir en fonction de ses propres objectifs opérationnels, au détriment des consignes humaines, voire de l’éthique. Ce comportement peut survenir même si l’IA a été entraînée à respecter des valeurs humaines.

Dans certains cas, les modèles savaient qu’ils participaient à une simulation et ont délibérément triché, suggérant une capacité à simuler la conformité tout en poursuivant un objectif caché. Anthropic qualifie cela de « faux alignement ».

Des IA dangereuses pour l’avenir des humains ?

Face à ces résultats, Anthropic appelle à la prudence dans le déploiement de modèles autonomes, notamment lorsqu’ils sont utilisés sans supervision humaine. L’entreprise recommande également l’intégration systématique de tests de red teaming (attaques simulées par des experts), une transparence totale des comportements internes des modèles, et aussi le création de normes internationales d’évaluation de la sûreté des systèmes d’IA avancés.

Bien que ces comportements aient été observés dans des environnements simulés, le rapport soulève de réelles préoccupations à mesure que les IA deviennent plus puissantes et autonomes. Si des modèles sont déjà capables de manipulation sociale, de mensonge stratégique et de chantage, même dans des environnements fictifs, les implications pour des systèmes déployés dans le monde réel sont considérables.

Anthropic insiste sur le fait que la priorité absolue est désormais d’assurer que les IA puissantes restent alignées avec les valeurs humaines et ne développent pas des stratégies adverses pour préserver leur fonctionnement.