DeepSeek et l’Université Tsinghua développent des modèles d’intelligence artificielle capables d’auto-amélioration

Dans une initiative novatrice visant à réduire la nécessité d’un entraînement intensif des modèles d’intelligence artificielle, la start-up chinoise DeepSeek a conclu un partenariat avec l’Université Tsinghua en Chine. L’objectif : réduire les coûts opérationnels des modèles d’IA.

DeepSeek, qui a fait sensation sur le marché en janvier avec son modèle de raisonnement à faible coût, a collaboré avec les chercheurs de l’institution pékinoise pour publier un article scientifique présentant une nouvelle approche d’apprentissage par renforcement destinée à améliorer l’efficacité des modèles.

Selon les chercheurs, cette méthode vise à aider les modèles d’IA à mieux s’aligner sur les préférences humaines en récompensant les réponses les plus précises et claires. L’apprentissage par renforcement a déjà prouvé son efficacité dans certaines applications spécifiques de l’IA. Toutefois, son extension à des usages plus généraux reste un défi. C’est précisément ce que DeepSeek tente de résoudre avec une méthode appelée « affinement des critiques initiales ».
Cette stratégie a surpassé les techniques et modèles actuels sur plusieurs critères, offrant de meilleures performances tout en consommant moins de ressources informatiques, selon l’article publié.

DeepSeek a baptisé ces nouveaux modèles DeepSeek-GRM (abréviation de General Reward Modeling – modélisation générale de la récompense) et prévoit de les rendre open source, comme l’a annoncé la société.

Parmi les autres acteurs qui s’orientent vers cette nouvelle frontière du raffinement en temps réel et du raisonnement auto-amélioré, on retrouve les géants de la tech comme Alibaba, ainsi qu’OpenAI, basée à San Francisco.

De son côté, Meta Platforms, dont le siège est à Menlo Park (Californie), a dévoilé ce week-end la dernière génération de ses modèles d’IA, LLaMA 4, présentée comme la première à utiliser l’architecture Mixture of Experts (MoE).

Les modèles de DeepSeek reposent fortement sur cette même architecture MoE, qui permet une utilisation plus efficiente des ressources. Meta a comparé les performances de son nouveau modèle avec celles de la start-up basée à Hangzhou. DeepSeek n’a cependant pas encore annoncé de date de lancement pour son modèle principal à venir.