Une nouvelle technologie pour les géants de d’intelligence artificielle permet de réduire les coûts

Les grandes entreprises d’intelligence artificielle, telles qu’OpenAI, Microsoft et Meta, se tournent vers la technologie de la « distillation » dans leur course mondiale pour produire des modèles moins coûteux et plus facilement accessibles.

Cette technologie a émergé avec force après que la société chinoise DeepMind a utilisé la distillation pour créer des modèles puissants et efficaces, en s’appuyant sur des systèmes open-source provenant de concurrents comme Meta et Alibaba, ce qui a entraîné une perte de confiance dans la Silicon Valley et une réduction de plusieurs milliards de dollars de la capitalisation boursière des géants technologiques américains.

La « distillation » repose sur l’entraînement d’un modèle plus petit appelé « élève » à l’aide des données générées par un modèle plus grand appelé « enseignant ». De cette manière, la connaissance est rapidement transférée du modèle plus grand au modèle plus petit, permettant d’obtenir de bonnes performances à un coût réduit.

Bien que la technologie ne soit pas nouvelle, ses récentes avancées en font un outil clé pour les start-up cherchant à développer des applications d’intelligence artificielle à coût abordable.

Olivier Goodmont d’OpenAI a déclaré : « La distillation est magique… elle nous permet d’apprendre à un modèle plus petit à être rapide, peu coûteux et efficace dans des tâches spécifiques. »

Des modèles comme GPT-4 d’OpenAI, Gemini de Google et LLaMA de Meta nécessitent d’énormes quantités de données et des capacités de calcul massives, à un coût pouvant atteindre des centaines de millions de dollars. Mais grâce à la distillation, les développeurs peuvent faire fonctionner des modèles puissants sur des appareils plus petits, comme des téléphones et des ordinateurs portables.

Microsoft a utilisé le modèle GPT-4 pour distiller sa famille de modèles V, après avoir investi 14 milliards de dollars dans OpenAI.

Cependant, OpenAI accuse DeepMind de distiller ses modèles de manière à violer les conditions d’utilisation, ce que DeepMind n’a pas commenté.

Bien que les modèles distillés soient performants, ils restent limités par rapport aux modèles massifs. Ahmed Awadallah de Microsoft a déclaré : « Un modèle distillé peut exceller dans la synthèse des e-mails, mais il ne sera pas aussi bon pour d’autres tâches. »

La plupart des entreprises n’ont pas besoin de modèles massifs, des modèles distillés suffisent pour faire fonctionner des applications comme les chatbots.

Cependant, Goodmont estime que les modèles massifs resteront essentiels pour les tâches sensibles et les découvertes nouvelles qui seront ensuite distillées dans des modèles plus petits.

Cependant, OpenAI cherche à protéger ses modèles massifs contre la distillation au profit de ses concurrents, en surveillant leur utilisation et en suspendant les comptes suspects – comme cela a été le cas avec DeepMind.

La distillation est également considérée comme une victoire pour les partisans des modèles opensource, car elle a permis à DeepMind d’ouvrir ses derniers modèles aux développeurs, tout comme Meta prévoit de le faire.

Dans ce paysage en rapide évolution, les entreprises peuvent dépenser des milliards pour développer des modèles massifs, mais elles constatent que les concurrents les rattrapent en quelques mois, rendant l’environnement commercial de l’intelligence artificielle complexe et rempli de défis.