OpenAI dévoile une technologie utilisant le raisonnement… avec les images

En septembre dernier, la société OpenAI a lancé une technologie d’intelligence artificielle basée sur des systèmes de raisonnement, conçue pour exécuter des tâches impliquant les mathématiques, la programmation et les sciences. Elle a également introduit un nouvel outil destiné à aider les programmeurs à utiliser des chatbots pour écrire du code.

Une approche « intelligente » des images

Désormais, cette technologie est capable de traiter des tâches similaires incluant des images, telles que des schémas, des affiches, des diagrammes et des graphiques.

Hier (mercredi), la société a révélé deux nouvelles versions de sa technologie de raisonnement : OpenAI o3 et OpenAI o4-mini, toutes deux capables de gérer des tâches impliquant des images et du texte.

Lors de la présentation en direct du nouveau système, Mark Chen, responsable de la recherche chez OpenAI, a déclaré :

« Ces systèmes peuvent traiter des images, les découper, et les transformer pour accomplir la tâche demandée. »

La société a ajouté que ces systèmes peuvent aussi générer des images, effectuer des recherches sur le web, et utiliser d’autres outils numériques.

Des systèmes qui « réfléchissent avant de répondre »

Contrairement aux premières versions de ChatGPT, ces nouveaux systèmes de raisonnement prennent du temps pour « réfléchir » à une question avant de répondre, au lieu de fournir une réponse instantanée.

Ces systèmes s’inscrivent dans un effort plus large visant à construire une intelligence artificielle capable de raisonner à travers des tâches complexes. Des entreprises comme Google, Meta ou encore DeepSeek (start-up chinoise) développent des technologies similaires.

L’objectif est de créer des systèmes capables de résoudre un problème en plusieurs étapes successives, chacune se basant sur la précédente — à l’image du raisonnement humain. Ces technologies sont particulièrement utiles pour les programmeurs qui utilisent l’intelligence artificielle pour écrire du code.

Raisonnement logique et apprentissage par renforcement

Les systèmes de raisonnement reposent sur une technologie appelée modèles de langage de grande taille (Large Language Models, ou LLMs) pour développer une logique raisonnée. Les entreprises les soumettent ensuite à un processus supplémentaire appelé apprentissage par renforcement (reinforcement learning).

Au cours de ce processus, le système apprend par essais et erreurs intensifs.
Par exemple, en résolvant divers problèmes mathématiques, il peut identifier quelles approches mènent à la bonne réponse, et lesquelles échouent. En répétant cela sur un grand nombre de problèmes, il apprend à reconnaître des schémas.

Une capacité à combiner image et texte

Les nouveaux systèmes d’OpenAI ont appris à traiter des problèmes combinant images et textes.

Cependant, les experts précisent que les systèmes de raisonnement logique ne pensent pas comme les humains. Comme d’autres technologies d’IA, ils peuvent faire des erreurs ou inventer des choses, un phénomène connu sous le nom de « hallucination ».

Un nouvel outil pour la programmation

OpenAI a également lancé un nouvel outil appelé Codex CLI, conçu pour faciliter les tâches de programmation impliquant les systèmes OpenAI o3 et OpenAI o4-mini mentionnés plus tôt.

Cet outil, qualifié d’« agent d’intelligence artificielle (A.I. agent) », propose des méthodes permettant d’utiliser ces systèmes d’IA en complément du code existant sur l’ordinateur personnel du programmeur.
La société a déclaré rendre cet outil open source, ce qui signifie qu’elle partage librement sa technologie de base avec les développeurs et les entreprises, leur permettant de l’adapter et de la faire évoluer.

Enfin, la société a précisé qu’à partir d’hier (mercredi), ces nouveaux systèmes seront disponibles pour tous les abonnés à ChatGPT Plus (20 dollars par mois) et à ChatGPT Pro (200 dollars par mois), cette dernière donnant accès à l’ensemble des outils les plus récents d’OpenAI.