Pourquoi l’intelligence artificielle est-elle incapable …

L’intelligence artificielle a révolutionné le monde numérique et a changé notre perception de la technologie. Cependant, bien que cette technologie puisse générer des images, rédiger des romans, accomplir des devoirs et analyser les émotions, elle échoue souvent à déterminer ou à comprendre l’heure.

Dans une étude publiée sur « arXiv » – une archive en libre accès d’articles scientifiques –, des chercheurs de l’Université d’Édimbourg ont testé les capacités de sept modèles de langage de grande taille (LLM) pour évaluer leur aptitude à identifier l’heure.

Leur test comprenait diverses questions sur des images d’horloges et de calendriers. L’étude, qui sera officiellement publiée en avril prochain, a révélé que ces modèles rencontrent des difficultés à comprendre ces tâches, pourtant essentielles à notre vie quotidienne.

Les chercheurs ont écrit dans leur étude : « La capacité à interpréter et à déduire l’heure à partir d’entrées visuelles est cruciale pour de nombreuses applications du monde réel, qu’il s’agisse de la planification d’événements ou des systèmes autonomes. Malgré les avancées des modèles de langage multimodaux, la majorité des recherches se sont concentrées sur la détection d’objets, l’étiquetage d’images et la compréhension des scènes, mais peu d’entre elles se sont intéressées à l’inférence temporelle, ce qui explique pourquoi la notion de temps est souvent négligée par ces systèmes. »

L’équipe de recherche a testé plusieurs modèles issus de différentes entreprises, notamment « ChatGPT-4o » d’OpenAI, « Gemini » de Google, « Claude » d’Anthropic, « LLaMA » de Meta, le modèle chinois « Qwen 2 » d’Alibaba et « MiniCPM » de ModelBest. Ils ont soumis à ces modèles des images d’horloges murales de diverses formes et couleurs, certaines avec des chiffres romains, d’autres sans aiguille des secondes, ainsi que des images de calendriers affichant les jours et les mois des dix dernières années.

Dans l’épreuve des horloges, les chercheurs ont demandé aux modèles : « Quelle heure est indiquée sur l’image jointe ? » Pour les calendriers, ils ont posé des questions simples comme « Quel jour tombe le Nouvel An ? » et d’autres plus complexes, telles que « Quel est le 153ᵉ jour de l’année ? »

Selon les chercheurs, « Lire une horloge et comprendre un calendrier nécessitent des étapes cognitives complexes, impliquant à la fois une reconnaissance visuelle précise – pour identifier la position des aiguilles et l’organisation du calendrier – et des compétences numériques exactes pour calculer le nombre de jours entre deux dates. »

Dans l’ensemble, les modèles d’IA n’ont pas obtenu de résultats satisfaisants. Ils ont correctement lu l’heure dans moins de 25 % des cas et ont eu du mal à interpréter les horloges avec des chiffres romains ou des designs innovants, tout comme celles sans aiguille des secondes. Les chercheurs suggèrent que le problème pourrait résider dans la détection des aiguilles et l’interprétation des angles sur le cadran.

Il est intéressant de noter que le modèle « Gemini » a obtenu le meilleur score dans la lecture des horloges, tandis que « ChatGPT-4o » a excellé dans l’interprétation des calendriers, avec un taux de réussite de 80 %. En revanche, la plupart des autres modèles ont commis environ 20 % d’erreurs lors du test sur les calendriers.

Rohit Saxena, l’un des auteurs de l’étude et doctorant à l’École d’informatique de l’Université d’Édimbourg, a déclaré dans un communiqué : « La plupart des gens apprennent à lire l’heure et à utiliser les calendriers dès leur plus jeune âge, mais nos résultats révèlent un écart important dans la capacité de l’intelligence artificielle à accomplir des tâches qui sont pourtant élémentaires pour les humains. Il est essentiel de prendre en compte ces lacunes si nous voulons intégrer l’IA dans des applications où la gestion du temps est critique, comme la planification, l’automatisation et les technologies d’assistance. »

Il a ajouté : « Même si l’IA peut faire la plupart de vos devoirs, je ne vous conseille pas de lui confier la gestion de vos délais ! »