Si l’on a souvent tendance à considérer ChatGPT comme l’une des références actuelles dans le domaine des intelligences artificielles grand public, force est de constater que le chemin devrait encore être long avant qu’elle puisse rivaliser avec l’intelligence humaine… La preuve, avec cette expérience récente.
À l’heure actuelle, GPT-4 est le modèle d’IA le plus avancé proposé par OpenAI au sein de son interface ChatGPT. GPT-4 est utilisé chaque jour par des millions d’utilisateurs à travers le monde, pour des tâches diverses et variées. De quoi faire réfléchir un grand nombre de personnes concernant la pertinence des intelligences artificielles au quotidien, et notamment pour remplacer l’homme dans de multiples situations.
Certains curieux vont plus loin que d’autres. C’est notamment le cas de Yann LeCun, un scientifique en charge de l’IA chez Meta (Facebook). Celui-ci soutient que les IA sont nettement plus bêtes que les humains, mais encore fallait-il le prouver. Alors, avec son équipe, il a développé ce qu’on pourrait apparenter à un « test de QI pour intelligence artificielle ».
Un « benchmark pour les assistants IA »
Dans un article publié sur le site de l’université de Cornel, Yann LeCun et ses confrères présentent leur solution, nommée GAIA, pour « General AI Assistants ». « GAIA propose des questions du monde réel qui nécessitent un ensemble de capacités fondamentales telles que le raisonnement, la manipulation de la multimodalité, la navigation sur le web et généralement la maîtrise de l’utilisation des outils », explique l’introduction.
GPT-4 fait partie des IA testées, et les résultats ne sont pas fameux pour le fleuron d’OpenAI, qui a dû répondre à 466 questions qui ont été également posées à des humains en parallèle. « Les questions de GAIA sont conceptuellement simples pour les humains, mais difficiles pour les IA les plus avancées : nous montrons que les répondants humains obtiennent 92 % vs. 15 % pour GPT-4 équipé de plugins », résume l’article. « Cette disparité de performance notable contraste avec la tendance récente des LLM surpassant les hommes sur les tâches nécessitant des compétences professionnelles en droit ou en chimie, par exemple. »
ChatGPT n’est pas prêt pour remplacer l’humain
La conclusion de l’étude est plutôt claire : si une intelligence artificielle comme GPT-4 peut faciliter la tâche d’un utilisateur humain, en s’occupant des démarches les moins agréables en les automatisant, elle n’est pas capable de résoudre des problématiques qui nécessitent du bon sens humain. « Nous pensons que l’avènement de l’Intelligence Générale Artificielle (AGI) dépend de la capacité d’un système à faire preuve de la même robustesse que celle de l’homme moyen sur ces questions », estime l’étude.
« J’ai fait valoir, depuis au moins 2016, que les systèmes d’IA doivent disposer de modèles internes du monde qui leur permettraient de prédire les conséquences de leurs actions et leur permettent ainsi de raisonner et de planifier. Les LLM auto-régressif actuels n’ont pas cette capacité, ni rien de proche, et sont donc loin d’atteindre l’intelligence au niveau de l’homme », explique Yann LeCun sur X. « En fait, leur manque complet de compréhension du monde physique et leur manque de capacités de planification les place bien en dessous de l’intelligence d’un chat, et peu importe le niveau humain. »
LLMs obviously have *some* understanding of what they read and generate.
— Yann LeCun (@ylecun) November 25, 2023
But this understanding is very limited and superficial. Otherwise, they wouldn't confabulate so much and wouldn't make mistakes that are contrary to common sense.
I have argued, since at least 2016, that AI…
En d’autres termes, ChatGPT a échoué à son « test de QI » et c’est finalement une assez bonne nouvelle pour les gens qui ont peur de se faire intégralement remplacer pour les IA dans leur travail, notamment. « De toute évidence, il nous manque encore quelque chose de vraiment important pour atteindre une IA au niveau humain », résume Yann LeCun. Mais jusqu’à quand ? L’avenir nous le dira.