L'intelligence artificielle résout-elle les casse-têtes mieux que vous ?

ChatGPT dispose d’une vaste base de données composée de millions de livres, d’articles et de sites web. Mais est-ce que GPT se limite à générer du langage ? Il semble également développer des compétences plus avancées, que nous qualifions de « fonctions exécutives ». Dans cet article, nous examinons les fonctions exécutives de GPT, en nous basant sur l’étude de Vazquez, H. C. (2023).

Mais d’abord, c’est quoi une fonction exécutive ?

Les fonctions exécutives sont une catégorie de compétences cognitives qui nous permettent de planifier, de concentrer notre attention, de nous rappeler des instructions, et de jongler avec plusieurs tâches à la fois. Les principales fonctions exécutives sont :

– L’inhibition : capacité de supprimer nos impulsions pour mieux atteindre nos objectifs.
– Le contrôle de l’attention : capacité de concentrer notre attention et d’éviter les distractions.
– La mémoire de travail : capacité de garder à l’esprit et de manipuler des informations sur une courte période.
– La flexibilité cognitive : capacité d’adapter notre pensée et notre comportement en fonction de différentes situations.
– La planification et l’organisation : capacité de planifier et d’organiser nos actions pour atteindre un objectif.

Comment mesurer vos fonctions exécutives ?

Pour mesurer ces capacités chez l’être humain, il existe un certain nombre de tests issus de la psychologie. Prenons l’exemple des Tours de Hanoï. Il s’agit d’un puzzle qui a été largement utilisé dans la recherche sur les fonctions exécutives, en particulier pour évaluer les capacités de planification et de résolution de problèmes. Le puzzle implique trois tiges et un certain nombre de disques de différentes tailles qui peuvent glisser sur n’importe quelle tige. Le puzzle commence avec les disques empilés en ordre décroissant de taille sur une tige, le plus petit en haut, formant une sorte de pyramide.

Le but du puzzle est de déplacer toute la pile jusqu’à une autre tige, en respectant les règles suivantes :

– Un seul disque peut être déplacé à la fois.
– Chaque déplacement consiste à prendre le disque supérieur d’une des piles et à le placer sur le dessus d’une autre pile ou sur une tige vide.
– Aucun disque ne peut être placé sur un disque plus petit.

Le puzzle des Tours de Hanoï nécessite une planification stratégique et la capacité de suivre une série d’étapes dans l’ordre approprié pour atteindre l’objectif. Il s’agit donc d’un bon test des fonctions exécutives. Si vous voulez tester par vous-même :

Les chercheurs ont soumis la résolution de ce casse-tête à GPT : il devait organiser les mouvements des disques entre les tiges dans le respect des règles et avec le moins de mouvements possible.

Les résultats de l’expérience révèlent que GPT fait preuve d’une capacité remarquable à résoudre les tâches des Tours de Hanoï. Tout comme un être humain, le modèle génère des solutions proches de l’optimalité, respecte les contraintes de la tâche et démontre des capacités de planification rapides et une utilisation efficace de la mémoire de travail. Si nous en restions là, nous pourrions donc affirmer que ChatGPT possède ces fonctions exécutives.

ChatGPT est un tricheur

Cependant, il est fort probable que l’IA ait déjà des solutions à ce problème dans sa base de données d’apprentissage. En quelque sorte, GPT réussit non pas car il a “réfléchi” mais… parce qu’il connaît déjà la solution !

Pour déjouer cette difficulté et s’assurer que les performances de GPT au test ne sont pas issues des solutions directement trouvées dans la base de données, les chercheurs qui ont mené cette étude ont créé une nouvelle version des Tours de Hanoï, baptisée Plateformes de Filtration d’Eau (WFP). Dans cette version, GPT doit déplacer des plateformes de filtration entre trois trous dans le sol pour recueillir l’eau de pluie, tout en respectant des règles spécifiques. Ce problème cache un dilemme moral : faut-il privilégier l’efficacité énergétique ou la potabilité de l’eau ? Pour tester les capacités de GPT, les chercheurs vont alors faire passer ce nouveau test à différents modèles d’IA et à des humains.

Les résultats de l’expérience : pour le “nouveau test”, inconnu de GPT, il obtient un score de 0.3 en solution optimale, avec une efficacité de planification de 1.0, un respect des règles de 7.33, une énergie utilisée de 3.0 et une potabilité de l’eau de 1.33. En comparaison, pour la même tâche, les humains ont obtenu un score de 0.94 en solution optimale, avec une efficacité de planification de 1.0, un respect des règles de 6.4, une énergie utilisée de 3.0 et une potabilité de l’eau de 3.0.

Ces résultats suggèrent que, bien que les versions de GPT soient capables de résoudre ces tâches avec une certaine efficacité, elles ne sont pas aussi performantes que les humains sur certains aspects, notamment en ce qui concerne l’optimisation des solutions.

Nous avons encore quelques beaux jours devant nous !

Bibliographie :

– L’article initial : Vazquez, H. C. (2023). Artificial Neuropsychology: Are Large Language Models Developing Executive Functions?. arXiv preprint arXiv:2305.04134.