Reconnaissons-le, l’intelligence artificielle est en train de réorganiser notre perception du monde, et l’open source semble être l’un des acteurs principaux de cette révolution. Un avis récent exprimé par un membre de Google, jette un éclairage précis sur l’évolution de l’IA et met en lumière la raison pour laquelle des géants comme Google et OpenAI sont sur le point d’être dépassés par le mouvement open source (https://www.semianalysis.com/p/google-we-have-no-moat-and-neither).
Avez-vous noté, par exemple, que chaque jour voit émerger une multitude de modèles d’IA open source sur Hugging Face (une sorte de grand annuaire de modèles d’IA made in France) ? Cela signifie que ces modèles sont en accès libre pour tous (à condition d’être en mesure de savoir comment les utiliser), ce qui instaure une dynamique de collaboration à grande échelle et permet d’allier différentes approches pour résoudre des problèmes complexes. Cette perspective diffère radicalement des modèles de recherche et de développement traditionnels, où chaque équipe travaille sur ses propres projets.
Aujourd’hui, je souhaite vous présenter un projet qui incarne parfaitement cette promesse et qui pourrait représenter une véritable révolution : HuggingGPT. Pour cela, je m’appuie sur les travaux de Shen, Y., Song, K., Tan, X., Li, D., Lu, W., & Zhuang, Y. (2023).
DISCLAIMER : Je tiens à préciser que nous n’abordons pas le débat sur ce qui peut être considéré comme de l’intelligence.; Nous nous concentrons plutôt sur la manière dont l’intelligence artificielle se rapproche étroitement de notre propre fonctionnement cognitif. Notre objectif est d’examiner les liens entre les deux systèmes, et il vous appartiendra de qualifier cela d’ “intelligence” ou non.
Disclaimer 2 : nous éviterons également le débat sur les dangers d’une IA mise dans de mauvaises mains… ou tout simplement d’une IA qui prendrait le pouvoir sur l’Homme car ce n’est pas le sujet de cet article (mais nous pouvons vous conseiller cet article intéressant : https://0verdose.substack.com/p/est-ce-quune-super-intelligence-artificielle)
Qu’est-ce que HuggingGPT ?
Pour mieux comprendre ce qu’est véritablement HuggingGPT, (re)voyons un peu comment fonctionne notre cerveau.
La psychologie cognitive, approche à laquelle je souscris, utilise depuis les années 1970 ce qu’on appelle la “métaphore computationnelle de l’esprit humain”. Cette approche a permis de mieux comprendre comment le cerveau traite l’information, résout des problèmes et génère des comportements.
Dans cette perspective, l’esprit humain est perçu comme un système complexe et décentralisé où différentes structures cérébrales assument des tâches spécifiques. Par exemple, le cortex visuel traite les informations visuelles, tandis que l’hippocampe est essentiel pour la mémoire et l’apprentissage. C’est une forme d’optimisation, où chaque sous-système est spécialisé pour accomplir une tâche spécifique de manière efficace. Ainsi, plutôt que de tout entreprendre en même temps, le cerveau divise le travail en sous-tâches. Cette division du travail facilite grandement la résolution des problèmes complexes, rendant la tâche globale plus facile à gérer.
Prenons comme exemple la lecture de ce texte. Dans un premier temps, votre cortex visuel traite les formes et les motifs des lettres et des mots. Ensuite, ces informations sont transmises à la zone de Wernicke, une partie du cerveau spécialisée dans la compréhension du langage. Là, les mots et les phrases sont décodés pour leur signification et leur sens. Enfin, si vous voulez répondre à ce texte pour me donner votre avis ou réfléchir à son contenu, d’autres parties du cerveau, comme le cortex préfrontal, entrent en jeu pour le raisonnement et la planification. Si vous souhaitez m’insulter par exemple, le processus d’inhibition entre alors potentiellement en jeu et vous permettra de vous retenir de le faire.
Ainsi, une tâche qui peut sembler simple en surface – lire un texte – implique en réalité une multitude de sous-tâches exécutées par différentes parties du cerveau.
Bon ok, mais c’est quoi HuggingGPT ?
Au lieu de créer un modèle unique qui essaie de tout faire, Hugging GPT divise une tâche complexe en plusieurs sous-tâches, chacune étant attribuée à un modèle spécialisé. A la différence d’Auto GPT (https://www.leptidigital.fr/intelligence-artificielle-ia/auto-gpt-40446/), HuggingGPT ne crée pas différents agents, tous basés sur le modèle GPT, mais utilise différents modèles d’IA spécifiques disponibles sur HuggingFace.
HuggingGPT : une IA qui ressemble étrangement à notre fonctionnement
HuggingGPT est un système d’IA qui utilise les avantages des grands modèles de langage pour la planification et la prise de décision comme GPT, et des petits modèles experts pour l’exécution de tâches spécifiques (par exemple le modèle de Stable Diffusion sur la génération d’images). Les demandes des utilisateurs sont décomposées en sous-tâches et les modèles les plus adaptés attribués à chacune d’elles. Ces différents modèles spécifiques sont disponibles en open source sur la plateforme HuggingFace. Dans ce système, ChatGPT agit comme un “contrôleur” qui gère les modèles d’IA et les ressources associées. Il est capable de planifier les tâches, de sélectionner les modèles appropriés et d’exécuter les tâches.
Après l’exécution de la tâche, le grand modèle de langage recueille les différents résultats, les fusionne en une seule réponse et la renvoie à l’utilisateur. Les résultats peuvent alors comprendre des ressources multimodales, comme des images, du texte et de l’audio.
Voici l’exemple présenté dans l’article de Shen et al. (2023).
Demande de l’utilisateur : “Génère une image où une fille lit un livre, et sa pose est la même que le garçon dans l’image example.jpg. Puis décris la nouvelle image avec ta voix.”
HuggingGPT décompose cette tâche en plusieurs sous-tâches :
1. Analyse de la pose du garçon dans l’image d’exemple à l’aide d’un modèle spécialisé.
2. Génération d’une nouvelle image avec une fille dans la même pose, lisant un livre, en utilisant un autre modèle (lllyasviel/sd-controlnet-openpose).
3. Exécution de la détection d’objet sur la nouvelle image pour obtenir des prédictions des objets présents dans l’image, y compris la localisation de la boîte, à l’aide du modèle facebook/detr-resnet-101.
4. Utilisation des prédictions d’un modèle de classification d’images (google/vit-base-patch16-224) et d’un modèle de légende d’image (nlpconnect/vit-gpt2-image-captioning) pour générer la légende de la nouvelle image.
5. Conversion du texte généré en audio, à l’aide du modèle facebook/fastspeech2-en-ljspeech.
À chaque étape, HuggingGPT sélectionne le modèle le plus adapté pour effectuer la sous-tâche spécifique. Une fois toutes les sous-tâches terminées, HuggingGPT rassemble les résultats – une image d’une fille lisant un livre dans la même pose que le garçon dans l’image donnée, une description textuelle de cette image, et un enregistrement audio de cette description – et les présente à l’utilisateur de manière intégrée et cohérente.
Vous voyez maintenant où je voulais en venir avec mon histoire de métaphore computationnelle de l’esprit humain ?
● Comme le cerveau humain, HuggingGPT décompose les problèmes complexes en sous-tâches gérables.
● Tout comme notre cerveau utilise différentes régions spécialisées pour traiter différents types d’informations et accomplir différentes tâches, HuggingGPT assigne différentes sous-tâches à différents modèles d’IA spécialisés.
● Comme le cerveau humain, HuggingGPT coordonne ses “sous-systèmes” pour accomplir des tâches de manière efficace.
● Tout comme notre cerveau est capable de traiter et d’intégrer des informations provenant de nos différents sens, HuggingGPT est capable de gérer des tâches qui impliquent de comprendre des combinaisons d’images, de texte et d’audio.
● Comme le cerveau humain, HuggingGPT est adaptable et flexible. HuggingGPT peut être formé pour accomplir une grande variété de tâches, et son architecture permet d’intégrer facilement de nouveaux modèles d’IA spécialisés pour gérer de nouvelles sous-tâches.
De plus, si l’on examine l’aspect micro du fonctionnement des modèles IA, ces modèles tels que GPT sont des réseaux de neurones artificiels. Ils sont conçus pour imiter les processus neuronaux du cerveau humain. Ainsi, il existe une vraie similitude entre l’intelligence artificielle et l’architecture de notre cerveau. Cette ressemblance s’articule tant à l’échelle macroscopique – là où les processus globaux prennent forme – qu’à l’échelle microscopique, lieu de constitution des réseaux de neurones. Bien sûr, cela n’a rien d’étonnant dans la mesure où les modèles d’intelligence artificielle ont été construits par mimétisme avec le fonctionnement humain.
Ma question est donc maintenant la suivante : quelle est la distinction entre les deux ?
Une question de performance ?
Une des distinctions majeures entre le cerveau humain et les modèles d’intelligence artificielle, tels que GPT, réside dans la puissance de calcul nécessaire pour atteindre des performances équivalentes. Le cerveau humain, avec ses 86 milliards de neurones et ses 1,5 quadrillion de synapses, est capable d’effectuer environ 1,5 quintillion d’opérations par seconde, tout en consommant seulement environ 25 watts d’énergie.
En comparaison, une carte graphique de nouvelle génération peut réaliser environ 10 trillions d’opérations par seconde, mais cela nécessite une consommation d’énergie d’environ 250 watts. Pour approcher la puissance de calcul du cerveau humain, il faudrait environ 100 000 de ces cartes GPU fonctionnant en parallèle. L’électronique est donc environ un million de fois moins efficace que la biologie en matière d’énergie consommée pour une puissance de calcul équivalente.
En résumé, bien que les modèles d’intelligence artificielle aient considérablement progressé dans leur capacité à traiter des informations, ils nécessitent encore beaucoup plus de puissance de calcul et d’énergie pour se rapprocher des performances du cerveau humain. Cette différence de performance et d’efficacité énergétique souligne la complexité et l’efficacité remarquable du système biologique du cerveau.
Une question de complexité ?
Le fonctionnement du cerveau humain repose sur des principes biologiques complexes et encore mal compris. Les neurones interconnectés dans le cerveau communiquent entre eux à travers des signaux électriques et chimiques, formant des réseaux neuronaux hautement adaptatifs. Ce processus biologique permet au cerveau d’apprendre, de généraliser et de raisonner de manière flexible.
En revanche, les modèles d’intelligence artificielle utilisent des algorithmes basés sur des réseaux de neurones artificiels, qui sont des approximations mathématiques simplifiées du fonctionnement des neurones biologiques.
Une question d’incarnation ?
Le cerveau humain est étroitement lié à l’organisme biologique dans lequel il est enraciné. Il interagit avec les sens et les organes du corps pour percevoir et comprendre le monde qui l’entoure. Notre expérience de la réalité est façonnée par cette interaction directe avec notre corps physique. De plus, le cerveau humain est intimement lié à d’autres systèmes biologiques, tels que le système hormonal, le système immunitaire et le système nerveux périphérique, qui influencent notre cognition, nos émotions et notre comportement.
Pour conclure
Bien que les modèles d’intelligence artificielle aient accompli des progrès impressionnants, il reste encore beaucoup à comprendre et à découvrir pour se rapprocher de la complexité, de l’efficacité énergétique et de l’expérience incarnée du cerveau humain.
L’étude du cerveau humain continue d’inspirer et d’influencer le développement de l’intelligence artificielle, et cette interaction entre biologie et technologie ouvre de nouvelles perspectives passionnantes pour l’avenir. Pour approfondir la réflexion sur la convergence de l’intelligence artificielle et de l’intelligence humaine, un ouvrage intéressant que je vous conseille est La singularité technologique de Murray Shanahan. Ce livre explore le concept de singularité technologique, un point hypothétique dans le futur où l’intelligence artificielle atteindrait et dépasserait les capacités intellectuelles humaines. Murray Shanahan est spécialiste en intelligence artificielle et en philosophie de l’esprit. Dans ce livre, il examine les avancées actuelles de l’IA, les défis éthiques et philosophiques qu’elles soulèvent, et les implications profondes d’une possible singularité technologique !
Pour aller plus loin :
– L’article qui présente HuggingGPT : https://huggingface.co/papers/2303.17580
– Le site HuggingFace, si vous voulez voir à quoi ressemble l’open source dans l’IA : https://huggingface.co/
– Le livre “La singularité technologique de Murray Shanahan
Un commentaire
Super intéressant. Merci.
L’analogie est bonne pour ce qui est de la décomposition des taches, etc… Mais y a-t-il un pilote dans la avion ? J’ai du mal a comprendre que des gens très intelligents ne se rendent pas compte que lorsqu’il parle du cerveau comme si c’était l’esprit ils oublient justement qu’il y a un être qui anime ce corps ! Essayez de faire vos expérimentations sur un cerveau mort et vous ne verrez pas grand chose… Le cerveau est un organe du corps qui peut s’apparenter a un super ordinateur qui pilote des tas de choses, de meme qu’un IA peut faire des choses de plus en plus extraordinaire, mais n’oubliez pas qu’i y a un programmeur de l’IA et qu’il y a un être qui pilote ce corps et ça… On ne pourra jamais le mettre en boite mais c’est une composante absolument vitale a prendre en compte dans tout ce domaine…