Qu'est-ce qu'un LLM ? - Guide Sydologie ChatGPT

LLM : qu’est- ce qu’un Large Language Model ?

La semaine dernière, nous avons introduit notre livre blanc sur l’utilisation de l’IA et particulièrement de ChatGPT dans la pédagogie. Mais qu’est-ce qu’est ChatGPT exactement ? Un LLM. Un LLM ? Avant de réellement rentrer dans le vif du sujet, commençons par… une petite définition de ce qu’est un LLM (Large Language Model) ou un modèle de langage (de grande taille). Un LLM est un moteur de prédiction qui prend une séquence de mots en entrée et tente de prédire la séquence la plus probable à suivre. Il réalise cela en attribuant une probabilité à différentes séquences suivantes possibles, puis en sélectionnant parmi celles-ci pour en choisir une.

Les LLM apprennent ces probabilités en s’entraînant sur de grands corpus de texte (de provenances diverses et variées, tous tirés d’internet). Une conséquence de cela est que les modèles seront plus adaptés à certains cas d’utilisation qu’à d’autres (par exemple, s’ils sont entraînés sur des données de Twitter – , ils comprendront très bien comment analyser et générer des tweet). Une autre conséquence est que le modèle peut générer des déclarations qui semblent plausibles, mais qui sont en réalité aléatoires et non ancrées dans la réalité, des choses fausses donc. En effet, attention, les LLM ne disent pas toujours la vérité.

Pragmatique du langage : introduction au concept

Après avoir assimilé les bases de ce qu’est un modèle de langage, il est important de se pencher sur l’essence même de ce qu’il manipule : le langage. En effet, pour bien exploiter la puissance d’un LLM, une compréhension de la nature du langage et de ses nuances est cruciale. La linguistique, et plus précisément la pragmatique du langage, offre des clés essentielles pour décrypter et orienter les interactions avec ces modèles.

Découvrons ensemble les subtilités du langage qui influencent directement la façon dont les LLM interprètent et répondent à nos messages.

La pragmatique se penche sur la manière dont nous utilisons le langage dans des contextes réels de communication (on ne s’adresse pas de la même façon à son boulanger quand on vient pour acheter une baguette et à sa directrice pour demander une augmentation par exemple). Elle va au-delà de la simple signification des mots pour examiner comment ils sont utilisés pour agir et être interprétés dans des situations spécifiques. Prenons un exemple : « Peux-tu ouvrir la fenêtre ? » peut littéralement se traduire par une question, mais dans la plupart des contextes, c’est en réalité une demande polie.

Pragmatique du langage et acte de langage

La complexité de ce phénomène a été étudiée par des linguistes éminents. John Austin a introduit la notion d’ « acte de langage » dans les années 1950, suggérant que la parole n’est pas seulement une manière de décrire le monde, mais aussi une façon d’agir en son sein. Quand on dit « Je promets », on ne fait pas qu’évoquer une action, on la réalise. De plus, Paul Grice a souligné que nous transmettons souvent plus d’informations que ce que nos paroles expriment littéralement. Par exemple, si quelqu’un demande « As-tu du sucre ? » et que la réponse est « Le supermarché est ouvert », cela suggère indirectement une absence de sucre, même si ce n’est pas dit explicitement.

En se basant sur ces réflexions, Sperber et Wilson ont approfondi cette théorie de la communication dans un livre Relevance communication and cognition” en 1986. Ils ont soumis l’idée que la communication reposerait sur des indices fournis par l’émetteur pour aider le destinataire à inférer ses intentions. Ils ont aussi introduit le concept de « pertinence », qui est définie par le contexte.

Plus précisément, la pertinence d’une information dépend des effets qu’elle produit dans un contexte donné et des efforts cognitifs nécessaires pour la traiter. Une information riche en effets contextuels mais nécessitant peu d’efforts sera jugée hautement pertinente (“Ferme la porte !” alors que nous sommes dans une pièce). À l’inverse, une information avec peu d’effets contextuels nécessitant beaucoup d’efforts sera moins valorisée (“Ferme la porte !” alors que nous sommes dans le jardin). En bref, notre tendance naturelle est de privilégier les informations qui nous offrent le meilleur équilibre entre coût cognitif et pertinence contextuelle.

LLM et pragmatique du langage : l’importance du contexte.

L’interaction avec un modèle de langage, comme ChatGPT, est très différente de celle avec un être humain, notamment en ce qui concerne le contexte.

Prenons un exemple concret : imaginez que vous demandiez à un concepteur pédagogique de votre équipe de créer un quiz sur l’économie. Il est probable qu’il vous demande plus de détails avant de commencer : « Quel(s) aspect(s) de l’économie ? Quel niveau de connaissance préalable a la cible ? Combien de questions souhaitez-vous ? » Et c’est logique, car il cherche à affiner le contexte pour répondre au mieux à votre demande.

Si vous aviez précédemment discuté de ce projet avec le concepteur pédagogique de votre équipe, il aurait probablement le contexte en tête grâce à vos interactions ultérieures. Il pourrait ainsi ne pas poser de questions complémentaires. En revanche, si vous posez la même question à un collègue d’une autre équipe, sans contexte préalable, il aura besoin de beaucoup plus d’informations pour comprendre précisément ce que vous cherchez. Cette différence illustre à quel point le contexte partagé, ou le manque de contexte, peut influencer la communication.

Si, en revanche, vous posez la même demande à ChatGPT, il générera immédiatement un quiz sur l’économie, sans poser de questions supplémentaires. C’est là qu’intervient une des limites de ChatGPT : contrairement à vos collègues, lors de votre première intéraction avec ChatGPT, il ne sait rien sur votre projet et ne partage donc aucun contexte avec vous (et en plus il ne vous demande pas automatiquement plus d’informations sur votre demande, en tout cas pas si vous n’avez pas explicitement de le faire).

Chaque requête dans un nouveau chat est traitée comme une nouvelle interaction, sans référence à des échanges antérieurs (vous seriez bien seul à vous attacher…), d’où l’importance de fournir un contexte clair et précis pour obtenir les résultats souhaités lors des interactions avec ce modèle. Par contre, ChatGPT conserve l’historique des échanges au sein d’un même chat, ce qui peut être très utile.

LLM et ingénierie de prompt

Maintenant que vous savez ce qu’est un LLM et la pragmatique du langage, nous allons découvrir plus en profondeur dans le prochain article le concept de prompt et comment fonctionne l’ingénierie de prompt. À bientôt pour de nouvelles aventures !

Pour lire les autres articles :
– Article 1 : Guide Sydologie ChatGPT : révolutionner la pédagogie avec l’IA

ChatGPT, IA, LLM, Pragmatique du langage

2 commentaires

Billet
11 décembre 2023

Bonjour et merci pour cet éclairant regard. Mais l’annonce de la suite (ingénierie de prompt) reste vaine… Est-ce moi qui ne sait pas chercher ?
merci

Répondre
- Aymeric Debrun
  23 janvier 2024
  
  Bonjour,
  
  Le prochain article sort prochainement. Notre rédacteur est très pris par ses conférences et formations sur l’IA.
  
  Merci pour votre confiance.
  
  Répondre

Laisser un commentaire Annuler la réponse

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.

Qu’est-ce qu’un LLM ? – Guide Sydologie ChatGPT