Podstawy AI

Comment fonctionne ChatGPT ? Le mystère du transformer

ChatGPT peut écrire, traduire et expliquer, mais que se passe-t-il vraiment « sous le capot » ? Dans ce texte, nous décomposons le sujet en parties simples : des réseaux neuronaux et des tokens à l’attention et à l’architecture du transformer. Sans brouillard mathématique, mais avec des exemples qu’on peut comprendre autour d’un café.

ChatGPT donne l’impression de comprendre le langage presque comme un humain. Il répond aux questions, résume des textes, rédige des e-mails, corrige du code et, parfois, plaisante même mieux qu’une partie de vos collègues sur le chat d’entreprise. Pas étonnant que beaucoup de gens se demandent : comment cela fonctionne-t-il vraiment ?

La bonne nouvelle, c’est qu’il n’est pas nécessaire d’avoir fait des études d’informatique ni de se battre avec des formules pour comprendre les bases. Il suffit de quelques notions simples et de comparaisons parlantes. Commençons par le début.

La réponse la plus courte : ChatGPT prédit le mot suivant

Cela semble étonnamment modeste, mais c’est en réalité le cœur du fonctionnement des grands modèles de langage, c’est-à-dire des LLM (Large Language Models).

ChatGPT prend le texte que vous saisissez, le découpe en plus petits éléments et, à partir d’un énorme nombre d’exemples vus pendant l’entraînement, prédit ce qui devrait apparaître ensuite. Puis il recommence. Et encore. Mot par mot, ou plus précisément : élément par élément.

Si vous tapez :

« La capitale de la France est… »

le modèle considérera qu’un mot suivant très probable est « Paris ».

Si vous tapez :

« Rédige un e-mail poli pour demander le report d’une réunion »

le modèle ne « pense » pas comme un humain au calendrier, aux relations et à l’étiquette. À la place, il prédit une suite de mots qui correspond le mieux à une telle demande, en s’appuyant sur les schémas appris auparavant.

Cela peut sembler peu romantique, mais c’est précisément de ce mécanisme simple que naît une grande partie des comportements « intelligents ».

Avant le transformer : qu’est-ce qu’un réseau neuronal ?

Pour comprendre ChatGPT, il vaut d’abord la peine de se familiariser avec la notion de réseau neuronal.

Le nom sonne biologique, mais il ne s’agit pas d’une copie numérique du cerveau humain. C’est plutôt un système mathématique de détection de motifs. Un tel système reçoit des données d’entrée, les traite à travers plusieurs couches, puis produit un résultat.

On peut le comparer au travail de plusieurs filtres placés les uns après les autres :

le premier filtre repère des caractéristiques simples,
le suivant les combine en motifs plus complexes,
le suivant encore reconnaît un niveau de signification plus élevé.

Dans les images, un réseau peut d’abord détecter des contours, puis des formes, et enfin conclure : « cela ressemble à un chat ».

Dans le langage, cela fonctionne différemment, mais le principe est similaire : le modèle apprend les relations entre les éléments du texte. Par exemple, qu’après le mot « bon » vient souvent « jour », et qu’après « cordialement » un e-mail se termine généralement.

LLM, c’est-à-dire grand modèle de langage

ChatGPT appartient à la famille des grands modèles de langage. « Grand » signifie ici plusieurs choses à la fois :

le modèle possède énormément de paramètres,
il a été entraîné sur de très grands ensembles de textes,
il peut accomplir de nombreuses tâches liées au langage.

Les paramètres sont, en simplifiant, des nombres à l’intérieur du modèle qui déterminent à quel point différents éléments s’influencent mutuellement. Pendant l’entraînement, le modèle ajuste ces nombres pour mieux prédire les fragments de texte suivants.

Il n’est pas nécessaire de connaître les mathématiques exactes pour saisir l’idée : le modèle lit d’énormes quantités de textes et devient progressivement meilleur pour deviner comment le langage fonctionne habituellement.

Il n’apprend toutefois pas comme un élève qui mémorise une définition dans un manuel. Il ressemble plutôt à quelqu’un qui a lu un volume inimaginable de textes et qui, grâce à cela, perçoit le style, la structure, les liens et les réponses typiques.

Pour le modèle, le texte n’est pas fait de mots, mais de tokens

Voici le premier détail important. ChatGPT ne travaille pas directement sur des « mots » tels que nous les voyons. Il utilise à la place des tokens.

Un token est un fragment de texte. Parfois c’est un mot entier, parfois une partie de mot, et parfois un seul caractère ou un signe de ponctuation.

Par exemple, la phrase :

« J’aime le café au lait. »

peut être découpée en plus petites parties. Le modèle ne regarde donc pas le texte comme un humain lisant une phrase, mais comme un système opérant sur une séquence d’éléments.

Pourquoi tout cela ? Parce que la langue est trop complexe pour traiter chaque mot possible comme un bloc séparé et rigide. Grâce aux tokens, le modèle gère mieux :

les mots nouveaux,
les variations des mots,
les fautes de frappe,
les différentes langues,
les noms propres et le vocabulaire spécialisé.

C’est un peu comme avec des briques LEGO : avec des pièces plus petites, on peut construire bien plus qu’avec des blocs tout faits et indivisibles.

Comment le modèle « sait-il » ce que signifient les mots ?

Il ne le sait pas à la manière humaine. Au lieu de significations de dictionnaire, le modèle construit des représentations numériques des mots et des tokens. En pratique, chaque token est transformé en un ensemble de nombres qui reflète ses relations avec d’autres tokens.

Cela semble sec, mais le résultat est intéressant. Les tokens utilisés dans des contextes similaires finissent par avoir des représentations proches. Grâce à cela, le modèle « sent » que des mots comme « chien » et « chat » se ressemblent davantage que « chien » et « micro-ondes ». Heureusement.

C’est précisément pour cela qu’un LLM peut :

reconnaître le sens d’un énoncé,
paraphraser des phrases,
traduire entre les langues,
répondre à des questions dans différents styles.

Pas parce qu’il a une encyclopédie dans la tête sous forme classique, mais parce qu’il a appris des relations statistiques dans le langage à très grande échelle.

Le problème des anciens modèles : la mémoire était trop courte

Avant l’arrivée des transformers, on utilisait d’autres architectures pour traiter le texte, notamment des modèles séquentiels comme les RNN ou les LSTM. Leur principal problème était assez humain : ils perdaient le contexte, surtout lorsque le texte devenait long.

Imaginez la phrase :

« Le chat, que j’ai vu hier chez la voisine, malgré la pluie et tout le désordre, a couru dans le jardin parce qu’il a eu peur du chien. »

Pour bien comprendre la fin, il faut se souvenir de qui courait exactement et de ce qui lui faisait peur. Les anciens modèles traitaient le texte davantage pas à pas, ce qui rendait plus difficile le maintien des relations entre des fragments éloignés.

Et c’est alors que le héros de ce texte entre en scène.

Qu’est-ce qu’un transformer ?

Le transformer est une architecture de réseau neuronal conçue spécialement pour travailler avec des séquences, comme le texte. Elle a été décrite en 2017 dans le célèbre article de recherche « Attention Is All You Need ».

Sa grande avancée a été de permettre au modèle de ne pas lire le texte uniquement mot par mot, comme quelqu’un qui ferait glisser son doigt sur une ligne. À la place, il peut regarder plusieurs éléments à la fois et évaluer quels fragments sont importants les uns pour les autres.

Le mécanisme clé ici est l’attention, c’est-à-dire, en français, le plus souvent le « mécanisme d’attention ».

Attention, ou sur quoi le modèle se concentre

C’est la partie la plus importante de toute l’histoire.

Quand un humain lit une phrase, il ne traite pas tous les mots de la même manière. Si vous voyez la phrase :

« Alice n’est pas allée au travail parce qu’elle était malade. »

le mot « malade » se rattache dans votre esprit à Alice, et non au travail. Pour nous, c’est évident. Pour le modèle, il a fallu créer un mécanisme qui aide à saisir de telles relations.

Le mécanisme d’attention permet au modèle d’évaluer sur quels tokens précédents il doit se concentrer lorsqu’il traite le fragment actuel.

Autrement dit, le modèle se demande à lui-même :

quels mots de cette phrase sont les plus importants maintenant,
à quoi ce token est-il lié,
où se trouve le contexte nécessaire.

Grâce à cela, ChatGPT comprend mieux des relations du type :

qui est le sujet de la phrase,
à quoi renvoie un pronom,
quel mot modifie le sens d’un autre,
quel était le sujet quelques phrases plus tôt.

Un exemple simple du fonctionnement de l’attention

Prenons la phrase :

« Marie a prêté un livre à Anne parce qu’elle l’avait déjà lu. »

Un humain comprend généralement que « l’ » renvoie au livre, et non à Anne. Le modèle doit parvenir à la même conclusion.

Le mécanisme d’attention fait qu’en analysant le mot « l’ » et « lu », le modèle peut donner plus de poids au mot « livre » qu’aux autres éléments de la phrase.

Il ne le fait pas par « compréhension » au sens philosophique, mais en calculant quels éléments sont les plus pertinents dans le contexte donné.

C’est un peu comme lire avec un surligneur qui vous indique automatiquement ce qu’il vaut la peine de relire.

Pourquoi le transformer a-t-il été une telle révolution ?

Les raisons sont plusieurs.

Premièrement, le transformer capte mieux les dépendances à grande distance. Si un mot important apparaît beaucoup plus tôt, le modèle peut toujours y « revenir ».

Deuxièmement, le transformer permet un traitement plus parallèle des données. C’est important techniquement, car cela accélère l’entraînement sur d’immenses corpus de textes.

Troisièmement, l’architecture s’est révélée exceptionnellement évolutive. Lorsque l’on augmentait :

la quantité de données,
la puissance de calcul,
le nombre de paramètres,

les modèles commençaient à faire des choses qui semblaient auparavant étonnamment difficiles : conversations cohérentes, résumés, traductions, génération de code ou réponses à des questions dans divers domaines.

En bref : le transformer n’était pas qu’une petite amélioration. C’était un changement des règles du jeu.

Comment se déroule l’entraînement de ChatGPT ?

En très grande simplification, on peut le diviser en deux étapes.

1. Pré-entraînement sur un énorme volume de textes

D’abord, le modèle reçoit énormément de texte et apprend à prédire les tokens suivants. Donc encore une fois : il voit un fragment et essaie de deviner ce qui doit venir ensuite.

S’il se trompe, ses paramètres sont légèrement corrigés. Ce processus se répète un nombre inimaginable de fois.

C’est à cette étape que le modèle apprend :

la grammaire,
les styles d’écriture,
des faits de base sur le monde,
les structures typiques des énoncés,
les relations entre les concepts.

2. Ajustement pour la conversation

Un modèle qui prédit simplement les tokens suivants ne suffit pas encore. Pour qu’il soit utile sous forme de chat, il faut l’ajuster davantage.

En pratique, cela signifie apprendre au modèle à répondre :

de manière plus utile,
plus sûre,
plus claire,
conformément à l’intention de l’utilisateur.

On utilise notamment des exemples préparés par des humains ainsi que des retours sur les réponses les meilleures.

Grâce à cela, ChatGPT ne se contente pas de « compléter du texte » : il le fait sous une forme qui ressemble à une conversation avec un assistant.

ChatGPT comprend-il ce qu’il dit ?

C’est l’une des questions les plus intéressantes, et la réponse honnête est : cela dépend de ce que l’on entend par « comprendre ».

Si par comprendre on entend la conscience humaine, les intentions, l’expérience du monde, les émotions et le bon sens acquis par la vie, alors non. ChatGPT n’a pas cela.

En revanche, si par comprendre on entend la capacité à :

saisir le sens d’un énoncé,
reconnaître les relations entre les concepts,
générer une réponse pertinente,
appliquer des connaissances dans de nouveaux contextes,

alors, dans un sens pratique, le modèle en est capable à un très haut niveau.

C’est pourquoi il donne parfois l’impression de « penser », alors que son mécanisme repose sur la prédiction et les schémas statistiques, et non sur l’expérience humaine.

D’où viennent les erreurs et les hallucinations ?

Si le modèle est si bon, pourquoi donne-t-il parfois une fausse information avec une assurance admirable ?

Parce que ChatGPT n’a pas de compteur de vérité intégré. Son objectif est de générer une réponse qui correspond au contexte et semble crédible. Ce n’est pas la même chose qu’une réponse toujours conforme à la réalité.

Les erreurs peuvent venir de plusieurs raisons :

le modèle a vu pendant l’entraînement des informations contradictoires ou incomplètes,
la question est ambiguë,
le sujet nécessite des données à jour que le modèle ne possède peut-être pas,
le modèle « assemble » une réponse à partir d’éléments probables qui, ensemble, sonnent bien mais ne sont pas corrects.

C’est ce qu’on appelle souvent une hallucination du modèle.

En pratique, il vaut mieux considérer ChatGPT comme un assistant très performant pour réfléchir et écrire, mais pas comme une source infaillible de vérité révélée.

Pourquoi ChatGPT sonne-t-il si naturellement ?

Parce qu’il a été entraîné sur d’énormes quantités de textes écrits par des humains. Grâce à cela, il a appris :

le rythme du langage,
les structures de phrases typiques,
différents styles d’expression,
des façons d’expliquer,
les formules de politesse et les conventions de conversation.

Le modèle n’a pas de « personnalité » au sens humain, mais il peut très bien imiter la manière dont les gens formulent leurs réponses. Cela donne une impression de naturel.

Parfois même trop. C’est pourquoi on oublie facilement qu’à l’autre bout, il n’y a pas quelqu’un avec une tasse de café, mais un système qui prédit les tokens suivants avec une efficacité impressionnante.

Et quelle est la place des prompts dans tout cela ?

Un prompt est tout simplement une instruction d’entrée, c’est-à-dire ce que vous saisissez dans le modèle. La qualité du prompt compte énormément, car le modèle réagit au contexte que vous lui fournissez.

Si vous écrivez :

« Parle-moi des transformers »

vous obtiendrez une réponse générale.

Si vous écrivez :

« Explique comment fonctionne l’architecture du transformer à une personne sans formation technique, utilise des exemples simples et n’emploie pas de mathématiques »

la réponse sera généralement beaucoup mieux adaptée.

C’est un peu comme poser une question à un expert. Plus vous précisez clairement ce que vous voulez, pour qui et sous quelle forme, plus vous avez de chances d’obtenir une bonne réponse.

Si vous voulez aller un niveau plus loin

Si, après ce texte, vous avez le sentiment que « enfin, cela a du sens », mais que vous voulez passer de la compréhension générale à la pratique, il vaut la peine d’apprendre la suite de manière structurée. Une bonne étape consiste à suivre un cours qui montre non seulement ce que sont l’IA et les LLM, mais aussi comment les utiliser intelligemment au travail et dans l’apprentissage.

Dans l’Académie de l’IA, vous trouverez des contenus rédigés dans un langage simple, sans jargon technique inutile. C’est particulièrement utile pour les personnes qui veulent comprendre les bases et les transformer immédiatement en usage concret, au lieu de se noyer dans la théorie après le deuxième paragraphe.

Ce qu’il faut retenir de toute cette histoire

ChatGPT ne fonctionne pas comme une boule magique ni comme un humain numérique enfermé dans une salle de serveurs. C’est un grand modèle de langage basé sur l’architecture du transformer, qui a appris à prédire les éléments suivants d’un texte à partir d’un énorme nombre d’exemples.

Les éléments les plus importants du puzzle sont :

le réseau neuronal, c’est-à-dire le système qui détecte des motifs,
les tokens, c’est-à-dire les fragments de texte sur lesquels le modèle travaille,
l’entraînement, pendant lequel le modèle apprend à prédire la suite,
l’attention, c’est-à-dire le mécanisme qui se concentre sur les fragments pertinents du contexte,
le transformer, qui a permis de traiter efficacement le langage à grande échelle.

Et c’est sans doute cela qui est le plus fascinant : derrière un outil qui ressemble à une conversation se cache un ensemble d’idées étonnamment simples dans leur principe. La difficulté réside dans l’échelle, pas dans le noyau même du concept.

La prochaine fois que ChatGPT rédigera un e-mail pour vous, expliquera une notion ou vous aidera à organiser vos notes, vous pourrez retenir une chose : il ne « pense » pas comme un humain. Mais grâce au transformer, il peut très bien prédire à quoi devrait ressembler une réponse cohérente. Et cela suffit déjà pour faire des choses qui, il y a peu encore, semblaient relever de la science-fiction.