Podstawy AI

Wie funktioniert ChatGPT? Das Geheimnis des Transformers

ChatGPT kann schreiben, übersetzen und erklären – aber was passiert eigentlich „unter der Haube“? In diesem Text zerlegen wir das Thema in einfache Teile: von neuronalen Netzen und Tokens über Attention bis hin zur Transformer-Architektur. Ohne mathematischen Nebel, dafür mit Beispielen, die man bei einem Kaffee verstehen kann.

ChatGPT wirkt, als würde es Sprache fast so wie ein Mensch verstehen. Es beantwortet Fragen, fasst Texte zusammen, schreibt E-Mails, korrigiert Code und macht manchmal sogar bessere Witze als ein Teil der Kolleg:innen im Firmenchat. Kein Wunder also, dass sich viele fragen: Wie funktioniert das eigentlich?

Die gute Nachricht: Man muss weder Informatik studiert haben noch sich durch Formeln kämpfen, um die Grundlagen zu verstehen. Ein paar einfache Begriffe und passende Vergleiche reichen aus. Fangen wir von vorne an.

Die kürzeste Antwort: ChatGPT sagt das nächste Wort voraus

Das klingt verdächtig bescheiden, aber im Kern genau darum geht es bei großen Sprachmodellen, also LLMs (Large Language Models).

ChatGPT nimmt den Text, den du eingibst, zerlegt ihn in kleinere Einheiten und sagt auf Basis einer riesigen Menge an Trainingsbeispielen voraus, was als Nächstes kommen sollte. Dann macht es das noch einmal. Und noch einmal. Wort für Wort, genauer gesagt: Element für Element.

Wenn du eingibst:

„Die Hauptstadt von Frankreich ist …“

wird das Modell sehr wahrscheinlich „Paris“ als nächstes Wort erwarten.

Wenn du eingibst:

„Schreibe eine höfliche E-Mail mit der Bitte, den Termin des Meetings zu verschieben“

dann „denkt“ das Modell nicht wie ein Mensch über Kalender, Beziehungen und Etikette nach. Stattdessen sagt es eine Wortfolge voraus, die am besten zu dieser Bitte passt, basierend auf Mustern, die es zuvor gelernt hat.

Das klingt vielleicht wenig romantisch, aber genau aus diesem einfachen Mechanismus entsteht erstaunlich viel „intelligentes“ Verhalten.

Bevor es Transformer gab: Was ist überhaupt ein neuronales Netz?

Um ChatGPT zu verstehen, lohnt es sich zuerst, den Begriff neuronales Netz zu entmystifizieren.

Der Name klingt biologisch, aber es geht nicht um eine digitale Kopie des menschlichen Gehirns. Es ist eher ein mathematisches System zur Mustererkennung. Ein solches System bekommt Eingabedaten, verarbeitet sie durch viele Schichten und liefert am Ende ein Ergebnis.

Man kann sich das wie mehrere Filter vorstellen, die hintereinander geschaltet sind:

der erste Filter erkennt einfache Merkmale,
der nächste verbindet sie zu komplexeren Mustern,
der folgende erkennt noch höhere Bedeutungsebenen.

Bei Bildern kann ein Netz zuerst Kanten erkennen, dann Formen und am Ende feststellen: „Das sieht aus wie eine Katze.“

Bei Sprache funktioniert es anders, aber das Prinzip ist ähnlich: Das Modell lernt Zusammenhänge zwischen Textelementen. Zum Beispiel, dass nach dem Wort „Tag“ oft „guten“ kommt und dass eine E-Mail meist nach „Mit freundlichen Grüßen“ endet.

LLM, also ein großes Sprachmodell

ChatGPT gehört zur Familie der großen Sprachmodelle. „Groß“ bedeutet hier gleich mehrere Dinge:

Das Modell hat sehr viele Parameter,
es wurde auf sehr großen Textmengen trainiert,
es kann viele sprachbezogene Aufgaben ausführen.

Parameter sind vereinfacht gesagt Zahlen im Inneren des Modells, die bestimmen, wie stark verschiedene Elemente aufeinander wirken. Während des Trainings passt das Modell diese Zahlen an, damit es immer besser vorhersagen kann, wie Text weitergeht.

Man muss die genaue Mathematik nicht kennen, um die Idee zu verstehen: Das Modell liest riesige Mengen an Texten und wird nach und nach immer besser darin zu erraten, wie Sprache normalerweise funktioniert.

Es lernt aber nicht wie ein Schüler, der eine Definition auswendig lernt. Eher wie jemand, der unvorstellbar viel gelesen hat und dadurch Stil, Struktur, Zusammenhänge und typische Antworten intuitiv erkennt.

Für das Modell sind Texte keine Wörter, sondern Tokens

Hier kommt ein wichtiger Punkt: ChatGPT arbeitet nicht direkt mit „Wörtern“, wie wir sie sehen. Stattdessen nutzt es Tokens.

Ein Token ist ein Textfragment. Manchmal ist es ein ganzes Wort, manchmal ein Wortteil und manchmal ein einzelnes Zeichen oder Satzzeichen.

Zum Beispiel kann der Satz:

„Ich trinke gern Kaffee mit Milch.“

in kleinere Teile zerlegt werden. Das Modell betrachtet Text also nicht wie ein Mensch, der einen Satz liest, sondern wie ein System, das mit einer Folge von Elementen arbeitet.

Warum das Ganze? Weil Sprache zu komplex ist, um jedes mögliche Wort als eigenen, starren Baustein zu behandeln. Dank Tokens kommt das Modell besser zurecht mit:

neuen Wörtern,
Wortbeugungen,
Tippfehlern,
verschiedenen Sprachen,
Eigennamen und Fachvokabular.

Das ist ein bisschen wie bei LEGO: Aus kleineren Teilen lässt sich viel mehr bauen als aus fertigen, unteilbaren Blöcken.

Woher „weiß“ das Modell, was Wörter bedeuten?

Es weiß es nicht auf menschliche Weise. Statt lexikalischer Bedeutungen bildet das Modell numerische Repräsentationen von Wörtern und Tokens. Praktisch wird jedes Token in einen Zahlenvektor umgewandelt, der seine Beziehungen zu anderen Tokens widerspiegelt.

Das klingt trocken, aber der Effekt ist spannend. Tokens, die in ähnlichen Kontexten verwendet werden, bekommen ähnliche Repräsentationen. Dadurch „spürt“ das Modell, dass Wörter wie „Hund“ und „Katze“ einander ähnlicher sind als „Hund“ und „Mikrowelle“. Zum Glück.

Genau deshalb kann ein LLM:

den Sinn von Aussagen erkennen,
Sätze umformulieren,
zwischen Sprachen übersetzen,
Fragen in unterschiedlichen Stilen beantworten.

Nicht, weil es eine Enzyklopädie im klassischen Sinn im Kopf hat, sondern weil es statistische Zusammenhänge in Sprache in großem Maßstab gelernt hat.

Das Problem älterer Modelle: Das Gedächtnis war zu kurz

Bevor Transformer aufkamen, nutzte man für Text andere Architekturen, vor allem sequentielle Modelle wie RNNs oder LSTMs. Ihr Hauptproblem war ziemlich menschlich: Sie verloren den Kontext, besonders bei längeren Texten.

Stell dir den Satz vor:

„Die Katze, die ich gestern bei der Nachbarin gesehen habe, ist trotz Regen und des ganzen Trubels in den Garten gerannt, weil sie sich vor dem Hund erschreckt hat.“

Um das Ende richtig zu verstehen, muss man sich merken, wer hier eigentlich gerannt ist und wovor er oder sie sich erschreckt hat. Ältere Modelle verarbeiteten Text stärker Schritt für Schritt, wodurch es schwieriger war, Beziehungen zwischen weit entfernten Textstellen zu behalten.

Und dann betritt der Held dieses Textes die Bühne.

Was ist ein Transformer?

Transformer ist eine neuronale Architektur, die speziell für Sequenzen wie Text entwickelt wurde. Sie wurde 2017 in der berühmten Forschungsarbeit „Attention Is All You Need“ beschrieben.

Ihr größter Durchbruch bestand darin, dass das Modell Text nicht nur Wort für Wort lesen muss wie jemand, der mit dem Finger Zeile für Zeile entlangfährt. Stattdessen kann es mehrere Elemente gleichzeitig betrachten und einschätzen, welche Textstellen füreinander wichtig sind.

Der zentrale Mechanismus dabei ist Attention, auf Deutsch meist „Aufmerksamkeitsmechanismus“.

Attention: Worauf das Modell achtet

Das ist der wichtigste Teil der ganzen Geschichte.

Wenn ein Mensch einen Satz liest, behandelt er nicht alle Wörter gleich. Wenn du den Satz siehst:

„Anna ist nicht zur Arbeit gegangen, weil sie krank war.“

dann verknüpfst du das Wort „krank“ in deinem Kopf mit Anna und nicht mit der Arbeit. Für uns ist das selbstverständlich. Für das Modell musste ein Mechanismus geschaffen werden, der solche Beziehungen erfassen hilft.

Der Attention-Mechanismus erlaubt dem Modell zu bewerten, auf welche früheren Tokens es schauen sollte, wenn es den aktuellen Abschnitt verarbeitet.

Anders gesagt: Das Modell fragt sich selbst,

welche Wörter in diesem Satz gerade am wichtigsten sind,
womit dieses Token verbunden ist,
wo der benötigte Kontext steht.

Dadurch versteht ChatGPT Zusammenhänge wie:

wer das Subjekt des Satzes ist,
worauf sich ein Pronomen bezieht,
welches Wort die Bedeutung eines anderen verändert,
worum es einige Sätze zuvor ging.

Ein einfaches Beispiel für Attention

Nehmen wir den Satz:

„Maria gab Anna das Buch zurück, weil sie es schon gelesen hatte.“

Ein Mensch versteht meist, dass sich „es“ auf das Buch bezieht und nicht auf Anna. Das Modell muss irgendwie zum selben Schluss kommen.

Der Attention-Mechanismus sorgt dafür, dass das Modell bei der Analyse von „es“ und „gelesen hatte“ dem Wort „Buch“ mehr Gewicht geben kann als anderen Elementen des Satzes.

Es tut das nicht durch „Verstehen“ im philosophischen Sinn, sondern durch Berechnung, welche Elemente im jeweiligen Kontext am relevantesten sind.

Das ist ein bisschen wie Lesen mit einem Textmarker, der automatisch vorschlägt, worauf man noch einmal schauen sollte.

Warum Transformer so ein Durchbruch waren

Dafür gibt es mehrere Gründe.

Erstens erfassen Transformer Abhängigkeiten über große Distanzen deutlich besser. Wenn ein wichtiges Wort viel früher im Text auftaucht, kann das Modell trotzdem noch darauf zugreifen.

Zweitens ermöglichen Transformer eine stärkere Parallelverarbeitung von Daten. Das ist technisch wichtig, weil es das Training auf riesigen Textmengen beschleunigt.

Drittens erwies sich die Architektur als außergewöhnlich skalierbar. Wenn man erhöhte:

die Datenmenge,
die Rechenleistung,
die Anzahl der Parameter,

dann begannen Modelle Dinge zu tun, die zuvor überraschend schwierig wirkten: sinnvolle Gespräche, Zusammenfassungen, Übersetzungen, Codegenerierung oder das Beantworten von Fragen aus verschiedenen Fachgebieten.

Kurz gesagt: Transformer waren nicht nur eine kleine Verbesserung. Sie haben die Spielregeln verändert.

Wie läuft das Training von ChatGPT ab?

Stark vereinfacht kann man es in zwei Phasen einteilen.

1. Vortraining auf einer riesigen Menge an Texten

Zuerst bekommt das Modell sehr viel Text und lernt, die nächsten Tokens vorherzusagen. Also wieder: Es sieht einen Ausschnitt und versucht zu erraten, wie es weitergeht.

Wenn es sich irrt, werden seine Parameter leicht angepasst. Dieser Prozess wiederholt sich unvorstellbar oft.

In dieser Phase lernt das Modell:

Grammatik,
Schreibstile,
grundlegende Fakten über die Welt,
typische Satzstrukturen,
Beziehungen zwischen Begriffen.

2. Feinabstimmung für den Dialog

Ein Modell, das nur nächste Tokens vorhersagt, ist noch nicht alles. Damit es als Chat nützlich ist, muss es zusätzlich feinabgestimmt werden.

In der Praxis bedeutet das, dem Modell beizubringen, wie es antworten soll:

hilfreicher,
sicherer,
verständlicher,
besser auf die Absicht des Nutzers abgestimmt.

Dafür nutzt man unter anderem von Menschen erstellte Beispiele und Rückmeldungen darüber, welche Antworten besser sind.

So „spuckt“ ChatGPT nicht einfach nur Text aus, sondern tut das in einer Form, die an ein Gespräch mit einem Assistenten erinnert.

Versteht ChatGPT, was es sagt?

Das ist eine der spannendsten Fragen, und die ehrliche Antwort lautet: Es kommt darauf an, was wir unter „verstehen“ meinen.

Wenn wir darunter menschliches Bewusstsein, Absichten, Welterfahrung, Emotionen und gesunden Menschenverstand verstehen, der durch das Leben entsteht, dann nein. ChatGPT hat so etwas nicht.

Wenn wir unter Verstehen jedoch die Fähigkeit verstehen,:

den Sinn einer Aussage zu erfassen,
Beziehungen zwischen Begriffen zu erkennen,
eine passende Antwort zu erzeugen,
Wissen in neuen Kontexten anzuwenden,

dann kann das Modell in praktischer Hinsicht sehr viel.

Deshalb wirkt es manchmal fast „denkfähig“, obwohl sein Mechanismus auf Vorhersage und statistischen Mustern beruht und nicht auf menschlicher Erfahrung.

Woher kommen Fehler und Halluzinationen?

Wenn das Modell so gut ist, warum liefert es dann manchmal mit beeindruckender Selbstsicherheit Unwahrheiten?

Weil ChatGPT keinen eingebauten Wahrheitszähler hat. Sein Ziel ist es, eine Antwort zu erzeugen, die zum Kontext passt und glaubwürdig wirkt. Das ist nicht dasselbe wie eine Antwort, die immer mit der Realität übereinstimmt.

Fehler können aus mehreren Gründen entstehen:

Das Modell hat im Training widersprüchliche oder unvollständige Informationen gesehen,
die Frage ist mehrdeutig,
das Thema erfordert aktuelle Daten, die dem Modell fehlen können,
das Modell „setzt“ eine Antwort aus wahrscheinlichen Elementen zusammen, die zusammen gut klingen, aber nicht korrekt sind.

Das nennt man oft eine Halluzination des Modells.

In der Praxis sollte man ChatGPT als sehr fähigen Assistenten zum Denken und Schreiben betrachten, aber nicht als unfehlbare Quelle offenbarter Wahrheit.

Warum klingt ChatGPT so natürlich?

Weil es auf riesigen Mengen von Texten trainiert wurde, die von Menschen geschrieben wurden. Dadurch hat es gelernt:

den Rhythmus der Sprache,
typische Satzkonstruktionen,
verschiedene Ausdrucksstile,
Erklärungsweisen,
Höflichkeitsformen und Gesprächskonventionen.

Das Modell hat keine „Persönlichkeit“ im menschlichen Sinn, kann aber sehr gut die Art und Weise nachahmen, wie Menschen Antworten formulieren. Das erzeugt den Eindruck von Natürlichkeit.

Manchmal sogar zu sehr. Deshalb vergisst man leicht, dass auf der anderen Seite niemand mit einer Kaffeetasse sitzt, sondern ein System, das mit beeindruckender Trefferquote die nächsten Tokens vorhersagt.

Und wo passen Prompts in das Ganze?

Ein Prompt ist einfach die Eingabeanweisung, also das, was du dem Modell schreibst. Von der Qualität des Prompts hängt sehr viel ab, weil das Modell auf den Kontext reagiert, den du vorgibst.

Wenn du schreibst:

„Erzähl etwas über Transformer“

erhältst du eine allgemeine Antwort.

Wenn du schreibst:

„Erkläre einer Person ohne technischen Hintergrund, wie die Transformer-Architektur funktioniert, verwende einfache Beispiele und keine Mathematik“

dann wird die Antwort meist deutlich besser passend sein.

Das ist ein bisschen wie beim Fragenstellen an eine Expertin oder einen Experten. Je klarer du formulierst, was du willst, für wen und in welcher Form, desto größer ist die Chance auf eine gute Antwort.

Wenn du tiefer einsteigen willst

Wenn du nach diesem Text das Gefühl hast, dass „es endlich Sinn ergibt“, aber vom allgemeinen Verständnis zur Praxis übergehen möchtest, lohnt es sich, weiter strukturiert zu lernen. Ein guter nächster Schritt ist ein Kurs, der nicht nur zeigt, was KI und LLMs sind, sondern auch wie man sie sinnvoll in Arbeit und Lernen einsetzt.

In der Akademie AI findest du Materialien in einfacher Sprache, ohne unnötiges technisches Aufblasen. Das ist besonders hilfreich für Menschen, die die Grundlagen verstehen und sie direkt in die Praxis umsetzen wollen, statt nach dem zweiten Absatz in der Theorie zu versinken.

Was man sich aus der ganzen Geschichte merken sollte

ChatGPT funktioniert nicht wie eine magische Kugel oder wie ein digitaler Mensch in einem Rechenzentrum. Es ist ein großes Sprachmodell auf Basis der Transformer-Architektur, das gelernt hat, die nächsten Elemente eines Textes auf Grundlage einer riesigen Zahl von Beispielen vorherzusagen.

Die wichtigsten Bausteine sind:

neuronales Netz, also ein System zur Mustererkennung,
Tokens, also Textfragmente, mit denen das Modell arbeitet,
Training, bei dem das Modell lernt, den weiteren Verlauf vorherzusagen,
Attention, also ein Mechanismus, der sich auf wichtige Teile des Kontexts konzentriert,
Transformer, der Sprache in großem Maßstab effektiv verarbeiten konnte.

Und genau das ist vielleicht das Spannendste daran: Hinter einem Werkzeug, das wie ein Gespräch wirkt, steckt eine Reihe von Ideen, die in ihrer Grundidee überraschend einfach sind. Schwer ist die Größenordnung, nicht der Kern der Konzeption.

Wenn ChatGPT dir das nächste Mal eine E-Mail schreibt, einen Begriff erklärt oder dir hilft, Notizen zu ordnen, kannst du dir eines merken: Es „denkt“ nicht wie ein Mensch. Aber dank des Transformers kann es sehr gut vorhersagen, wie eine sinnvolle Antwort aussehen sollte. Und das reicht bereits aus, um Dinge zu tun, die noch vor Kurzem wie Science-Fiction wirkten.