Token

Ein Token ist die kleinste Einheit, in die ein Large Language Model (LLM) einen Text zerlegt, bevor es ihn verarbeitet. Tokenisierung bezeichnet den Prozess, durch den ein LLM eingehenden Text – Suchanfragen, Webseiteninhalte oder Dokumente – in eine Sequenz solcher Tokens aufteilt. Je nach Modell und Sprache entspricht ein Token einem vollständigen Wort, einem Wortteil (Silbe oder Morphem), einem einzelnen Zeichen oder einem Satzzeichen.

Für Marketingverantwortliche ist Tokenisierung relevant, weil sie bestimmt, wie viel Text ein LLM in einem einzigen Verarbeitungsschritt aufnehmen kann, wie effizient es Inhalte in verschiedenen Sprachen versteht und – im Kontext von Answer Engine Optimization (AEO) – wie gut strukturierte Inhalte extrahiert und zitiert werden können. Inhalte mit hoher Informationsdichte pro Token werden von Answer Engines effizienter verarbeitet und häufiger als Antwortquelle ausgewählt.

Was ist ein Token – und wie liest ein LLM Text?

Ein Token ist die grundlegende Verarbeitungseinheit, mit der ein Large Language Model Sprache versteht und erzeugt. Bevor ein LLM eine Suchanfrage beantwortet oder einen Text generiert, zerlegt es den eingehenden Text in eine Sequenz von Tokens. Je nach Modell und Sprache entspricht ein Token einem vollständigen Wort, einem Wortteil, einem einzelnen Zeichen oder einem Satzzeichen. Der Prozess dieses Zerlegens heißt Tokenisierung (englisch: tokenisation).

Der Begriff Token stammt aus der Computerlinguistik, wo er allgemein eine diskrete Einheit bezeichnet, die ein Parser als bedeutungshaltige Einheit erkennt. In modernen LLMs wie GPT-4o oder Claude ist ein Token die kleinste Einheit, aus der das Modell Wahrscheinlichkeitsverteilungen über mögliche Fortsetzungen eines Textes berechnet. Das Vokabular eines Modells – also die Gesamtheit aller Tokens, die es kennt – umfasst bei aktuellen Modellen mehrere zehntausend bis über 100 000 Einträge.

Ein Beispiel verdeutlicht die Logik: Das Wort „Suchmaschinenoptimierung" wird von einem typischen LLM-Tokenisierer in mehrere Subtokens zerlegt – etwa „Such", „maschinen", „optim" und „ierung". Das englische Pendant „search engine optimization" lässt sich hingegen oft in drei Tokens aufteilen, die jeweils einem vollständigen Wort entsprechen. OpenAI stellt unter platform.openai.com/tokenizer ein interaktives Werkzeug bereit, mit dem Nutzende beliebige Texte tokenisieren und die Aufteilung in Echtzeit nachvollziehen können.

Welche Tokenisierungsmethoden verwenden Large Language Models?

Moderne Large Language Models verwenden nicht eine einzige, universelle Tokenisierungsmethode, sondern verschiedene Algorithmen, die unterschiedliche Abwägungen zwischen Effizienz, Sprachkompetenz und Rechenaufwand treffen. Die drei am weitesten verbreiteten Methoden sind Byte Pair Encoding (BPE), WordPiece und SentencePiece.

Byte Pair Encoding (BPE) ist das Tokenisierungsverfahren, das GPT-Modelle von OpenAI und viele andere große Sprachmodelle verwenden. BPE beginnt mit einzelnen Zeichen als Tokens und fusioniert iterativ die häufigsten Zeichenpaare zu neuen Token-Einheiten, bis eine vorgegebene Vokabulargröße erreicht ist. Das Ergebnis ist ein Tokenisierer, der häufige Wörter und Wortbestandteile als einzelne Tokens codiert, seltene oder sehr lange Begriffe hingegen in mehrere Subtokens aufteilt. WordPiece – das Verfahren hinter BERT und Googles Sprachmodellen – arbeitet nach einem ähnlichen Prinzip, optimiert die Fusionsentscheidungen aber nach einem statistischen Kriterium, das die Wahrscheinlichkeit des Trainingsdatensatzes maximiert.

SentencePiece, eingesetzt in Modellen wie LLaMA oder T5, unterscheidet sich dadurch, dass es direkt auf Rohbytes arbeitet und keine Wortsegmentierungsregel – also Leerzeichen als Wortgrenzen – voraussetzt. Das macht SentencePiece besonders geeignet für mehrsprachige Modelle, die Dutzende Sprachen gleichzeitig verarbeiten. Die Wahl des Tokenisierungsverfahrens beeinflusst, wie präzise ein Modell eine bestimmte Sprache versteht – und damit auch, wie zuverlässig es Inhalte in dieser Sprache als Antwortquelle nutzen kann.

Was ist das Context Window – und warum ist die Tokenanzahl darin entscheidend?

Das Context Window (Kontextfenster) eines LLM bezeichnet die maximale Anzahl von Tokens, die das Modell in einem einzigen Verarbeitungsschritt gleichzeitig lesen und berücksichtigen kann. Diese Grenze umfasst den kombinierten Input aus Systemprompt, Nutzeranfrage und bisheriger Konversation. Überschreitet ein Text das Context Window, werden ältere oder randständige Passagen abgeschnitten – das Modell hat dann keinen Zugriff mehr auf diese Informationen.

Die Größe des Context Window variiert erheblich zwischen verschiedenen Modellen und hat sich in den vergangenen Jahren deutlich vergrößert. Frühe GPT-Modelle arbeiteten mit 4 096 Tokens; aktuelle Modelle wie GPT-4o oder Claude 3.5 Sonnet verarbeiten mehrere hunderttausend Tokens in einem Schritt. Als Orientierung gilt für englischsprachige Texte: 1 000 Tokens entsprechen etwa 750 Wörtern. Deutschsprachige Texte fallen aufgrund ihrer morphologischen Komplexität tendenziell kürzer aus – auf diesen Zusammenhang gehen wir im folgenden Abschnitt ein.

Für Answer Engines, die Webseiteninhalte abrufen, um Antworten zu generieren, ist das Context Window eine knappe Ressource. Wenn mehrere Quellen in die Antwortgenerierung einfließen – wie es bei Systemen wie Perplexity oder Google AI Mode der Fall ist – konkurrieren Inhalte verschiedener Webseiten um den verfügbaren Tokenraum. Passagen, die früh im Kontext erscheinen und präzise formuliert sind, haben bessere Chancen, tatsächlich in die generierte Antwort einzufließen. Das ist ein wesentlicher Grund, warum klar strukturierte, kompakte Texte im Kontext von AEO gegenüber weitschweifigen Formulierungen im Vorteil sind.

Warum sind deutschsprachige Texte tokenisierungsintensiver als englische?

Deutschsprachige Texte benötigen im Durchschnitt mehr Tokens als inhaltlich äquivalente englische Texte – ein Phänomen mit direkten Konsequenzen für die Effizienz von KI-Anwendungen und die Verarbeitung durch Answer Engines. Der Hauptgrund liegt in der morphologischen Struktur des Deutschen: Als Sprache mit ausgeprägter Wortkomposition bildet das Deutsche lange Komposita wie „Suchmaschinenoptimierung", „Marketingstrategie" oder „Inhaltsverzeichnis", die ein auf englischen Daten trainierter Tokenisierer in viele Teileinheiten zerlegen muss.

Ein englisch dominierter Tokenisierer wie der von GPT-4o hat sein Vokabular primär auf Basis englischsprachiger Texte gelernt. Deutsche Wörter – insbesondere zusammengesetzte Substantive – erscheinen im Trainingskorpus seltener als ihre englischen Entsprechungen und werden deshalb häufiger in Subtokens aufgeteilt. Für dieselbe inhaltliche Information belegt ein deutsches Dokument damit mehr Platz im Context Window und erzeugt höhere Rechenkosten bei der Verarbeitung.

Für Marketingverantwortliche, die AEO-Inhalte auf Deutsch erstellen, hat das praktische Implikationen: Zu lange, verschachtelte Sätze mit vielen Komposita erzeugen einen überproportionalen Token-Overhead. Präzise, gut strukturierte Texte mit aktiven Verben und klaren Satzkonstruktionen sind nicht nur stilistisch besser – sie sind aus Tokenisierungsperspektive auch effizienter und werden von Answer Engines kompakter verarbeitet. Wer Inhalte für mehrsprachige Märkte erstellt, sollte außerdem berücksichtigen, dass die Qualität der KI-Verarbeitung zwischen Sprachversionen variieren kann.

Ressourcen :

Welche Konsequenzen hat die Tokenisierungslogik für AEO-Inhalte?

Die Tokenisierungslogik beeinflusst direkt, wie Answer Engines Webseiteninhalte verarbeiten, bewerten und als Antwortquelle auswählen. Inhalte mit hoher Informationsdichte pro Token – viele relevante Fakten in kompakter, klar strukturierter Sprache – werden von Large Language Models effizienter verarbeitet als weitschweifige Texte mit niedrigem Informationsgehalt pro Satz. Das begünstigt Inhalte, die dem Prinzip des Answer-First Formatting folgen: direkter Antwortsatz zuerst, Kontext und Details danach.

Für die Praxis der Answer Engine Optimization (AEO) bedeutet das: Jede Passage einer Webseite, die als Antwortquelle dienen soll, muss so geschrieben sein, dass sie ohne den umgebenden Kontext eine vollständige, korrekte Antwort liefert. Das setzt voraus, dass relevante Begriffe explizit benannt werden – keine Pronomen, die auf vorhergehenden Text verweisen –, dass Definitionen kompakt und präzise formuliert sind und dass Abschnitte einer klaren Frage-Antwort-Logik folgen. Jeder Abschnitt, der ein Thema selbstständig und vollständig abdeckt, bietet Answer Engines eine zitierfähige Einheit.

Wie hängen Token, Embedding und semantische Suche zusammen?

Token, Embedding und semantische Suche sind drei aufeinanderfolgende Verarbeitungsebenen, auf denen LLMs und moderne Suchsysteme Text verarbeiten. Tokenisierung ist der erste Schritt: Sie wandelt einen Rohtext in eine Sequenz diskreter Einheiten um. Im zweiten Schritt erzeugt das Modell aus jedem Token – und schließlich aus Sequenzen von Tokens – einen Embedding-Vektor: eine hochdimensionale numerische Repräsentation, die die semantische Bedeutung des Tokens im Kontext des umgebenden Textes einfängt.

Diese Embedding-Vektoren sind die Grundlage für semantische Suche. Statt nach exakten Wortübereinstimmungen zu suchen, vergleicht ein semantisches Suchsystem die Embedding-Repräsentation einer Suchanfrage mit den Embedding-Repräsentationen indexierter Dokumente und findet inhaltlich ähnliche Texte – auch wenn sie keine gemeinsamen Keywords enthalten. Für Answer Engines bedeutet das: Nicht die exakte Verwendung eines bestimmten Keywords, sondern die semantische Relevanz und Qualität der Inhalte entscheidet über die Wahrscheinlichkeit, als Quelle zitiert zu werden.

Für Marketingverantwortliche erklärt dieses Zusammenspiel, warum rein keyword-orientierte Suchmaschinenoptimierung (SEO) für Answer Engines nicht ausreicht. Eine Seite, die ein Thema semantisch vollständig und präzise abdeckt – also den gesamten thematischen Raum rund um ein Konzept in klarer Sprache erschließt –, wird von LLMs zu besseren Embeddings verarbeitet und häufiger als Antwortquelle herangezogen als eine Seite, die dasselbe Keyword viele Male wiederholt, ohne inhaltliche Tiefe zu bieten. Tokenisierung ist dabei der unsichtbare erste Schritt in dieser Verarbeitungskette.

Die wichtigsten Erkenntnisse : Token

Ein Token ist die kleinste Verarbeitungseinheit, in die ein Large Language Model einen Text zerlegt – nicht identisch mit einem Wort, sondern eine statistisch definierte Einheit aus dem Vokabular des jeweiligen Modells. Tokenisierung bestimmt, wie effizient ein LLM Inhalte verarbeitet, wie viel Text in das Context Window passt und welche Quellen von Answer Engines als Antwortgrundlage ausgewählt werden. Für deutschsprachige AEO-Inhalte gilt: Kompakte, präzise und klar strukturierte Texte erzielen ein besseres Token-Nutzen-Verhältnis als weitschweifige Formulierungen und bieten Answer Engines zitierfähige, selbstständige Passagen.

Häufige Fragen zu Token

Was ist der Unterschied zwischen einem Token und einem Wort?

Ein Token ist nicht identisch mit einem Wort: Je nach Tokenisierer kann ein Token einem vollständigen Wort, einer Silbe, einem Wortteil oder einem Satzzeichen entsprechen. Das Wort „Tokenisierung" beispielsweise wird von gängigen LLM-Tokenisierern in mehrere Tokens zerlegt, während das englische „the" als einzelner Token codiert ist. Ob ein Begriff als einzelner Token oder als Sequenz von Tokens verarbeitet wird, hängt von der Häufigkeit des Begriffs im Trainingskorpus des Tokenisierers ab.

Wie viele Tokens hat ein typischer Blogbeitrag?

Als Faustregel gilt für englischsprachige Texte: 1 Token entspricht ungefähr 0,75 Wörtern. Ein Blogbeitrag mit 1 000 Wörtern umfasst damit etwa 1 300 bis 1 500 Tokens. Deutschsprachige Texte liegen aufgrund der längeren Komposita und der morphologischen Komplexität tendenziell bei einem höheren Token-Wort-Verhältnis – ein 1 000-Wörter-Artikel auf Deutsch kann 1 500 bis über 2 000 Tokens umfassen. Diese Relation ist für AEO relevant, weil sie bestimmt, wie viel Inhalt einer Seite in das Context Window eines LLM passt.

Beeinflusst die Tokenisierung, ob meine Inhalte von Answer Engines zitiert werden?

Tokenisierung entscheidet nicht direkt darüber, ob eine Seite zitiert wird – sie beeinflusst jedoch, wie effizient ein LLM den Inhalt verarbeiten kann. Inhalte mit hoher Informationsdichte pro Token – präzise Definitionen, klare Satzstruktur, direkte Antworten – bieten ein besseres Token-Nutzen-Verhältnis als weitschweifige Formulierungen. Inhalte, die ein LLM mit wenigen Tokens vollständig und korrekt erfassen kann, haben eine höhere Wahrscheinlichkeit, als zuverlässige Antwortquelle ausgewählt zu werden.

Was bedeutet „Context Window" im Zusammenhang mit Tokens?

Das Context Window bezeichnet die maximale Anzahl von Tokens, die ein LLM in einem einzigen Verarbeitungsschritt gleichzeitig lesen kann. Liegt ein Text oder ein Gesprächsverlauf über diesem Limit, werden Teile des Inputs abgeschnitten. Für Answer Engines, die mehrere Quellen gleichzeitig verarbeiten, bedeutet das: Seiten mit kompakten, präzisen Inhalten konkurrieren effektiver um den verfügbaren Tokenraum als Texte, die das Context Window schnell füllen, ohne proportional viele relevante Informationen beizusteuern.

Warum werden manche Begriffe in mehrere Tokens aufgeteilt?

Ob ein Begriff als einzelner Token oder als Sequenz mehrerer Tokens codiert wird, hängt von der Häufigkeit des Begriffs im Trainingskorpus des Tokenisierers ab. Häufige Wörter und Wortbestandteile werden als eigene Tokens im Vokabular gespeichert; seltene oder sehr lange Begriffe werden in bekannte Teileinheiten zerlegt. Markenbezeichnungen, Fachbegriffe und zusammengesetzte Wörter werden daher oft in mehrere Tokens aufgeteilt – das ist kein Qualitätsmerkmal des Begriffs, sondern eine statistische Eigenschaft des jeweiligen Tokenisierers.