Token
Ein Token ist die kleinste Einheit, in die ein Large Language Model (LLM) einen Text zerlegt, bevor es ihn verarbeitet. Tokenisierung bezeichnet den Prozess, durch den ein LLM eingehenden Text – Suchanfragen, Webseiteninhalte oder Dokumente – in eine Sequenz solcher Tokens aufteilt. Je nach Modell und Sprache entspricht ein Token einem vollständigen Wort, einem Wortteil (Silbe oder Morphem), einem einzelnen Zeichen oder einem Satzzeichen.
Für Marketingverantwortliche ist Tokenisierung relevant, weil sie bestimmt, wie viel Text ein LLM in einem einzigen Verarbeitungsschritt aufnehmen kann, wie effizient es Inhalte in verschiedenen Sprachen versteht und – im Kontext von Answer Engine Optimization (AEO) – wie gut strukturierte Inhalte extrahiert und zitiert werden können. Inhalte mit hoher Informationsdichte pro Token werden von Answer Engines effizienter verarbeitet und häufiger als Antwortquelle ausgewählt.
Was ist ein Token – und wie liest ein LLM Text?
Ein Token ist die grundlegende Verarbeitungseinheit, mit der ein Large Language Model Sprache versteht und erzeugt. Bevor ein LLM eine Suchanfrage beantwortet oder einen Text generiert, zerlegt es den eingehenden Text in eine Sequenz von Tokens. Je nach Modell und Sprache entspricht ein Token einem vollständigen Wort, einem Wortteil, einem einzelnen Zeichen oder einem Satzzeichen. Der Prozess dieses Zerlegens heißt Tokenisierung (englisch: tokenisation).
Der Begriff Token stammt aus der Computerlinguistik, wo er allgemein eine diskrete Einheit bezeichnet, die ein Parser als bedeutungshaltige Einheit erkennt. In modernen LLMs wie GPT-4o oder Claude ist ein Token die kleinste Einheit, aus der das Modell Wahrscheinlichkeitsverteilungen über mögliche Fortsetzungen eines Textes berechnet. Das Vokabular eines Modells – also die Gesamtheit aller Tokens, die es kennt – umfasst bei aktuellen Modellen mehrere zehntausend bis über 100 000 Einträge.
Ein Beispiel verdeutlicht die Logik: Das Wort „Suchmaschinenoptimierung" wird von einem typischen LLM-Tokenisierer in mehrere Subtokens zerlegt – etwa „Such", „maschinen", „optim" und „ierung". Das englische Pendant „search engine optimization" lässt sich hingegen oft in drei Tokens aufteilen, die jeweils einem vollständigen Wort entsprechen. OpenAI stellt unter platform.openai.com/tokenizer ein interaktives Werkzeug bereit, mit dem Nutzende beliebige Texte tokenisieren und die Aufteilung in Echtzeit nachvollziehen können.
Welche Tokenisierungsmethoden verwenden Large Language Models?
Moderne Large Language Models verwenden nicht eine einzige, universelle Tokenisierungsmethode, sondern verschiedene Algorithmen, die unterschiedliche Abwägungen zwischen Effizienz, Sprachkompetenz und Rechenaufwand treffen. Die drei am weitesten verbreiteten Methoden sind Byte Pair Encoding (BPE), WordPiece und SentencePiece.
Byte Pair Encoding (BPE) ist das Tokenisierungsverfahren, das GPT-Modelle von OpenAI und viele andere große Sprachmodelle verwenden. BPE beginnt mit einzelnen Zeichen als Tokens und fusioniert iterativ die häufigsten Zeichenpaare zu neuen Token-Einheiten, bis eine vorgegebene Vokabulargröße erreicht ist. Das Ergebnis ist ein Tokenisierer, der häufige Wörter und Wortbestandteile als einzelne Tokens codiert, seltene oder sehr lange Begriffe hingegen in mehrere Subtokens aufteilt. WordPiece – das Verfahren hinter BERT und Googles Sprachmodellen – arbeitet nach einem ähnlichen Prinzip, optimiert die Fusionsentscheidungen aber nach einem statistischen Kriterium, das die Wahrscheinlichkeit des Trainingsdatensatzes maximiert.
SentencePiece, eingesetzt in Modellen wie LLaMA oder T5, unterscheidet sich dadurch, dass es direkt auf Rohbytes arbeitet und keine Wortsegmentierungsregel – also Leerzeichen als Wortgrenzen – voraussetzt. Das macht SentencePiece besonders geeignet für mehrsprachige Modelle, die Dutzende Sprachen gleichzeitig verarbeiten. Die Wahl des Tokenisierungsverfahrens beeinflusst, wie präzise ein Modell eine bestimmte Sprache versteht – und damit auch, wie zuverlässig es Inhalte in dieser Sprache als Antwortquelle nutzen kann.
Was ist das Context Window – und warum ist die Tokenanzahl darin entscheidend?
Das Context Window (Kontextfenster) eines LLM bezeichnet die maximale Anzahl von Tokens, die das Modell in einem einzigen Verarbeitungsschritt gleichzeitig lesen und berücksichtigen kann. Diese Grenze umfasst den kombinierten Input aus Systemprompt, Nutzeranfrage und bisheriger Konversation. Überschreitet ein Text das Context Window, werden ältere oder randständige Passagen abgeschnitten – das Modell hat dann keinen Zugriff mehr auf diese Informationen.
Die Größe des Context Window variiert erheblich zwischen verschiedenen Modellen und hat sich in den vergangenen Jahren deutlich vergrößert. Frühe GPT-Modelle arbeiteten mit 4 096 Tokens; aktuelle Modelle wie GPT-4o oder Claude 3.5 Sonnet verarbeiten mehrere hunderttausend Tokens in einem Schritt. Als Orientierung gilt für englischsprachige Texte: 1 000 Tokens entsprechen etwa 750 Wörtern. Deutschsprachige Texte fallen aufgrund ihrer morphologischen Komplexität tendenziell kürzer aus – auf diesen Zusammenhang gehen wir im folgenden Abschnitt ein.
Für Answer Engines, die Webseiteninhalte abrufen, um Antworten zu generieren, ist das Context Window eine knappe Ressource. Wenn mehrere Quellen in die Antwortgenerierung einfließen – wie es bei Systemen wie Perplexity oder Google AI Mode der Fall ist – konkurrieren Inhalte verschiedener Webseiten um den verfügbaren Tokenraum. Passagen, die früh im Kontext erscheinen und präzise formuliert sind, haben bessere Chancen, tatsächlich in die generierte Antwort einzufließen. Das ist ein wesentlicher Grund, warum klar strukturierte, kompakte Texte im Kontext von AEO gegenüber weitschweifigen Formulierungen im Vorteil sind.
Warum sind deutschsprachige Texte tokenisierungsintensiver als englische?
Deutschsprachige Texte benötigen im Durchschnitt mehr Tokens als inhaltlich äquivalente englische Texte – ein Phänomen mit direkten Konsequenzen für die Effizienz von KI-Anwendungen und die Verarbeitung durch Answer Engines. Der Hauptgrund liegt in der morphologischen Struktur des Deutschen: Als Sprache mit ausgeprägter Wortkomposition bildet das Deutsche lange Komposita wie „Suchmaschinenoptimierung", „Marketingstrategie" oder „Inhaltsverzeichnis", die ein auf englischen Daten trainierter Tokenisierer in viele Teileinheiten zerlegen muss.
Ein englisch dominierter Tokenisierer wie der von GPT-4o hat sein Vokabular primär auf Basis englischsprachiger Texte gelernt. Deutsche Wörter – insbesondere zusammengesetzte Substantive – erscheinen im Trainingskorpus seltener als ihre englischen Entsprechungen und werden deshalb häufiger in Subtokens aufgeteilt. Für dieselbe inhaltliche Information belegt ein deutsches Dokument damit mehr Platz im Context Window und erzeugt höhere Rechenkosten bei der Verarbeitung.
Für Marketingverantwortliche, die AEO-Inhalte auf Deutsch erstellen, hat das praktische Implikationen: Zu lange, verschachtelte Sätze mit vielen Komposita erzeugen einen überproportionalen Token-Overhead. Präzise, gut strukturierte Texte mit aktiven Verben und klaren Satzkonstruktionen sind nicht nur stilistisch besser – sie sind aus Tokenisierungsperspektive auch effizienter und werden von Answer Engines kompakter verarbeitet. Wer Inhalte für mehrsprachige Märkte erstellt, sollte außerdem berücksichtigen, dass die Qualität der KI-Verarbeitung zwischen Sprachversionen variieren kann.
Ressourcen :
Welche Konsequenzen hat die Tokenisierungslogik für AEO-Inhalte?
Die Tokenisierungslogik beeinflusst direkt, wie Answer Engines Webseiteninhalte verarbeiten, bewerten und als Antwortquelle auswählen. Inhalte mit hoher Informationsdichte pro Token – viele relevante Fakten in kompakter, klar strukturierter Sprache – werden von Large Language Models effizienter verarbeitet als weitschweifige Texte mit niedrigem Informationsgehalt pro Satz. Das begünstigt Inhalte, die dem Prinzip des Answer-First Formatting folgen: direkter Antwortsatz zuerst, Kontext und Details danach.
Für die Praxis der Answer Engine Optimization (AEO) bedeutet das: Jede Passage einer Webseite, die als Antwortquelle dienen soll, muss so geschrieben sein, dass sie ohne den umgebenden Kontext eine vollständige, korrekte Antwort liefert. Das setzt voraus, dass relevante Begriffe explizit benannt werden – keine Pronomen, die auf vorhergehenden Text verweisen –, dass Definitionen kompakt und präzise formuliert sind und dass Abschnitte einer klaren Frage-Antwort-Logik folgen. Jeder Abschnitt, der ein Thema selbstständig und vollständig abdeckt, bietet Answer Engines eine zitierfähige Einheit.
Wie hängen Token, Embedding und semantische Suche zusammen?
Token, Embedding und semantische Suche sind drei aufeinanderfolgende Verarbeitungsebenen, auf denen LLMs und moderne Suchsysteme Text verarbeiten. Tokenisierung ist der erste Schritt: Sie wandelt einen Rohtext in eine Sequenz diskreter Einheiten um. Im zweiten Schritt erzeugt das Modell aus jedem Token – und schließlich aus Sequenzen von Tokens – einen Embedding-Vektor: eine hochdimensionale numerische Repräsentation, die die semantische Bedeutung des Tokens im Kontext des umgebenden Textes einfängt.
Diese Embedding-Vektoren sind die Grundlage für semantische Suche. Statt nach exakten Wortübereinstimmungen zu suchen, vergleicht ein semantisches Suchsystem die Embedding-Repräsentation einer Suchanfrage mit den Embedding-Repräsentationen indexierter Dokumente und findet inhaltlich ähnliche Texte – auch wenn sie keine gemeinsamen Keywords enthalten. Für Answer Engines bedeutet das: Nicht die exakte Verwendung eines bestimmten Keywords, sondern die semantische Relevanz und Qualität der Inhalte entscheidet über die Wahrscheinlichkeit, als Quelle zitiert zu werden.
Für Marketingverantwortliche erklärt dieses Zusammenspiel, warum rein keyword-orientierte Suchmaschinenoptimierung (SEO) für Answer Engines nicht ausreicht. Eine Seite, die ein Thema semantisch vollständig und präzise abdeckt – also den gesamten thematischen Raum rund um ein Konzept in klarer Sprache erschließt –, wird von LLMs zu besseren Embeddings verarbeitet und häufiger als Antwortquelle herangezogen als eine Seite, die dasselbe Keyword viele Male wiederholt, ohne inhaltliche Tiefe zu bieten. Tokenisierung ist dabei der unsichtbare erste Schritt in dieser Verarbeitungskette.
Die wichtigsten Erkenntnisse : Token
Ein Token ist die kleinste Verarbeitungseinheit, in die ein Large Language Model einen Text zerlegt – nicht identisch mit einem Wort, sondern eine statistisch definierte Einheit aus dem Vokabular des jeweiligen Modells. Tokenisierung bestimmt, wie effizient ein LLM Inhalte verarbeitet, wie viel Text in das Context Window passt und welche Quellen von Answer Engines als Antwortgrundlage ausgewählt werden. Für deutschsprachige AEO-Inhalte gilt: Kompakte, präzise und klar strukturierte Texte erzielen ein besseres Token-Nutzen-Verhältnis als weitschweifige Formulierungen und bieten Answer Engines zitierfähige, selbstständige Passagen.
Häufige Fragen zu Token
Was ist der Unterschied zwischen einem Token und einem Wort?
Wie viele Tokens hat ein typischer Blogbeitrag?
Beeinflusst die Tokenisierung, ob meine Inhalte von Answer Engines zitiert werden?
Was bedeutet „Context Window" im Zusammenhang mit Tokens?
Warum werden manche Begriffe in mehrere Tokens aufgeteilt?
Verwandte Konzepte
LLM (Large Language Model)
Ein Large Language Model ist das KI-System, das Tokenisierung als ersten Verarbeitungsschritt einsetzt, um Text zu verstehen und Antworten zu generieren.
Embedding
Embeddings sind numerische Vektorrepräsentationen, die aus tokenisierten Texten erzeugt werden und die Grundlage für semantische Suche bilden.
Chunking
Chunking bezeichnet die Aufteilung langer Texte in verarbeitbare Abschnitte, die anschließend tokenisiert und als Einheiten in das Context Window eines LLM eingespeist werden.
Semantic Search
Semantische Suche nutzt Embeddings tokenisierter Texte, um Anfragen und Inhalte nach inhaltlicher Bedeutung statt nach exakten Keyword-Übereinstimmungen abzugleichen.
RAG (Retrieval-Augmented Generation)
RAG ist eine Architektur, bei der ein LLM tokenisierte Passagen aus externen Dokumenten abruft, um Antworten auf Basis aktueller Quellen zu generieren.
Prompt / Prompting
Ein Prompt ist die Eingabe, die Nutzende an ein LLM senden – sie wird tokenisiert, bevor das Modell mit der Verarbeitung beginnt, und belegt Tokens im Context Window.