LLMS.txt
LLMS.txt ist eine Klartextdatei im Markdown-Format, die Webseitenbetreibende im Stammverzeichnis ihrer Domain ablegen, um Large Language Models (LLMs) und KI-Crawler gezielt auf die wichtigsten Inhalte einer Website hinzuweisen. Die Datei wurde 2024 von Jeremy Howard (Answer.AI) als offener Standard vorgeschlagen und stellt eine strukturierte Ergänzung zu robots.txt dar, die speziell auf die Anforderungen KI-gestützter Systeme ausgerichtet ist.
LLMS.txt liefert KI-Systemen eine vorverdaute Übersicht der wertvollsten, am besten strukturierten und verlässlichsten Inhalte einer Website – in einem Format, das ohne aufwendiges HTML-Parsing direkt verarbeitbar ist. Im Kontext der Answer Engine Optimization (AEO) dient LLMS.txt als technisches Signal, das KI-Crawlern mitteilt, welche Seiten für die Aufnahme in Trainings- und Retrievaldaten priorisiert werden sollten.
Was ist LLMS.txt und wie ist die Datei aufgebaut?
LLMS.txt ist eine Plain-Text-Datei im Markdown-Format, die unter https://[domain]/llms.txt abrufbar sein muss. Die Datei enthält eine hierarchisch gegliederte Übersicht der wichtigsten Ressourcen einer Website, geordnet nach Themen oder Seitentypen. Jeder Eintrag besteht aus einem Markdown-Link – Titel in eckigen Klammern, URL in runden Klammern – gefolgt von einer kurzen Beschreibung des Inhalts. Der Aufbau orientiert sich an Markdown-Konventionen: Überschriften mit # strukturieren thematische Abschnitte, Links zeigen auf die wichtigsten Unterseiten.
Der vorgeschlagene Standard definiert zwei Varianten: llms.txt als Übersichtsdatei mit priorisierten Links und kurzen Beschreibungen sowie llms-full.txt als vollständige Inhaltsversion, die den Volltext der wichtigsten Seiten im Markdown-Format enthält. llms-full.txt ist für KI-Systeme gedacht, die Inhalte direkt aus der Datei verarbeiten wollen, ohne die verlinkten Seiten einzeln aufzurufen. Beide Dateien ergänzen sich: llms.txt fungiert als Navigation, llms-full.txt als direkter Inhaltslieferant.
Ein minimales Beispiel für eine LLMS.txt-Datei enthält eine kurze Beschreibung der Website, gefolgt von thematisch gegliederten Abschnitten mit Links zu den wichtigsten Seiten und einer Ein-Satz-Beschreibung des jeweiligen Inhalts. Die Datei sollte kompakt bleiben – sie ist kein Sitemap-Ersatz, sondern eine selektive, qualitätsorientierte Auswahl der Inhalte, die ein LLM bevorzugt kennen und zitieren soll.
Welchen Zweck erfüllt LLMS.txt für KI-Crawler und Answer Engines?
LLMS.txt erfüllt für KI-Crawler eine Navigationsfunktion, die robots.txt nicht übernehmen kann. Robots.txt regelt Zugriffsrechte: welche Crawler welche URLs aufrufen dürfen. LLMS.txt regelt Inhaltspriorisierung: welche Inhalte für KI-Systeme besonders relevant und vertrauenswürdig sind. Dieser Unterschied ist grundlegend. Ein KI-Crawler, der Tausende von Seiten einer Website crawlen kann, benötigt keine Blockierungsliste – er benötigt eine priorisierte Auswahl, um Rechenzeit und Indexierungstiefe effizient zu nutzen.
Answer Engines wie GPTBot (OpenAI), ClaudeBot (Anthropic), Google-Extended und PerplexityBot crawlen Websites, um Inhalte für Training und Retrieval zu sammeln. LLMS.txt gibt diesen Crawlern einen direkten Hinweis darauf, welche Seiten den höchsten Informationswert haben, welche Inhalte bereits in LLM-freundlichem Format vorliegen und welche Ressourcen das Fachwissen des Unternehmens am besten repräsentieren. Seiten, die in LLMS.txt verlinkt sind, haben eine höhere Wahrscheinlichkeit, in KI-Trainingsdaten aufgenommen und als Quelle in generierten Antworten zitiert zu werden.
Ein weiterer praktischer Nutzen liegt in der Umgehung von Rendering-Problemen: Viele moderne Websites laden Inhalte über JavaScript nach, das KI-Crawler oft nicht vollständig verarbeiten können. LLMS.txt verweist gezielt auf sauber zugängliche, maschinenlesbare Inhaltsseiten und umgeht damit technische Barrieren, die die Inhaltsextraktion durch KI-Crawler erschweren würden.
Ressourcen:
Wie unterscheidet sich LLMS.txt von robots.txt?
LLMS.txt und robots.txt erfüllen komplementäre, aber grundlegend verschiedene Funktionen. Robots.txt ist ein etablierter technischer Standard (seit 1994), der Crawler darüber informiert, welche URLs sie nicht aufrufen sollen. Robots.txt kommuniziert Verbote: „Crawl diese Seiten nicht." LLMS.txt kommuniziert Empfehlungen: „Diese Seiten sind für KI-Systeme besonders wertvoll." Robots.txt schützt Inhalte vor unerwünschtem Zugriff; LLMS.txt fördert Inhalte aktiv gegenüber KI-Systemen.
Technisch unterscheiden sich beide Dateien auch im Format: Robots.txt folgt einer spezifischen Syntax aus User-agent- und Disallow/Allow-Direktiven. LLMS.txt ist freies Markdown ohne strikte Syntaxregeln, was die Erstellung für Redakteurinnen und Redakteure ohne technischen Hintergrund erleichtert. Beide Dateien liegen im Stammverzeichnis der Domain und sind öffentlich abrufbar.
Für eine vollständige AEO-Strategie müssen beide Dateien konsistent konfiguriert sein. Wer in robots.txt bestimmte KI-Crawler blockiert und gleichzeitig eine LLMS.txt unterhält, sendet widersprüchliche Signale. Die empfohlene Strategie: Robots.txt konfiguriert den Zugang für KI-Crawler gezielt (z. B. Training-Crawler erlauben, aber Retrieval-Crawler für bestimmte Bereiche einschränken), während LLMS.txt unabhängig davon die inhaltliche Priorisierung steuert.
Ressourcen:
Wie erstellt man eine LLMS.txt-Datei?
Eine LLMS.txt-Datei wird als Klartextdatei im Markdown-Format erstellt und unter /llms.txt im Stammverzeichnis der Domain bereitgestellt. Der Aufbau folgt einer klaren Struktur: Die Datei beginnt mit einem kurzen Abschnitt über die Website und ihre thematischen Schwerpunkte – ein bis drei Sätze, die erklären, was die Website bietet und für welche Themen sie Expertise besitzt. Danach folgen thematisch gegliederte Abschnitte mit Markdown-Links zu den wichtigsten Seiten und einer kurzen Beschreibung pro Link.
Bei der Auswahl der verlinkten Seiten gilt das Prinzip der Qualität über Quantität. LLMS.txt ist keine Sitemap – sie sollte nicht alle Seiten einer Website auflisten, sondern gezielt die Seiten, die das inhaltliche Kompetenzprofil am besten repräsentieren. Für ein Marketingunternehmen sind das beispielsweise Glossarseiten zu Kernbegriffen, tiefe Leitfäden zu Hauptthemen, Studien und Datenquellen sowie häufig referenzierte Hilfedokumentationen. Seiten mit dünnem Inhalt, veralteten Informationen oder rein kommerzieller Ausrichtung ohne inhaltlichen Mehrwert gehören nicht in LLMS.txt.
Die Beschreibungen pro Link sollten präzise, faktisch und in vollständigen Sätzen formuliert sein. Eine gute Beschreibung erklärt, was eine Seite inhaltlich bietet und für welche Fragen sie eine verlässliche Quelle ist – nicht, warum die Seite gut für das Unternehmen ist. LLMS.txt kommuniziert mit KI-Systemen, nicht mit menschlichen Lesenden, und KI-Systeme priorisieren Informationsdichte gegenüber Marketingsprache.
Ressourcen:
Welche KI-Crawler unterstützen LLMS.txt?
LLMS.txt ist kein offiziell durch ein Standardisierungsgremium wie die IETF ratifizierter Standard – es ist ein offener Vorschlag, der zunehmende Akzeptanz unter KI-Plattformen findet. GPTBot (OpenAI) prüft LLMS.txt-Dateien beim Crawlen von Websites und berücksichtigt die priorisierten Links bei der Inhaltsindexierung. ClaudeBot (Anthropic) unterstützt den Standard ebenfalls. Google-Extended – Googles Crawler für generative KI-Systeme – hat die Berücksichtigung von LLMS.txt angekündigt. PerplexityBot crawlt LLMS.txt-Dateien und nutzt die enthaltenen Links zur Qualifizierung von Inhalten für Zitierungsentscheidungen.
Die Unterstützung variiert zwischen den Plattformen: Nicht alle KI-Systeme lesen LLMS.txt mit identischer Gewichtung aus. Einige Systeme nutzen die Datei primär als Navigationshilfe für ihre Crawler, andere werten die Beschreibungen als semantische Signale für die Inhaltsklassifikation aus. Da sich der Standard noch entwickelt, empfiehlt sich eine regelmäßige Überprüfung, welche KI-Plattformen LLMS.txt aktiv unterstützen und wie sich deren Implementierung entwickelt.
Für Websites, die LLMS.txt einsetzen möchten, gilt: Der Einsatz der Datei ist risikofrei, da sie keine negativen Auswirkungen auf traditionelle SEO oder Suchmaschinen-Crawler hat. Robots.txt-Crawler wie Googlebot, Bingbot und andere klassische Suchmaschinen-Crawler ignorieren LLMS.txt vollständig und lesen weiterhin ausschließlich robots.txt. LLMS.txt ist ausschließlich für KI-Systeme und LLM-Crawler relevant.
Ressourcen:
Welche Inhalte sollte LLMS.txt priorisieren?
LLMS.txt sollte Inhalte priorisieren, die drei Kriterien erfüllen: hohe inhaltliche Tiefe, klare Faktizität und direkten Bezug zu den Kernkompetenzen der Website. Geeignete Seitentypen sind Glossarseiten und Definitionen, umfangreiche Leitfäden mit Handlungsempfehlungen, Studien und Datenauswertungen, technische Dokumentationen und Support-Ressourcen sowie häufig zitierte Grundlagentexte. Diese Seiten haben die höchste Wahrscheinlichkeit, von KI-Systemen als verlässliche Quelle für generierte Antworten ausgewählt zu werden.
Nicht in LLMS.txt gehören: rein kommerzielle Produktseiten ohne inhaltliche Substanz, rechtliche Dokumente wie AGB und Datenschutzerklärungen, Kontakt- und Impressumsseiten, veraltete Inhalte sowie Seiten, die primär für Suchmaschinenwerbung optimiert sind und wenig organischen Informationswert bieten. LLMS.txt kommuniziert mit KI-Systemen, die Inhalte anhand ihrer Informationsdichte und Verlässlichkeit bewerten – nicht anhand ihrer Conversion-Optimierung.
Für Websites mit umfangreichen Inhaltsarchiven empfiehlt sich eine thematische Gliederung der LLMS.txt in maximal fünf bis sieben Abschnitte. Jeder Abschnitt sollte drei bis zehn Links enthalten. Eine LLMS.txt mit mehr als 50 Einträgen verliert ihre Funktion als kuratierte Priorisierungsliste und nähert sich strukturell einer Sitemap an – was nicht ihr Zweck ist.
Wie misst man den Einfluss von LLMS.txt auf die KI-Sichtbarkeit?
Der direkte Einfluss von LLMS.txt auf die KI-Sichtbarkeit ist schwer zu isolieren, da KI-Plattformen ihre Quellenauswahl-Algorithmen nicht offenlegen. Methodologisch sinnvoll ist ein Vorher-Nachher-Vergleich: KI-Crawl-Aktivität und KI-Traffic aus spezifischen Referrern werden vor und nach der Einführung von LLMS.txt gemessen. Als Messgrundlage dienen Webanalytics-Daten für KI-Referrer (ChatGPT.com, Perplexity.ai, Bing AI etc.) und manuelles Prompt-Testing mit Fragen zu den in LLMS.txt priorisierten Themen.
Einen direkten Beweis für die Kausalität zwischen LLMS.txt und erhöhter Zitierungsrate liefern Server-Logs: Wenn KI-Crawler die LLMS.txt-Datei abrufen und danach die darin verlinkten Seiten häufiger crawlen, ist das ein Indiz dafür, dass die Datei aktiv genutzt wird. Die Zeitdauer bis zu messbaren Effekten beträgt erfahrungsgemäß vier bis acht Wochen, da KI-Systeme ihre Inhaltsindizes nicht sofort aktualisieren.
Ressourcen:
Die wichtigsten Erkenntnisse: LLMS.txt
LLMS.txt ist eine Markdown-Klartextdatei im Stammverzeichnis einer Website, die KI-Crawlern und Large Language Models eine kuratierte Übersicht der inhaltlich wertvollsten Ressourcen einer Website liefert. Der 2024 von Jeremy Howard vorgeschlagene Standard ergänzt robots.txt: Während robots.txt Zugriffsrechte regelt, kommuniziert LLMS.txt inhaltliche Priorisierungen. Führende KI-Systeme wie GPTBot, ClaudeBot und Google-Extended berücksichtigen LLMS.txt bei der Inhaltsindexierung. LLMS.txt sollte selektiv sein – keine Sitemap, sondern eine qualitätsorientierte Auswahl der Seiten, die das Kompetenzprofil einer Website am besten repräsentieren und von KI-Systemen bevorzugt zitiert werden sollen.
Häufige Fragen zu LLMS.txt
Ist LLMS.txt ein offizieller Standard?
Schadet LLMS.txt klassischem SEO?
Was ist der Unterschied zwischen LLMS.txt und LLMS-full.txt?
Kann LLMS.txt verhindern, dass KI-Systeme bestimmte Inhalte verwenden?
Wie oft sollte LLMS.txt aktualisiert werden?
Brauchen kleine Websites auch eine LLMS.txt?
Verwandte Konzepte
Robots.txt
Robots.txt regelt den Crawlerzugang auf URL-Ebene und wird durch LLMS.txt ergänzt, das inhaltliche Priorisierungen für KI-Crawler kommuniziert.
Sitemap
Die Sitemap listet alle indexierbaren URLs einer Website auf; LLMS.txt ist das komplementäre Gegenstück – eine selektive, qualitätsorientierte Auswahl für KI-Systeme.
LLM
Large Language Models (LLMs) sind die KI-Systeme, für die LLMS.txt als Navigations- und Priorisierungsformat konzipiert wurde.
AI Visibility
KI-Sichtbarkeit beschreibt das Ziel, das LLMS.txt unterstützt: die Häufigkeit und Qualität, mit der eine Marke in KI-generierten Antworten erscheint.
Topical Authority
Topical Authority ist die thematische Expertise, die LLMS.txt durch die Priorisierung der inhaltsstärksten Seiten gegenüber KI-Systemen strategisch kommuniziert.
Answer Engine Optimization (AEO)
Answer Engine Optimization (AEO) ist die übergeordnete Disziplin, für die LLMS.txt ein technisches Werkzeug zur Verbesserung der KI-Sichtbarkeit auf Infrastrukturebene darstellt.