LLMS.txt

LLMS.txt ist eine Klartextdatei im Markdown-Format, die Webseitenbetreibende im Stammverzeichnis ihrer Domain ablegen, um Large Language Models (LLMs) und KI-Crawler gezielt auf die wichtigsten Inhalte einer Website hinzuweisen. Die Datei wurde 2024 von Jeremy Howard (Answer.AI) als offener Standard vorgeschlagen und stellt eine strukturierte Ergänzung zu robots.txt dar, die speziell auf die Anforderungen KI-gestützter Systeme ausgerichtet ist.

LLMS.txt liefert KI-Systemen eine vorverdaute Übersicht der wertvollsten, am besten strukturierten und verlässlichsten Inhalte einer Website – in einem Format, das ohne aufwendiges HTML-Parsing direkt verarbeitbar ist. Im Kontext der Answer Engine Optimization (AEO) dient LLMS.txt als technisches Signal, das KI-Crawlern mitteilt, welche Seiten für die Aufnahme in Trainings- und Retrievaldaten priorisiert werden sollten.

Was ist LLMS.txt und wie ist die Datei aufgebaut?

LLMS.txt ist eine Plain-Text-Datei im Markdown-Format, die unter https://[domain]/llms.txt abrufbar sein muss. Die Datei enthält eine hierarchisch gegliederte Übersicht der wichtigsten Ressourcen einer Website, geordnet nach Themen oder Seitentypen. Jeder Eintrag besteht aus einem Markdown-Link – Titel in eckigen Klammern, URL in runden Klammern – gefolgt von einer kurzen Beschreibung des Inhalts. Der Aufbau orientiert sich an Markdown-Konventionen: Überschriften mit # strukturieren thematische Abschnitte, Links zeigen auf die wichtigsten Unterseiten.

Der vorgeschlagene Standard definiert zwei Varianten: llms.txt als Übersichtsdatei mit priorisierten Links und kurzen Beschreibungen sowie llms-full.txt als vollständige Inhaltsversion, die den Volltext der wichtigsten Seiten im Markdown-Format enthält. llms-full.txt ist für KI-Systeme gedacht, die Inhalte direkt aus der Datei verarbeiten wollen, ohne die verlinkten Seiten einzeln aufzurufen. Beide Dateien ergänzen sich: llms.txt fungiert als Navigation, llms-full.txt als direkter Inhaltslieferant.

Ein minimales Beispiel für eine LLMS.txt-Datei enthält eine kurze Beschreibung der Website, gefolgt von thematisch gegliederten Abschnitten mit Links zu den wichtigsten Seiten und einer Ein-Satz-Beschreibung des jeweiligen Inhalts. Die Datei sollte kompakt bleiben – sie ist kein Sitemap-Ersatz, sondern eine selektive, qualitätsorientierte Auswahl der Inhalte, die ein LLM bevorzugt kennen und zitieren soll.

Welchen Zweck erfüllt LLMS.txt für KI-Crawler und Answer Engines?

LLMS.txt erfüllt für KI-Crawler eine Navigationsfunktion, die robots.txt nicht übernehmen kann. Robots.txt regelt Zugriffsrechte: welche Crawler welche URLs aufrufen dürfen. LLMS.txt regelt Inhaltspriorisierung: welche Inhalte für KI-Systeme besonders relevant und vertrauenswürdig sind. Dieser Unterschied ist grundlegend. Ein KI-Crawler, der Tausende von Seiten einer Website crawlen kann, benötigt keine Blockierungsliste – er benötigt eine priorisierte Auswahl, um Rechenzeit und Indexierungstiefe effizient zu nutzen.

Answer Engines wie GPTBot (OpenAI), ClaudeBot (Anthropic), Google-Extended und PerplexityBot crawlen Websites, um Inhalte für Training und Retrieval zu sammeln. LLMS.txt gibt diesen Crawlern einen direkten Hinweis darauf, welche Seiten den höchsten Informationswert haben, welche Inhalte bereits in LLM-freundlichem Format vorliegen und welche Ressourcen das Fachwissen des Unternehmens am besten repräsentieren. Seiten, die in LLMS.txt verlinkt sind, haben eine höhere Wahrscheinlichkeit, in KI-Trainingsdaten aufgenommen und als Quelle in generierten Antworten zitiert zu werden.

Ein weiterer praktischer Nutzen liegt in der Umgehung von Rendering-Problemen: Viele moderne Websites laden Inhalte über JavaScript nach, das KI-Crawler oft nicht vollständig verarbeiten können. LLMS.txt verweist gezielt auf sauber zugängliche, maschinenlesbare Inhaltsseiten und umgeht damit technische Barrieren, die die Inhaltsextraktion durch KI-Crawler erschweren würden.

Ressourcen:

Wie unterscheidet sich LLMS.txt von robots.txt?

LLMS.txt und robots.txt erfüllen komplementäre, aber grundlegend verschiedene Funktionen. Robots.txt ist ein etablierter technischer Standard (seit 1994), der Crawler darüber informiert, welche URLs sie nicht aufrufen sollen. Robots.txt kommuniziert Verbote: „Crawl diese Seiten nicht." LLMS.txt kommuniziert Empfehlungen: „Diese Seiten sind für KI-Systeme besonders wertvoll." Robots.txt schützt Inhalte vor unerwünschtem Zugriff; LLMS.txt fördert Inhalte aktiv gegenüber KI-Systemen.

Technisch unterscheiden sich beide Dateien auch im Format: Robots.txt folgt einer spezifischen Syntax aus User-agent- und Disallow/Allow-Direktiven. LLMS.txt ist freies Markdown ohne strikte Syntaxregeln, was die Erstellung für Redakteurinnen und Redakteure ohne technischen Hintergrund erleichtert. Beide Dateien liegen im Stammverzeichnis der Domain und sind öffentlich abrufbar.

Für eine vollständige AEO-Strategie müssen beide Dateien konsistent konfiguriert sein. Wer in robots.txt bestimmte KI-Crawler blockiert und gleichzeitig eine LLMS.txt unterhält, sendet widersprüchliche Signale. Die empfohlene Strategie: Robots.txt konfiguriert den Zugang für KI-Crawler gezielt (z. B. Training-Crawler erlauben, aber Retrieval-Crawler für bestimmte Bereiche einschränken), während LLMS.txt unabhängig davon die inhaltliche Priorisierung steuert.

Ressourcen:

Wie erstellt man eine LLMS.txt-Datei?

Eine LLMS.txt-Datei wird als Klartextdatei im Markdown-Format erstellt und unter /llms.txt im Stammverzeichnis der Domain bereitgestellt. Der Aufbau folgt einer klaren Struktur: Die Datei beginnt mit einem kurzen Abschnitt über die Website und ihre thematischen Schwerpunkte – ein bis drei Sätze, die erklären, was die Website bietet und für welche Themen sie Expertise besitzt. Danach folgen thematisch gegliederte Abschnitte mit Markdown-Links zu den wichtigsten Seiten und einer kurzen Beschreibung pro Link.

Bei der Auswahl der verlinkten Seiten gilt das Prinzip der Qualität über Quantität. LLMS.txt ist keine Sitemap – sie sollte nicht alle Seiten einer Website auflisten, sondern gezielt die Seiten, die das inhaltliche Kompetenzprofil am besten repräsentieren. Für ein Marketingunternehmen sind das beispielsweise Glossarseiten zu Kernbegriffen, tiefe Leitfäden zu Hauptthemen, Studien und Datenquellen sowie häufig referenzierte Hilfedokumentationen. Seiten mit dünnem Inhalt, veralteten Informationen oder rein kommerzieller Ausrichtung ohne inhaltlichen Mehrwert gehören nicht in LLMS.txt.

Die Beschreibungen pro Link sollten präzise, faktisch und in vollständigen Sätzen formuliert sein. Eine gute Beschreibung erklärt, was eine Seite inhaltlich bietet und für welche Fragen sie eine verlässliche Quelle ist – nicht, warum die Seite gut für das Unternehmen ist. LLMS.txt kommuniziert mit KI-Systemen, nicht mit menschlichen Lesenden, und KI-Systeme priorisieren Informationsdichte gegenüber Marketingsprache.

Ressourcen:

Welche KI-Crawler unterstützen LLMS.txt?

LLMS.txt ist kein offiziell durch ein Standardisierungsgremium wie die IETF ratifizierter Standard – es ist ein offener Vorschlag, der zunehmende Akzeptanz unter KI-Plattformen findet. GPTBot (OpenAI) prüft LLMS.txt-Dateien beim Crawlen von Websites und berücksichtigt die priorisierten Links bei der Inhaltsindexierung. ClaudeBot (Anthropic) unterstützt den Standard ebenfalls. Google-Extended – Googles Crawler für generative KI-Systeme – hat die Berücksichtigung von LLMS.txt angekündigt. PerplexityBot crawlt LLMS.txt-Dateien und nutzt die enthaltenen Links zur Qualifizierung von Inhalten für Zitierungsentscheidungen.

Die Unterstützung variiert zwischen den Plattformen: Nicht alle KI-Systeme lesen LLMS.txt mit identischer Gewichtung aus. Einige Systeme nutzen die Datei primär als Navigationshilfe für ihre Crawler, andere werten die Beschreibungen als semantische Signale für die Inhaltsklassifikation aus. Da sich der Standard noch entwickelt, empfiehlt sich eine regelmäßige Überprüfung, welche KI-Plattformen LLMS.txt aktiv unterstützen und wie sich deren Implementierung entwickelt.

Für Websites, die LLMS.txt einsetzen möchten, gilt: Der Einsatz der Datei ist risikofrei, da sie keine negativen Auswirkungen auf traditionelle SEO oder Suchmaschinen-Crawler hat. Robots.txt-Crawler wie Googlebot, Bingbot und andere klassische Suchmaschinen-Crawler ignorieren LLMS.txt vollständig und lesen weiterhin ausschließlich robots.txt. LLMS.txt ist ausschließlich für KI-Systeme und LLM-Crawler relevant.

Ressourcen:

Welche Inhalte sollte LLMS.txt priorisieren?

LLMS.txt sollte Inhalte priorisieren, die drei Kriterien erfüllen: hohe inhaltliche Tiefe, klare Faktizität und direkten Bezug zu den Kernkompetenzen der Website. Geeignete Seitentypen sind Glossarseiten und Definitionen, umfangreiche Leitfäden mit Handlungsempfehlungen, Studien und Datenauswertungen, technische Dokumentationen und Support-Ressourcen sowie häufig zitierte Grundlagentexte. Diese Seiten haben die höchste Wahrscheinlichkeit, von KI-Systemen als verlässliche Quelle für generierte Antworten ausgewählt zu werden.

Nicht in LLMS.txt gehören: rein kommerzielle Produktseiten ohne inhaltliche Substanz, rechtliche Dokumente wie AGB und Datenschutzerklärungen, Kontakt- und Impressumsseiten, veraltete Inhalte sowie Seiten, die primär für Suchmaschinenwerbung optimiert sind und wenig organischen Informationswert bieten. LLMS.txt kommuniziert mit KI-Systemen, die Inhalte anhand ihrer Informationsdichte und Verlässlichkeit bewerten – nicht anhand ihrer Conversion-Optimierung.

Für Websites mit umfangreichen Inhaltsarchiven empfiehlt sich eine thematische Gliederung der LLMS.txt in maximal fünf bis sieben Abschnitte. Jeder Abschnitt sollte drei bis zehn Links enthalten. Eine LLMS.txt mit mehr als 50 Einträgen verliert ihre Funktion als kuratierte Priorisierungsliste und nähert sich strukturell einer Sitemap an – was nicht ihr Zweck ist.

Wie misst man den Einfluss von LLMS.txt auf die KI-Sichtbarkeit?

Der direkte Einfluss von LLMS.txt auf die KI-Sichtbarkeit ist schwer zu isolieren, da KI-Plattformen ihre Quellenauswahl-Algorithmen nicht offenlegen. Methodologisch sinnvoll ist ein Vorher-Nachher-Vergleich: KI-Crawl-Aktivität und KI-Traffic aus spezifischen Referrern werden vor und nach der Einführung von LLMS.txt gemessen. Als Messgrundlage dienen Webanalytics-Daten für KI-Referrer (ChatGPT.com, Perplexity.ai, Bing AI etc.) und manuelles Prompt-Testing mit Fragen zu den in LLMS.txt priorisierten Themen.

Einen direkten Beweis für die Kausalität zwischen LLMS.txt und erhöhter Zitierungsrate liefern Server-Logs: Wenn KI-Crawler die LLMS.txt-Datei abrufen und danach die darin verlinkten Seiten häufiger crawlen, ist das ein Indiz dafür, dass die Datei aktiv genutzt wird. Die Zeitdauer bis zu messbaren Effekten beträgt erfahrungsgemäß vier bis acht Wochen, da KI-Systeme ihre Inhaltsindizes nicht sofort aktualisieren.

Ressourcen:

Die wichtigsten Erkenntnisse: LLMS.txt

LLMS.txt ist eine Markdown-Klartextdatei im Stammverzeichnis einer Website, die KI-Crawlern und Large Language Models eine kuratierte Übersicht der inhaltlich wertvollsten Ressourcen einer Website liefert. Der 2024 von Jeremy Howard vorgeschlagene Standard ergänzt robots.txt: Während robots.txt Zugriffsrechte regelt, kommuniziert LLMS.txt inhaltliche Priorisierungen. Führende KI-Systeme wie GPTBot, ClaudeBot und Google-Extended berücksichtigen LLMS.txt bei der Inhaltsindexierung. LLMS.txt sollte selektiv sein – keine Sitemap, sondern eine qualitätsorientierte Auswahl der Seiten, die das Kompetenzprofil einer Website am besten repräsentieren und von KI-Systemen bevorzugt zitiert werden sollen.

Häufige Fragen zu LLMS.txt

Ist LLMS.txt ein offizieller Standard?

LLMS.txt ist kein offiziell durch ein Standardisierungsgremium ratifizierter Standard. Es handelt sich um einen offenen Vorschlag von Jeremy Howard (Answer.AI), der 2024 veröffentlicht wurde und zunehmende Akzeptanz unter KI-Plattformen findet. OpenAI, Anthropic und Google haben den Standard nicht formal verabschiedet, berücksichtigen LLMS.txt aber in ihren Crawlern. Die Spezifikation ist öffentlich zugänglich und kann von Webseitenbetreibenden ohne technische Abhängigkeiten implementiert werden.

Schadet LLMS.txt klassischem SEO?

LLMS.txt hat keine negativen Auswirkungen auf klassisches SEO. Traditionelle Suchmaschinen-Crawler wie Googlebot und Bingbot ignorieren LLMS.txt vollständig und lesen weiterhin ausschließlich robots.txt, Sitemaps und den regulären Seiteninhalt. LLMS.txt ist ausschließlich für KI-Crawler relevant und stellt damit eine rein additive Maßnahme dar, die bestehende SEO-Strategien weder verbessert noch verschlechtert.

Was ist der Unterschied zwischen LLMS.txt und LLMS-full.txt?

LLMS.txt ist eine Übersichtsdatei mit priorisierten Links und kurzen Inhaltsbeschreibungen – eine Navigation für KI-Crawler. LLMS-full.txt enthält den Volltext der wichtigsten Seiten im Markdown-Format und ermöglicht KI-Systemen, Inhalte direkt aus der Datei zu verarbeiten, ohne jede verlinkte Seite einzeln aufzurufen. LLMS-full.txt ist besonders nützlich für Websites mit langen, informativen Seiten, die KI-Systemen in komprimierter, bereinigter Form zugänglich gemacht werden sollen.

Kann LLMS.txt verhindern, dass KI-Systeme bestimmte Inhalte verwenden?

Nein. LLMS.txt kann keine Inhalte blockieren oder verbieten – das ist die Aufgabe von robots.txt. LLMS.txt kommuniziert ausschließlich positive Empfehlungen: Diese Seiten sind besonders wertvoll, strukturiert und für KI-Systeme geeignet. Wer verhindern möchte, dass KI-Crawler bestimmte Seiten aufrufen oder Inhalte für Training verwenden, muss dies über robots.txt mit User-agent-spezifischen Disallow-Direktiven regeln.

Wie oft sollte LLMS.txt aktualisiert werden?

LLMS.txt sollte aktualisiert werden, wenn sich das inhaltliche Kompetenzprofil einer Website wesentlich ändert – etwa wenn neue thematische Bereiche erschlossen, wichtige neue Leitfäden veröffentlicht oder veraltete Seiten aus dem Inhaltsarchiv entfernt werden. Eine turnusmäßige Überprüfung alle drei Monate ist ein sinnvoller Rhythmus. Veraltete Links in LLMS.txt, die auf nicht mehr vorhandene oder inhaltlich überholte Seiten verweisen, reduzieren den Wert der Datei für KI-Crawler.

Brauchen kleine Websites auch eine LLMS.txt?

LLMS.txt ist für jede Website sinnvoll, die in KI-generierten Antworten als Quelle erscheinen möchte – unabhängig von der Größe. Für kleine Websites mit wenigen Seiten ist der Erstellungsaufwand minimal: Eine LLMS.txt mit zehn bis zwanzig sorgsam ausgewählten Links liefert KI-Crawlern ausreichend Orientierung. Der Nutzen ist proportional zur inhaltlichen Qualität der verlinkten Seiten, nicht zur Größe der Website.