Robots.txt

Robots.txt ist eine Klartextdatei im Stammverzeichnis einer Website, die Webcrawlern über das Robots Exclusion Protocol mitteilt, welche URLs und Verzeichnisse sie nicht aufrufen sollen. Die Datei liegt unter https://[domain]/robots.txt, ist öffentlich abrufbar und wird von allen konformen Crawlern vor dem eigentlichen Crawling geprüft.

Im Kontext der Answer Engine Optimization (AEO) hat Robots.txt eine neue strategische Dimension erhalten: KI-Crawler von OpenAI, Anthropic, Google und Perplexity sind eigenständige User-Agents mit eigenen Bezeichnungen. Wer in Robots.txt keine spezifischen Direktiven für KI-Crawler definiert, riskiert, entweder unerwünscht gescannt zu werden oder KI-Systeme versehentlich vollständig zu blockieren und damit aus KI-generierten Antworten ausgeschlossen zu werden.

Was ist Robots.txt und wie funktioniert es technisch?

Robots.txt ist eine Klartextdatei, die nach dem Robots Exclusion Protocol (REP) – einem seit 1994 etablierten Webstandard – Crawler über Zugriffsbeschränkungen informiert. Die Datei besteht aus Eintragsblöcken, von denen jeder mit einer User-agent-Zeile beginnt, die den betreffenden Crawler identifiziert. Danach folgen Disallow-Direktiven für gesperrte Pfade und optional Allow-Direktiven für explizit freigegebene Unterverzeichnisse. Der Wildcard-Eintrag User-agent: * adressiert alle Crawler, die keine spezifische Regel haben.

Robots.txt ist kein technisches Sicherheitssystem – es kommuniziert lediglich eine Zugriffsempfehlung. Konforme Crawler – also alle großen Suchmaschinen und KI-Plattformen – halten sich an diese Direktiven. Bösartige Crawler oder Scraper ignorieren Robots.txt regelmäßig. Eine URL in robots.txt zu disallowen bedeutet nicht, dass sie indexiert wird oder nicht – es bedeutet, dass der konforme Crawler sie nicht aufruft. Wenn andere Seiten auf eine disallowed URL verlinken, kann diese dennoch in Suchindizes erscheinen.

Die Datei kann zusätzlich eine oder mehrere Sitemap-Direktiven enthalten, die auf XML-Sitemap-Dateien verweisen. Diese Direktiven sind für Suchmaschinen nützlich, um alle indexierbaren URLs effizient zu finden. Robots.txt wird von Crawlern in der Regel beim ersten Besuch einer Domain gecacht und in regelmäßigen Abständen neu abgerufen – typischerweise alle 24 Stunden.

Welche KI-Crawler gibt es und wie werden sie in Robots.txt adressiert?

Jeder große KI-Anbieter betreibt eigene Crawler mit spezifischen User-Agent-Bezeichnungen. GPTBot ist der Crawler von OpenAI, der Inhalte für ChatGPT-Training und -Retrieval sammelt. ChatGPT-User ist ein separater OpenAI-Agent für Browsing-Anfragen in Echtzeit. ClaudeBot ist der Crawler von Anthropic. Google-Extended ist Googles dedizierter Crawler für Gemini und andere generative KI-Systeme – separat von Googlebot, der die klassische Suche bedient. PerplexityBot crawlt für die Perplexity-Suchmaschine. Zusätzlich gibt es CCBot (Common Crawl), der Daten für viele LLM-Trainingsdatensätze liefert.

In Robots.txt kann jeder dieser Crawler mit einem eigenen Eintragsblock adressiert werden. Wer GPTBot erlauben, aber für Trainingszwecke einschränken möchte, kann bestimmte Verzeichnisse disallowen. Wer alle KI-Crawler blockieren möchte, aber nicht klassische Suchmaschinen, braucht separate Blöcke für jeden KI-Agent. Der Wildcard-Eintrag User-agent: * plus Disallow: / blockiert alle Crawler ohne spezifische Ausnahme – inklusive Googlebot – und ist für die meisten Websites keine sinnvolle Konfiguration.

Ein wichtiger Hinweis zur Cloudflare-Konfiguration: Cloudflare hat in bestimmten Firewall-Einstellungen begonnen, KI-Bots standardmäßig zu blockieren. Websites, die Cloudflare nutzen und KI-Crawlern Zugang gewähren möchten, müssen diese Einstellung explizit prüfen und anpassen – unabhängig von der Robots.txt-Konfiguration.

Wie beeinflusst Robots.txt die KI-Sichtbarkeit einer Website?

Robots.txt beeinflusst die KI-Sichtbarkeit direkt: Wer KI-Crawler in Robots.txt blockiert, schließt sich aus den Trainingsdaten und dem Retrieval-Index dieser KI-Systeme aus. Answer Engines können keine Inhalte zitieren, die sie nicht gecrawlt haben. Dies ist die wirkungsvollste – und am häufigsten übersehene – Ursache für fehlende KI-Sichtbarkeit. Viele Websites haben KI-Crawler unwissentlich blockiert, weil sie pauschale Disallow-Direktiven für alle unbekannten User-Agents verwenden oder weil CDN- und WAF-Einstellungen KI-Bots automatisch blockieren.

Die strategische Entscheidung über KI-Crawler-Zugang hat zwei Dimensionen. Erstens: Trainingsdaten. Wer GPTBot oder CCBot erlaubt, stimmt zu, dass seine Inhalte potenziell für das Training von KI-Modellen verwendet werden. Wer dies nicht möchte, kann diese Crawler spezifisch disallowen. Zweitens: Retrieval. Wer ChatGPT-User, PerplexityBot oder Google-Extended blockiert, verhindert, dass diese Systeme die eigenen Inhalte bei Nutzeranfragen als Quelle heranziehen. Diese beiden Dimensionen sind trennbar: Training und Retrieval werden oft von unterschiedlichen Crawlern desselben Anbieters durchgeführt.

Für die meisten Unternehmen, die KI-Sichtbarkeit anstreben, ist die empfohlene Strategie: Retrieval-Crawler (ChatGPT-User, PerplexityBot, Google AI Overview-Crawler) vollständig erlauben, während die Entscheidung über Training-Crawler (GPTBot, CCBot) strategisch getroffen wird. Retrieval-Crawler zu erlauben bedeutet nicht zwingend, dass Inhalte für Training genutzt werden.

Ressourcen:

Wie konfiguriert man Robots.txt für AEO-Zwecke?

Eine AEO-optimierte Robots.txt-Konfiguration beginnt mit der Bestandsaufnahme: Welche KI-Crawler sind derzeit erlaubt oder blockiert? Der erste Schritt ist ein Audit der bestehenden Robots.txt auf Direktiven, die KI-Crawler unbeabsichtigt einschränken. Pauschale Disallow-Regeln für alle User-Agents sollten auf unerwünschte Seiteneffekte für KI-Crawler geprüft werden.

Für Websites, die maximale KI-Sichtbarkeit anstreben, empfiehlt sich eine explizite Allow-Konfiguration für die wichtigsten KI-Retrieval-Crawler. Konkret bedeutet das: Separate Eintragsblöcke für GPTBot, ChatGPT-User, ClaudeBot, Google-Extended und PerplexityBot mit klaren Allow- oder Disallow-Direktiven, statt diese Crawler durch den Wildcard-Eintrag zu adressieren. Explizite Regeln haben Vorrang vor dem Wildcard-Eintrag und vermeiden ungewollte Blockierungen durch globale Einschränkungen.

Bestimmte Seitenbereiche sollten auch für KI-Crawler weiterhin disallowed bleiben: Nutzerkontobereiche, interne Suchseiten, Filterergebnisse, Admin-Bereiche und Checkout-Seiten haben keinen Informationswert für KI-Systeme und erzeugen unnötigen Crawl-Traffic. Die Robots.txt sollte diese Bereiche für alle Crawler blockieren, während redaktionelle Inhalte, Glossarseiten, Leitfäden und Ressourcenseiten für KI-Crawler explizit zugänglich sind.

Ressourcen:

Wie hängen Robots.txt und LLMS.txt zusammen?

Robots.txt und LLMS.txt sind komplementäre technische Dateien mit unterschiedlichen Funktionen in der KI-Crawler-Steuerung. Robots.txt definiert den Zugang: Welche Crawler dürfen welche URLs aufrufen? LLMS.txt definiert die Priorisierung: Welche Inhalte sollen KI-Systeme bevorzugt kennen und verarbeiten? Beide Dateien müssen konsistent konfiguriert sein, damit sie die gewünschte Wirkung entfalten.

Ein häufiger Fehler in der Praxis: Webseitenbetreibende pflegen eine sorgfältige LLMS.txt mit ihren besten Inhalten, blockieren aber gleichzeitig in Robots.txt die KI-Crawler, die diese Inhalte indexieren sollen. In diesem Fall ist die LLMS.txt wirkungslos, weil die adressierten KI-Systeme die Website gar nicht crawlen. Die korrekte Reihenfolge: Erst Robots.txt prüfen und KI-Crawler-Zugang sicherstellen, dann LLMS.txt als inhaltliche Priorisierungsschicht aufbauen.

Umgekehrt ist eine vollständig offene Robots.txt ohne LLMS.txt eine verpasste Gelegenheit. Wenn KI-Crawler freien Zugang haben, aber keine Priorisierungshinweise erhalten, crawlen sie nach eigenen Algorithmen – was bedeutet, dass sie möglicherweise kommerziell ausgerichtete Seiten mit wenig inhaltlichem Mehrwert genauso stark gewichten wie tiefe, informative Ressourcen.

Welche Fehler bei Robots.txt schaden der KI-Sichtbarkeit?

Der häufigste Robots.txt-Fehler im AEO-Kontext ist die pauschale Blockierung aller unbekannten Crawler über User-agent: * Disallow: / kombiniert mit Whitelist-Regeln nur für bekannte Suchmaschinen. Neue KI-Crawler werden dabei automatisch blockiert, bis explizite Ausnahmen hinzugefügt werden – was in der Praxis oft nicht zeitnah geschieht. Websites, die diesen Ansatz verwenden, müssen ihre Robots.txt bei jedem neuen KI-Crawler aktiv aktualisieren.

Ein weiterer verbreiteter Fehler ist die Verwechslung von Training- und Retrieval-Crawlern. Wer GPTBot blockiert, blockiert OpenAIs Training-Crawler, nicht den Browsing-Agenten, der bei Nutzeranfragen Inhalte als Quelle heranziehen kann. Wer ChatGPT-User blockiert, verhindert, dass ChatGPT die eigenen Inhalte bei Nutzeranfragen zitiert. Beide User-Agents erfordern separate Direktiven und sind strategisch unterschiedlich zu bewerten.

Syntaxfehler in robots.txt – falsch formatierte User-Agent-Zeilen, fehlende Zeilenumbrüche zwischen Blöcken, ungültige Pfadangaben – können dazu führen, dass Crawler die gesamte Datei ignorieren und nach eigenem Ermessen crawlen. Robots.txt-Konfigurationen sollten nach jeder Änderung mit dem Google Search Console Robots.txt-Tester oder einem anderen Validierungswerkzeug geprüft werden.

Wie überprüft man die Robots.txt-Konfiguration für KI-Crawler?

Die Überprüfung der Robots.txt-Konfiguration für KI-Crawler beginnt mit einem direkten Abruf der Datei unter https://[domain]/robots.txt. Hier lässt sich für jeden KI-Crawler-User-Agent prüfen, welche Regeln gelten – entweder durch spezifische Blöcke oder durch den Wildcard-Eintrag als Fallback. Der Google Search Console Robots.txt-Tester ermöglicht es, für jeden User-Agent und jeden URL-Pfad zu simulieren, ob der Zugang erlaubt oder blockiert ist.

Server-Logs liefern empirische Daten darüber, ob und wie häufig KI-Crawler die Website besuchen. Ein Vergleich der Log-Einträge mit den Robots.txt-Direktiven zeigt auf, ob KI-Crawler tatsächlich auf die richtigen Seiten zugreifen. Wenn KI-Crawler die Website nicht besuchen, obwohl Robots.txt keinen Block enthält, können CDN- oder WAF-Einstellungen der Grund sein – insbesondere bei Cloudflare, Akamai oder ähnlichen Diensten, die KI-Bots teilweise automatisch blockieren.

Die wichtigsten Erkenntnisse: Robots.txt

Robots.txt ist die technische Grundlage für den Crawlerzugang und damit die erste Voraussetzung jeder AEO-Strategie. Wer KI-Crawler blockiert – absichtlich oder unbeabsichtigt –, ist in KI-generierten Antworten nicht sichtbar. KI-Crawler haben eigene User-Agent-Bezeichnungen (GPTBot, ClaudeBot, ChatGPT-User, Google-Extended, PerplexityBot) und müssen in Robots.txt separat adressiert werden. Training- und Retrieval-Crawler eines Anbieters sind strategisch unterschiedlich zu bewerten. Robots.txt und LLMS.txt sind komplementär: Robots.txt regelt den Zugang, LLMS.txt die inhaltliche Priorisierung. CDN- und WAF-Einstellungen können KI-Crawler unabhängig von Robots.txt blockieren und müssen separat geprüft werden.

Häufige Fragen zu Robots.txt

Ist Robots.txt rechtlich bindend für KI-Crawler?

Robots.txt ist kein rechtlich bindendes Dokument – es ist eine technische Konvention. Konforme Crawler, einschließlich aller großen KI-Crawler von OpenAI, Anthropic, Google und Perplexity, halten sich an Robots.txt-Direktiven. Bösartige Crawler und Scraper ignorieren Robots.txt in der Regel. Für rechtlich verbindliche Einschränkungen der Inhaltsnutzung durch KI-Systeme sind andere Maßnahmen erforderlich – etwa Nutzungsbedingungen oder vertragliche Vereinbarungen. Robots.txt allein bietet keinen rechtlichen Schutz.

Was passiert, wenn ich GPTBot in Robots.txt blockiere?

Wenn GPTBot in Robots.txt blockiert wird, crawlt OpenAIs Trainingscrawler die Website nicht mehr und nimmt ihre Inhalte nicht in Trainings- oder Indexierungsprozesse auf. Das bedeutet, dass die Website langfristig seltener als Quelle in ChatGPT-Antworten erscheinen kann, da das Modell keine aktuellen Inhalte dieser Domain kennt. ChatGPT-User – der separate Retrieval-Agent für Echtzeit-Browsing – ist von einer GPTBot-Blockierung nicht betroffen und muss separat adressiert werden, wenn auch Retrieval blockiert werden soll.

Kann Robots.txt bestimmte Unterverzeichnisse für KI-Crawler sperren, andere aber erlauben?

Ja. Robots.txt unterstützt pfadbasierte Direktiven, die gezielt bestimmte Unterverzeichnisse für KI-Crawler sperren oder erlauben. Ein typisches Beispiel ist, den gesamten Inhaltsbereich einer Website für KI-Crawler freizugeben, aber nutzerspezifische Bereiche wie /account/, /checkout/ oder /admin/ zu blockieren. Diese granulare Konfiguration ist über separate Eintragsblöcke pro User-Agent mit kombinierten Allow- und Disallow-Direktiven möglich.

Wie unterscheiden sich Googlebot und Google-Extended?

Googlebot ist Googles klassischer Suchcrawler, der Inhalte für die traditionelle Google-Suche indexiert. Google-Extended ist ein separater Crawler, den Google für seine generativen KI-Produkte wie Gemini und AI Overviews betreibt. Wer Google-Extended in Robots.txt blockiert, verhindert, dass Google diese Inhalte für KI-Antworten nutzt – ohne den Zugang von Googlebot für die klassische Suche zu beeinträchtigen. Beide User-Agents müssen in Robots.txt separat adressiert werden.

Haben Robots.txt-Änderungen sofortige Wirkung auf KI-Crawler?

Robots.txt-Änderungen wirken nicht sofort. Crawler cachen die Robots.txt-Datei und rufen sie in regelmäßigen Abständen – typischerweise alle 24 Stunden – neu ab. Es kann also bis zu einem Tag dauern, bis neue Direktiven von allen relevanten Crawlern erkannt und umgesetzt werden. Für KI-Trainingsdaten gilt eine noch längere Verzögerung: Selbst wenn ein Crawler die Robots.txt-Änderung sofort erkennt, fließen neu gecrawlte oder geblockte Inhalte erst nach dem nächsten Trainings- oder Indexierungszyklus des jeweiligen KI-Systems ein.