Sitemap

Eine Sitemap ist eine strukturierte Datei oder Webseite, die alle relevanten URLs einer Website auflistet und Suchmaschinen-Crawlern sowie Nutzenden dabei hilft, Inhalte vollständig zu erfassen. Die XML-Sitemap kommuniziert mit Suchmaschinen, indem sie Seitenstruktur, Aktualität und relative Priorität von URLs maschinenlesbar übermittelt.

Für die Suchmaschinenoptimierung (SEO) und die Answer Engine Optimization (AEO) ist die Sitemap ein technisches Fundament: Sie steuert, welche Inhalte von Crawlern gefunden, indexiert und damit als potenzielle Quellen für KI-generierte Antworten berücksichtigt werden. Ohne eine korrekt aufgebaute und gepflegte Sitemap riskieren Websites, dass relevante Inhalte in Answer Engines wie ChatGPT, Perplexity oder dem Google KI-Modus unsichtbar bleiben.

Welche Typen von Sitemaps gibt es?

Eine Sitemap existiert in zwei grundlegenden Varianten: der XML-Sitemap und der HTML-Sitemap. Beide erfüllen unterschiedliche Zwecke und richten sich an unterschiedliche Zielgruppen – Suchmaschinen-Crawler auf der einen, menschliche Nutzende auf der anderen Seite.

Die XML-Sitemap (Extensible Markup Language Sitemap) ist eine maschinenlesbare Datei, die alle indexierbaren URLs einer Website in einem standardisierten Format nach dem Protokoll von sitemaps.org auflistet. Sie wird ausschließlich für Crawler erstellt und enthält Metadaten wie das Datum der letzten Änderung, die Änderungsfrequenz und die relative Priorität einer Seite. Diese Datei wird typischerweise unter dem Pfad /sitemap.xml gespeichert und in der Google Search Console oder der Bing Webmaster Tools eingereicht.

Die HTML-Sitemap ist eine für Menschen lesbare Webseite, die alle wichtigen Bereiche und Unterseiten einer Website hierarchisch oder alphabetisch auflistet. Sie verbessert die Navigation für Besuchende, stärkt die interne Verlinkung und überträgt damit Linkautorität an tiefere Seitenebenen. Beide Sitemap-Typen ergänzen sich: Die XML-Sitemap kommuniziert mit Suchmaschinen, die HTML-Sitemap unterstützt Nutzende und die interne Seitenstruktur.

Neben diesen Grundtypen existieren spezialisierte Varianten: News-Sitemaps für Nachrichtenartikel (Google News), Video-Sitemaps für Video-Inhalte, Bild-Sitemaps für Bildressourcen sowie Sitemap-Index-Dateien, die mehrere einzelne Sitemaps zusammenfassen. Letztere sind besonders für große Websites relevant, da eine einzelne Sitemap-Datei gemäß Protokoll maximal 50.000 URLs und 50 MB umfassen darf.

Wie ist eine XML-Sitemap korrekt aufgebaut?

Eine XML-Sitemap beginnt mit der XML-Deklaration <?xml version="1.0" encoding="UTF-8"?> und dem öffnenden <urlset>-Tag mit dem Namespace xmlns="http://www.sitemaps.org/schemas/sitemap/0.9". Jede URL wird in einem eigenen <url>-Block eingetragen.

Das einzige Pflichtfeld ist <loc> – es enthält die vollständige, kanonische URL der Seite inklusive Protokoll (https://). Alle anderen Tags sind optional, aber für die Crawl-Steuerung bedeutsam: <lastmod> gibt den Zeitstempel der letzten inhaltlichen Änderung im ISO-8601-Format an (z. B. 2026-05-22) und liefert Crawlern ein faktisches Signal zur Aktualität. <changefreq> schätzt die Änderungsfrequenz (Werte: always, hourly, daily, weekly, monthly, yearly, never) und <priority> beschreibt die relative Wichtigkeit einer URL auf einer Skala von 0.0 bis 1.0 (Standardwert: 0.5).

Google hat offiziell bestätigt, dass <changefreq> und <priority> nur als schwache Hinweise gewertet werden und das eigentliche Crawl-Verhalten kaum beeinflussen. Relevant sind dagegen ein aktueller <lastmod>-Wert – er muss den tatsächlichen Änderungen entsprechen, nicht willkürlich gesetzt sein – sowie die UTF-8-Kodierung der gesamten Datei. Sonderzeichen in URLs müssen URL-enkodiert sein; kaufmännische Und-Zeichen (&) werden in der XML-Datei als &amp; geschrieben.

Ressourcen:

Worin unterscheiden sich XML-Sitemap und HTML-Sitemap?

XML-Sitemap und HTML-Sitemap unterscheiden sich grundlegend in Zielgruppe, Format und SEO-Funktion. Die XML-Sitemap richtet sich ausschließlich an Suchmaschinen-Crawler und ist für menschliche Nutzende nicht sichtbar oder navigierbar. Die HTML-Sitemap ist eine reguläre Webseite, die Nutzende durch die Struktur einer Website führt.

Aus SEO-Sicht übernimmt die XML-Sitemap die Crawl-Steuerung: Sie signalisiert Crawlern, welche URLs priorisiert gecrawlt werden sollen, und beschleunigt die Indexierung neuer oder aktualisierter Inhalte. Die HTML-Sitemap hingegen stärkt das interne Verlinkungsgeflecht, indem sie tiefe Unterseiten direkt von einer zentralen Seite aus verknüpft. Damit überträgt sie Linkautorität an Seiten, die andernfalls schwer erreichbar wären.

Für eine vollständige technische SEO-Strategie sind beide Sitemap-Typen sinnvoll. Während kleine Websites oft nur eine XML-Sitemap benötigen, profitieren große, strukturell komplexe Websites mit Tausenden von Seiten zusätzlich von einer HTML-Sitemap als navigatorische Übersicht. Die Empfehlung lautet: XML-Sitemap für alle Websites als technisches Minimum, HTML-Sitemap als Ergänzung für nutzerfreundliche Navigation und interne Verlinkung.

Was gehört in eine Sitemap – und was nicht?

In eine XML-Sitemap gehören ausschließlich kanonische, indexierbare URLs. Das bedeutet konkret: Jede URL in der Sitemap muss über ein rel="canonical"-Tag auf sich selbst verweisen, einen HTTP-200-Statuscode zurückgeben und kein noindex-Meta-Tag tragen.

Seiten, die nicht in die Sitemap gehören, sind: Seiten mit noindex-Direktive, nicht-kanonische URLs (Duplikate, Seiten mit Canonical auf eine andere URL), URL-Parameter-Varianten desselben Inhalts, Seiten hinter Login-Schranken (da Crawler diese nicht crawlen können), Fehlerseiten (4xx, 5xx) sowie reine Weiterleitungsseiten (3xx). Auch paginierte Unterseiten (z. B. /blog/page/2, /blog/page/3) sollten in der Regel nicht enthalten sein, um das Crawl-Budget nicht auf weniger wertvolle Seiten zu lenken.

Ein häufiger Fehler ist die Inkonsistenz zwischen Sitemap und Canonical-Tags: Wenn eine URL in der Sitemap eingetragen ist, das Canonical-Tag auf der Seite aber auf eine andere URL verweist, sendet die Website widersprüchliche Signale an Suchmaschinen. Google wertet dies als inkonsistentes Signal und kann die Indexierungsentscheidung verzögern. Die Qualität einer Sitemap bemisst sich daran, wie präzise sie nur die Inhalte auflistet, die tatsächlich indexiert werden sollen.

Ressourcen:

Wie reicht man eine Sitemap bei Suchmaschinen ein?

Eine Sitemap kann auf drei Wegen bei Suchmaschinen eingereicht werden: über die Google Search Console, über die Bing Webmaster Tools und über einen Eintrag in der robots.txt-Datei. Der direkteste Weg für Google ist die Search Console: Im Bereich „Indexierung" → „Sitemaps" wird die Sitemap-URL eingegeben (z. B. https://www.example.de/sitemap.xml) und per Klick auf „Senden" übermittelt. Google prüft die Datei und zeigt anschließend den Verarbeitungsstatus an.

Der universellste Einreichungsweg ist der Eintrag in der robots.txt-Datei: Sitemap: https://www.example.de/sitemap.xml. Dieser Eintrag bewirkt, dass alle Suchmaschinen-Crawler, die die robots.txt lesen, automatisch auf die Sitemap hingewiesen werden – ohne manuelle Einreichung in jedem einzelnen Tool. Bei Sitemap-Index-Dateien genügt es, die Index-Datei einzureichen; alle darin referenzierten Einzel-Sitemaps werden automatisch verarbeitet.

Die Einreichung beschleunigt die Erstindexierung, ist jedoch keine Garantie für die vollständige Indexierung aller URLs. Google entscheidet selbständig, welche Seiten gecrawlt und indexiert werden. Die Sitemap ist ein Signal, keine Anweisung. Regelmäßige Überprüfungen in der Search Console zeigen, ob Fehler aufgetreten sind – etwa fehlerhafte URLs, Sitemap-Formatfehler oder URLs mit Weiterleitung.

Welche Rolle spielt eine Sitemap für Answer Engines und AEO?

Eine Sitemap beeinflusst die KI-Sichtbarkeit einer Website, weil Answer Engines wie Perplexity, ChatGPT mit Websuche und der Google KI-Modus auf denselben gecrawlten und indexierten Inhalten aufbauen wie klassische Suchmaschinen. Seiten, die nicht indexiert sind, können weder als Quelle für KI-generierte Antworten herangezogen noch als Zitat in einer Antwort der Answer Engine ausgespielt werden.

Für die Answer Engine Optimization (AEO) bedeutet dies: Die Sitemap ist das erste Glied in der Kette der Sichtbarkeit. Sie stellt sicher, dass alle inhaltlich wertvollen Seiten – insbesondere FAQ-Seiten, Glossareinträge, strukturierte Antwortseiten und Definitionen mit semantischen Triples – überhaupt gecrawlt werden können. Seiten, die technische Crawling-Probleme aufweisen und nicht in der Sitemap stehen, bleiben für Answer Engines unsichtbar, unabhängig von ihrer inhaltlichen Qualität.

Darüber hinaus unterstützt eine gepflegte Sitemap das Crawl-Budget-Management: Indem irrelevante URLs (Parameterseiten, Duplikate, noindex-Seiten) aus der Sitemap ausgeschlossen werden, konzentriert sich der Crawler auf die inhaltlich relevanten Seiten. Das erhöht die Wahrscheinlichkeit, dass AEO-optimierte Inhalte schneller und vollständiger indexiert werden – und damit für Answer Engines als Quellen verfügbar sind.

Ressourcen:

Wie ergänzen sich Sitemap und LLMS.txt für die KI-Sichtbarkeit?

Die Sitemap und die LLMS.txt sind komplementäre Dateien mit unterschiedlichen Anwendungsfällen: Während die Sitemap alle indexierbaren URLs für Suchmaschinen-Crawler auflistet, ist die LLMS.txt eine neuere Konvention, die speziell für große Sprachmodelle (Large Language Models, LLMs) entwickelt wurde. Die LLMS.txt-Datei stellt LLMs eine kuratierte, auf das Wesentliche reduzierte Übersicht über die wichtigsten Inhalte einer Website bereit.

Der Unterschied liegt in der Selektion: Eine vollständige XML-Sitemap listet alle technisch indexierbaren Seiten. Eine LLMS.txt ist dagegen bewusst reduktiv – sie schließt dünne Inhalte, Werbe-Landingpages, Duplikate und wenig informationshaltige Seiten aus und führt nur die Seiten auf, die LLMs als inhaltliche Grundlage nutzen sollen. Die LLMS.txt ergänzt die Sitemap, ersetzt sie aber nicht.

Für eine vollständige AEO-Strategie empfiehlt sich daher beides: eine technisch saubere XML-Sitemap als Fundament für die Indexierung aller relevanten URLs und eine LLMS.txt als kuratierter Wegweiser für LLMs. Beide Dateien sollten aufeinander abgestimmt sein – Seiten, die in der LLMS.txt stehen, müssen auch in der XML-Sitemap enthalten und korrekt indexiert sein.

Die wichtigsten Erkenntnisse: Sitemap

Eine Sitemap ist eine strukturierte Datei, die alle relevanten URLs einer Website für Suchmaschinen-Crawler auflistet. Die XML-Sitemap kommuniziert mit Crawlern und enthält Metadaten zu Aktualität und Priorität; die HTML-Sitemap führt menschliche Nutzende durch die Seitenstruktur. In eine Sitemap gehören ausschließlich kanonische, indexierbare Seiten ohne noindex-Tags. Die Einreichung erfolgt über die Google Search Console oder einen Eintrag in der robots.txt. Für die AEO ist die Sitemap das technische Fundament der KI-Sichtbarkeit: Nur indexierte Seiten können von Answer Engines als Quellen genutzt werden. Die LLMS.txt ergänzt die Sitemap als kuratierter Wegweiser speziell für Large Language Models.

Häufige Fragen zu Sitemap

Was passiert, wenn eine Sitemap fehlt?

Fehlt eine XML-Sitemap, sind Crawler auf interne Verlinkungen angewiesen, um alle Seiten einer Website zu entdecken. Seiten mit wenigen oder keinen internen Eingangslinks werden dabei häufig übersehen und bleiben unindexiert. Das betrifft besonders neu erstellte Inhalte, tief verschachtelte Unterseiten sowie AEO-optimierte Glossareinträge und FAQ-Seiten, die für Answer Engines besonders relevant wären. Ohne Indexierung können diese Seiten weder in klassischen Suchergebnissen erscheinen noch als Quellen in KI-generierten Antworten zitiert werden. Eine fehlende Sitemap erhöht damit direkt das Risiko strukturell bedingter KI-Unsichtbarkeit.

Warum ist eine XML-Sitemap wichtig für SEO?

Eine XML-Sitemap verbessert die Crawlbarkeit und Indexierbarkeit einer Website, indem sie Suchmaschinen-Crawlern einen direkten Überblick über alle relevanten URLs gibt. Besonders für neue Websites, große Websites mit tiefer Seitenstruktur oder Seiten mit wenigen eingehenden internen Links ist die Sitemap entscheidend: Ohne sie könnten Crawler wichtige Inhalte übersehen. Die Sitemap steuert außerdem das Crawl-Budget, indem sie Crawler auf die wertvollen Seiten konzentriert und vom Crawlen irrelevanter Seiten abhält. Für die Suchmaschinenoptimierung (SEO) gilt: Nicht gecrawlte Seiten können nicht indexiert werden – und nicht indexierte Seiten erscheinen weder in Suchergebnissen noch in Antworten von Answer Engines.

Welche Tags enthält eine XML-Sitemap?

Eine XML-Sitemap enthält das Pflichtfeld <loc> mit der vollständigen, kanonischen URL sowie drei optionale Tags: <lastmod> (Datum der letzten inhaltlichen Änderung im ISO-8601-Format), <changefreq> (geschätzte Änderungsfrequenz: always, hourly, daily, weekly, monthly, yearly, never) und <priority> (relative Seitenpriorität von 0.0 bis 1.0, Standardwert 0.5). Google empfiehlt, <lastmod> nur zu verwenden, wenn er tatsächlich das reale Änderungsdatum widerspiegelt – willkürlich gesetzte Werte werden von Google ignoriert.

Wie viele URLs darf eine Sitemap enthalten?

Eine einzelne XML-Sitemap-Datei darf laut Protokoll von sitemaps.org maximal 50.000 URLs enthalten und darf die Dateigröße von 50 MB (unkomprimiert) nicht überschreiten. Websites mit mehr als 50.000 indexierbaren URLs müssen mehrere einzelne Sitemap-Dateien erstellen und diese in einer Sitemap-Index-Datei zusammenfassen. Die Sitemap-Index-Datei selbst unterliegt denselben Größenlimits und kann bis zu 50.000 Sitemap-Dateien referenzieren.

Welche Seiten sollten nicht in der Sitemap stehen?

Nicht in die Sitemap gehören: Seiten mit einem noindex-Meta-Tag, nicht-kanonische URLs (Seiten, deren Canonical-Tag auf eine andere URL verweist), URL-Parametervarianten desselben Inhalts, paginierte Unterseiten (z. B. /seite/2, /seite/3), Seiten mit Weiterleitungen (3xx), Fehlerseiten (4xx, 5xx) sowie passwortgeschützte Seiten, die Crawler nicht erreichen können. Das Aufnehmen solcher Seiten sendet widersprüchliche Signale an Suchmaschinen und belastet das Crawl-Budget unnötig.

Wie beeinflusst eine Sitemap die KI-Sichtbarkeit in Answer Engines?

Answer Engines wie Perplexity, ChatGPT mit Websuche und der Google KI-Modus greifen auf gecrawlte und indexierte Inhalte zurück. Eine vollständige und technisch korrekte Sitemap stellt sicher, dass alle AEO-optimierten Seiten – insbesondere FAQ-Seiten, strukturierte Antwortseiten und Glossareinträge – überhaupt gecrawlt und indexiert werden. Seiten, die nicht indexiert sind, können nicht als Quellen in KI-generierten Antworten zitiert werden. Die Sitemap ist damit das technische Fundament der KI-Sichtbarkeit: Sie ist zwar keine Garantie für Zitierungen, aber eine notwendige Voraussetzung dafür.