Technische SEO

GPTBot, ClaudeBot, PerplexityBot: KI-Crawler richtig in robots.txt konfigurieren

Die meisten Websites blockieren KI-Crawler versehentlich und erscheinen dann nie in ChatGPT, Perplexity oder Claude. Dieser Guide erklaert welche 6 KI-Crawler du kennen musst, wie du sie korrekt konfigurierst und was passiert wenn du sie blockierst.

12 Minuten Lesezeit
Juni 2026

Welche KI-Crawler gibt es und wen kennen sie?

KI-Suche ist kein einheitliches System. ChatGPT, Perplexity, Claude und Google AI Overviews sind unterschiedliche Plattformen mit unterschiedlichen Crawling-Architekturen. Jede Plattform hat ihren eigenen User-Agent-String den sie benutzt wenn sie Seiten abruft. Diese User-Agent-Strings sind in den offiziellen Dokumentationen der Anbieter veroeffentlicht und werden von robots.txt-Parsern ausgewertet.

Hier eine Uebersicht aller 6 relevanten KI-Crawler mit den offiziellen User-Agent-Strings und der zugehoerigen Dokumentation:

Crawler-NameBetreiberPlattformUser-Agent-StringDokumentation
GPTBotOpenAIChatGPT SearchGPTBot/1.0platform.openai.com
ClaudeBotAnthropicClaudeClaudeBotsupport.anthropic.com
PerplexityBotPerplexity AIPerplexityPerplexityBotdocs.perplexity.ai
Google-ExtendedGoogleAI OverviewsGoogle-Extendeddevelopers.google.com
BingbotMicrosoftBing Copilot & PerplexityBingbotbing.com/webmaster
CCBotCommon CrawlViele LLMs (Trainingsdaten)CCBotcommoncrawl.org

Es gibt einen wichtigen Unterschied zwischen Such-Crawlern und Training-Crawlern. GPTBot, ClaudeBot, PerplexityBot und Google-Extended sind primae Such-Crawler sie indexieren aktuelle Inhalte fuer Echtzeit-Suchanfragen. CCBot ist ein Training-Crawler der Inhalte fuer Datensaetze wie Common Crawl sammelt, aus denen viele LLMs ihr Basiswissen schopfen. Bingbot ist ein Suchmaschinen-Crawler der auch von Perplexity als Datenquelle genutzt wird.

Fuer deine KI-Sichtbarkeit sind Such-Crawler unmittelbarer relevant. Wenn GPTBot heute deine Website crawlt, kann ChatGPT morgen korrekte aktuelle Infos ueber dich liefern. Training-Crawler wie CCBot wirken sich eher auf das langfristige Basiswissen von Modellen aus und sind weniger zeitkritisch. Dennoch empfehlen die meisten Experten auch CCBot zuzulassen, ausser du hast konkrete Datenschutzgruende dagegen.

Warum solltest du KI-Crawler zulassen?

Der Suchmarkt veraendert sich schneller als viele realisieren. Laut aktuellen Zahlen verarbeiten ChatGPT Search, Perplexity und Google AI Overviews zusammen bereits mehrere Milliarden informationelle Anfragen pro Monat. Das sind Anfragen wie "Welches Tool ist das beste fuer GEO-Optimierung?" oder "Wie schreibt man eine gute robots.txt?" Wenn du bei diesen Anfragen nicht vorkommst, verlierst du organischen Traffic den du nie siehst, weil er nie auf deine Website gelangt.

Ein wichtiger Punkt zur robots.txt-Semantik: Die robots.txt-Direktive ist eine Empfehlung, kein technisches Verbot. Seriose Crawler wie Googlebot, GPTBot und ClaudeBot respektieren die Regeln. Boeswillige Scraper tun es nicht. Das bedeutet: Wenn du Datenschutzbedenken hast wegen unerwuenschtem Scraping, schuetzt dich robots.txt nicht vor Angreifern. Und umgekehrt: KI-Crawler zuzulassen bedeutet, mit kooperativen Partnern zu arbeiten die deine Regeln respektieren.

Der Unterschied zwischen Training-Crawlern und Such-Crawlern ist hier relevant. Wenn du CCBot blockierst weil du nicht in Trainingsdatensaetzen landen willst, aber GPTBot und ClaudeBot zulasst, triffst du eine differenzierte Entscheidung: Du kontrollierst wer deine Inhalte fuer Modell-Training nutzt, bleibst aber trotzdem fuer aktuelle KI-Suchergebnisse sichtbar. Dieser Ansatz ist fuer viele Unternehmen der sinnvollste Mittelweg.

Was passiert wenn du KI-Crawler blockierst?

Der haeufigste Grund fuer versehentliches Blockieren aller Crawler ist das unkritische Kopieren von robots.txt-Templates aus dem Internet. Viele dieser Templates wurden fuer Datenschutz-maximierende Szenarien entwickelt oder sind schlicht veraltet. Das Ergebnis ist eine robots.txt mit "User-agent: * Disallow: /" die gut gemeint aber fatal fuer die Sichtbarkeit ist. In Entwicklungsumgebungen ist diese Konfiguration sinnvoll um versehentliche Indexierung zu verhindern, in Produktion ist sie ein schwerer Fehler.

/public/robots.txt (FALSCH - blockiert alle KI-Crawler)
# FALSCH: Blockiert ALLE Crawler inkl. KI-Bots
User-agent: *
Disallow: /

# Was das bedeutet:
# GPTBot     -> blockiert
# ClaudeBot  -> blockiert
# PerplexityBot -> blockiert
# Google-Extended -> blockiert
# Googlebot  -> blockiert
# Bingbot    -> blockiert
# Alle anderen -> blockiert

Was konkret verloren geht: ChatGPT weiss nicht wer du bist oder nutzt veraltete Informationen aus Trainingsdaten die sich nie aktualisieren. Perplexity kann dich nicht als Quelle zitieren. Google AI Overviews blendet Wettbewerber ein die GEO-optimiert sind, waehrend deine Website nicht vorkommt. Das ist unsichtbarer Traffic-Verlust, weil du nicht weisst welche Anfragen du haetest bedienen sollen.

Ein weiterer oft unterschaetzter Effekt: Auch wenn du in Google klassisch gut rankst, ist das kein Garant fuer KI-Sichtbarkeit. Google AI Overviews basieren auf einem anderen Ranking-Algorithmus als klassische Suchergebnisse. Google-Extended muss deine Website explizit indexieren duerfen fuer die AI-Overviews-Berechnungen. Wer Google-Extended blockiert kann trotz Top-10-Ranking aus AI Overviews herausfallen.

Die korrekte robots.txt fuer maximale KI-Sichtbarkeit

Hier die vollstaendige, korrekte robots.txt fuer maximale KI-Sichtbarkeit. Sie ist kommentiert damit du jede Zeile verstehst und bei Bedarf anpassen kannst:

/public/robots.txt (KORREKT - alle KI-Crawler freigegeben)
# KI-Crawler explizit zulassen

# OpenAI / ChatGPT Search
User-agent: GPTBot
Allow: /

# Anthropic / Claude
User-agent: ClaudeBot
Allow: /

# Perplexity AI
User-agent: PerplexityBot
Allow: /

# Google AI Overviews (getrennt von Googlebot)
User-agent: Google-Extended
Allow: /

# Common Crawl (Trainingsdaten fuer viele LLMs)
User-agent: CCBot
Allow: /

# Standard-Suchmaschinen
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

# Sitemap (hilft allen Crawlern deine Seiten zu finden)
Sitemap: https://deinedomain.com/sitemap.xml

Erklaerung jeder Zeile: "User-agent: GPTBot" definiert den Geltungsbereich der nachfolgenden Regeln. Nur GPTBot faellt unter diesen Block. "Allow: /" bedeutet vollstaendiger Zugriff auf die gesamte Domain. Ohne eine explizite Allow-Regel waere der Standard offen, aber mit expliziter Angabe ist die Intention klar. Die leere Zeile zwischen zwei Crawler-Bloecken trennt die Regelsaetze voneinander.

"Google-Extended" ist wichtig weil er separat von "Googlebot" behandelt werden muss. Googlebot ist der Standard-Crawler fuer klassische Suchergebnisse. Google-Extended ist der Crawler speziell fuer KI-Produkte wie AI Overviews und Bard. Du kannst einen zulassen und den anderen nicht, aber du musst beide explizit behandeln. Die Sitemap-Zeile am Ende ist kein Crawler-Befehl sondern ein Hinweis fuer alle Crawler wo sie deine Inhaltsstruktur finden.

Granulare Kontrolle: Bestimmte Seiten vor KI-Crawlern schuetzen

Nicht jede Seite deiner Website muss von KI-Crawlern indexiert werden. Nutzer-spezifische Seiten wie Dashboard, Account-Einstellungen oder Admin-Bereiche enthalten oft personenbezogene Daten die nicht in KI-Systemen landen sollten. Du kannst diese Bereiche gezielt blockieren waehrend oeffentliche Marketingseiten, Blogposts und Produktseiten weiterhin zugaenglich bleiben.

/public/robots.txt (granulare Kontrolle mit Ausnahmen)
# GPTBot: oeffentliche Inhalte ja, User-Daten nein
User-agent: GPTBot
Allow: /
Disallow: /dashboard/
Disallow: /account/
Disallow: /admin/
Disallow: /api/
Disallow: /checkout/

# ClaudeBot: gleiches Muster
User-agent: ClaudeBot
Allow: /
Disallow: /dashboard/
Disallow: /account/
Disallow: /admin/
Disallow: /api/
Disallow: /checkout/

# PerplexityBot
User-agent: PerplexityBot
Allow: /
Disallow: /dashboard/
Disallow: /account/
Disallow: /admin/

# Sitemap
Sitemap: https://deinedomain.com/sitemap.xml

Wann ist das sinnvoll? Immer wenn deine Website einen authentifizierten Bereich hat. Seiten wie /dashboard/ zeigen personalisierte Daten die keinen Mehrwert fuer KI-Indexierung haben. /account/ und /admin/ sind ohnehin oft durch Server-seitige Auth geschuetzt, aber eine explizite robots.txt-Regel ist eine zusaetzliche Sicherheitsschicht die deutlich kommuniziert dass diese Bereiche nicht gescraped werden sollen.

Beta-Features die noch nicht oeffentlich kommuniziert wurden koennen so ebenfalls ausgeklammert werden. Wenn du ein neues Feature unter /beta/ oder /preview/ testest, willst du nicht dass KI-Systeme halbfertige Informationen darueber in ihre Antworten aufnehmen. Eine Disallow-Regel fuer diese Pfade ist eine einfache und wirkungsvolle Massnahme.

robots.txt vs. llms.txt vs. noindex: Drei verschiedene Schichten

Viele Entwickler verwechseln diese drei Mechanismen oder denken sie ersetzen sich gegenseitig. Tatsaechlich wirken sie auf verschiedenen Ebenen und ergaenzen sich:

DIE DREI KONTROLL-SCHICHTEN IM VERGLEICH
EBENE 1
robots.txt

Steuert ob ein Crawler eine URL besuchen darf. Wirkt vor dem Abrufen der Seite. Kein technisches Verbot, nur eine Empfehlung die seriose Bots respektieren.

EBENE 2
noindex

Steuert ob eine Seite im Index gespeichert wird. Wirkt nachdem der Crawler die Seite gelesen hat. Muss im HTML-Head als Meta-Tag oder im HTTP-Header stehen.

EBENE 3
llms.txt

Eine neue Konvention, kein Standard. Liefert KI-Systemen strukturierten Kontext ueber deine Website: Was du bist, was du anbietest, wie du zitiert werden willst.

Ein haeufiger Fehler: Manche Entwickler setzen "noindex" auf alle nicht-oeffentlichen Seiten und erwarten damit Crawler-Kontrolle. Das ist falsch. noindex sagt dem Crawler "besuche die Seite, aber speichere sie nicht". robots.txt Disallow sagt "besuche die Seite gar nicht erst". Fuer sensible URLs ist robots.txt Disallow vorzuziehen, weil der Crawler die Seite niemals sieht.

llms.txt ist ein neues Konzept das noch kein offizieller Standard ist aber zunehmend von KI-Systemen ausgewertet wird. Waehrend robots.txt regelt wer was crawlen darf, erklaert llms.txt den KI-Systemen wer du bist, was dein Produkt macht und wie du in Antworten erwaehnt werden willst. Beide Dateien erganzen sich und sollten parallel gepflegt werden.

robots.txt testen und validieren

Nachdem du deine robots.txt aktualisiert hast, verifiziere sie mit diesen drei Schritten in dieser Reihenfolge:

SCHRITT-FUER-SCHRITT TESTANLEITUNG
1
Browser-Test: yourdomain.com/robots.txt

Oeffne deine robots.txt direkt im Browser. Sie muss als Klartext sichtbar sein, nicht als HTML-Seite. Prueife ob alle Crawler-Bloecke korrekt erscheinen und die Sitemap-URL korrekt ist.

2
Google Search Console: robots.txt-Tester

In der Google Search Console unter "Einstellungen > robots.txt" kannst du spezifische URLs gegen deine robots.txt testen. So siehst du ob Googlebot und Google-Extended bestimmte Pfade erreichen koennen.

3
Pantra GEO-Audit: alle 6 KI-Crawler auf einmal pruefen

Der Pantra GEO-Audit prueft automatisch ob alle 6 KI-Crawler (GPTBot, ClaudeBot, PerplexityBot, Google-Extended, Bingbot, CCBot) in deiner robots.txt korrekt freigegeben sind. Du bekommst einen Score und konkrete Fixes fuer jeden blockierten Crawler.

Beachte: Der Google robots.txt Tester zeigt dir nur wie Googlebot und Google-Extended deine robots.txt interpretieren, nicht wie GPTBot oder PerplexityBot das tun. Fuer eine vollstaendige KI-Crawler-Ueberpruefung brauchst du ein Tool das alle relevanten User-Agents simuliert.

Nach einer robots.txt-Aenderung auf Produktiv-Umgebung empfiehlt sich ein Re-Crawl-Request in der Google Search Console. Fuer andere KI-Crawler gibt es keinen vergleichbaren Mechanismus du musst warten bis der naechste regulaere Crawl-Zyklus stattfindet. Halte deine robots.txt daher immer aktuell und aendere sie nicht unnoetig haeufig.

Haeufige Fehler bei robots.txt fuer KI-Sichtbarkeit

Diese sechs Fehler sind fuer den groessten Teil aller robots.txt-Probleme verantwortlich die wir bei Pantra-Audits sehen. Jeder ist leicht zu beheben:

6 HAEUFIGE FEHLER UND IHRE LOESUNGEN
FEHLER
Wildcard Disallow: /

User-agent: * mit Disallow: / blockiert alle Bots global.

FIX

Entferne die Wildcard-Disallow und gib KI-Crawler explizit frei.

FEHLER
Falsche Gross-/Kleinschreibung

"user-agent" statt "User-agent" kann von manchen Parsern ignoriert werden.

FIX

Nutze immer die korrekte Gross-/Kleinschreibung gemaess RFC 9309.

FEHLER
Sitemap fehlt

Ohne Sitemap-Link finden Crawler nicht alle URLs deiner Website.

FIX

Fuege "Sitemap: https://deinedomain.com/sitemap.xml" am Ende ein.

FEHLER
Crawl-Delay gesetzt

Crawl-Delay verlangsamt KI-Crawler und kann Indexierung verzoegern.

FIX

Entferne Crawl-Delay komplett oder setze ihn hoechstens fuer unerwuenschte Bots.

FEHLER
HTTP statt HTTPS in Sitemap-URL

Die Sitemap-URL muss mit HTTPS beginnen, sonst folgen Crawler ihr nicht.

FIX

Nutze immer "Sitemap: https://" mit sicherem Protokoll.

FEHLER
Leerzeilen zwischen User-agent und Regeln

Eine Leerzeile zwischen User-agent und Disallow/Allow beendet den Block.

FIX

Kein Leerzeichen zwischen User-agent-Zeile und den zugehoerigen Allow/Disallow-Regeln.

Besonderer Hinweis zum Crawl-Delay: Dieser Parameter wurde frueher verwendet um Server zu schonen. Heute ist er kaum noch notwendig weil moderne Crawler intelligent throttlen. Ein Crawl-Delay von 10 oder mehr Sekunden kann KI-Crawler effektiv dazu bringen grosse Teile deiner Website nie vollstaendig zu indexieren, weil die Crawl-Zeit-Budgets begrenzt sind.

Zum Thema Leerzeilen: RFC 9309 (der offizielle Standard fuer robots.txt) definiert dass eine Leerzeile zwischen User-agent-Direktiven und Regelanweisungen den Block beendet. Das bedeutet: Wenn du versehentlich eine Leerzeile zwischen "User-agent: GPTBot" und "Allow: /" einfuegst, gilt die Allow-Regel nicht mehr fuer GPTBot. Dieser Fehler ist visuell schwer zu erkennen und wird oft erst durch Testen entdeckt.

Wie Pantra deine robots.txt analysiert

Der GEO-Audit von Pantra analysiert deine robots.txt in Echtzeit als Teil eines vollstaendigen 177-Punkte-Audits. Speziell fuer robots.txt prueft Pantra sieben Aspekte: Ob GPTBot freigegeben ist. Ob ClaudeBot freigegeben ist. Ob PerplexityBot freigegeben ist. Ob Google-Extended freigegeben ist. Ob eine Wildcard-Disallow-Regel existiert die alle Crawler blockiert. Ob die Sitemap in der robots.txt verlinkt ist. Ob der Crawl-Delay auf null oder nicht vorhanden ist.

Der GEO-Score wird direkt beeinflusst: Jeder blockierte KI-Crawler zieht Punkte ab, wobei GPTBot, ClaudeBot und PerplexityBot am staerksten gewichtet sind weil sie die meistgenutzten KI-Such-Plattformen repraesentieren. Ein vollstaendig blockierter KI-Crawler (durch Wildcard oder explizite Disallow) fuehrt zu einem Finding der Severity "High" im GEO-Bereich.

Pantra generiert fuer jedes robots.txt-Finding einen konkreten Fix-Prompt. Du siehst nicht nur "GPTBot ist blockiert" sondern bekommst den genauen robots.txt-Eintrag den du hinzufuegen musst, inklusive Erklaerung warum dieser Crawler wichtig ist und welchen GEO-Score-Effekt die Freigabe haben wird. Das macht die Priorisierung einfach: Fixe zuerst was den groessten Score-Impact hat.

Nach dem Fix kannst du einen neuen Audit starten und siehst sofort ob die robots.txt jetzt korrekt konfiguriert ist. Pantra cached keine robots.txt-Daten laenger als notwenig, sondern holt sie bei jedem Audit frisch ab. So sind deine Score-Daten immer aktuell und du kannst Verbesserungen unmittelbar verifizieren.

WEITERFUEHRENDE GUIDES
llms.txt: Was es ist und wie du es erstellstGEO vs SEO: Die fundamentalen UnterschiedeKI-Sichtbarkeit messen: Tools, Metriken und VorgehenJSON-LD Schema fuer SaaS: Welche Typen du brauchst

Haeufige Fragen zu robots.txt und KI-Crawlern

Welche KI-Crawler sind am wichtigsten?

Die wichtigsten KI-Crawler sind GPTBot (OpenAI, fuer ChatGPT Search), ClaudeBot (Anthropic, fuer Claude), PerplexityBot (Perplexity AI) und Google-Extended (fuer Google AI Overviews). Diese vier decken die meistgenutzten KI-Such-Plattformen ab. Ergaenzend solltest du auch Bingbot zulassen, da Perplexity teils den Bing-Index nutzt, und CCBot (Common Crawl) fuer breitere LLM-Trainingsdaten-Abdeckung.

Blockiert "Disallow: /" auch Google-Crawler?

Ja. Eine Wildcard-Regel "User-agent: * Disallow: /" blockiert alle Crawler ohne Ausnahme, also auch Googlebot, Bingbot, GPTBot und alle anderen. Das ist der haeufigste Fehler bei robots.txt-Konfigurationen. Du musst danach explizit jeden Crawler freigeben, dem du Zugriff erlauben willst, entweder durch eine eigene User-agent-Sektion oder indem du die Wildcard-Disallow-Regel komplett entfernst und stattdessen spezifische Crawler blockierst.

Wie schnell indexieren KI-Crawler nach einer robots.txt-Aenderung?

Das haengt vom Crawler ab. Googlebot und Bingbot lesen robots.txt in der Regel alle 24 Stunden neu aus. GPTBot und andere KI-Crawler haben keine veroeffentlichten Crawl-Intervalle, aber praxisnahe Tests zeigen dass Aenderungen innerhalb von einigen Tagen bis Wochen wirksam werden. Es gibt keinen Mechanismus um KI-Crawler aktiv ueber robots.txt-Aenderungen zu informieren. Neu erstellte Inhalte werden erst beruecksichtigt nachdem der Crawler sie tatsaechlich gecrawlt hat.

Was ist der Unterschied zwischen GPTBot und ChatGPT Search?

GPTBot ist der Crawler den OpenAI fuer Trainingsdaten und Wissens-Updates nutzt, also fuer das Basiswissen von ChatGPT. ChatGPT Search ist die Live-Suchfunktion innerhalb von ChatGPT die aktuelle Webinhalte abruft. Fuer ChatGPT Search wird ebenfalls GPTBot (oder ein aehnlicher User-Agent) genutzt. Wenn du GPTBot blockierst, riskierst du sowohl aus Trainingsdaten als auch aus Live-Suche ausgeschlossen zu werden. Beides schadet deiner KI-Sichtbarkeit, wenn auch auf unterschiedlichen Zeitskalen.

Kann ich CCBot blockieren ohne andere KI-Crawler zu beeinflussen?

Ja. Jeder User-Agent-Eintrag in robots.txt wirkt unabhaengig von anderen. Du kannst CCBot mit "User-agent: CCBot Disallow: /" blockieren waehrend GPTBot, ClaudeBot und PerplexityBot vollen Zugriff erhalten. CCBot sammelt Trainingsdaten fuer viele LLMs, ist aber kein Such-Crawler. Wenn dir Datenschutz bei Trainings-Datensaetzen wichtig ist aber KI-Suchsichtbarkeit nicht verloren gehen soll, ist das ein sinnvoller Kompromiss. Du verlierst durch CCBot-Blockierung keine Echtzeit-Sichtbarkeit in ChatGPT oder Perplexity, aber deine Inhalte koennen seltener in kuenftigen Trainings-Datensaetzen auftauchen.

Muss ich jede neue KI-Plattform manuell zur robots.txt hinzufuegen?

Theoretisch ja, aber in der Praxis gibt es einen einfacheren Weg: Entferne die Wildcard-Disallow-Regel "User-agent: * Disallow: /" und nutze stattdessen eine offene robots.txt die nur explizit unerwuenschte Bots blockiert. So sind neue KI-Crawler automatisch zugelassen sobald sie auftauchen. Pantra beobachtet neue KI-Crawler und aktualisiert seine Check-Bibliothek wenn relevante neue User-Agents erscheinen, damit du keine wichtigen Bots verpasst. Fuer den Moment sind die genannten sechs Crawler die relevanten Player.

KI-CRAWLER ANALYSE MIT PANTRA

Pruefe ob alle KI-Crawler auf deine Website zugreifen koennen

Pantra analysiert deine robots.txt auf 6 KI-Crawler und zeigt dir genau welche blockiert sind und wie du das behebst.

Kostenlosen Audit starten