Welche KI-Crawler muss ich in robots.txt erlauben?

Die fünf wichtigsten KI-Crawler sind: GPTBot (OpenAI/ChatGPT), ClaudeBot (Anthropic/Claude), PerplexityBot (Perplexity AI), Google-Extended (Google AI Overviews) und Bingbot (Microsoft/ChatGPT-Browsing). Alle fünf sollten entweder explizit erlaubt oder zumindest nicht blockiert sein.

Wie schnell reagiert Perplexity nach Korrektur der robots.txt?

Perplexity crawlt aktiv und reagiert typischerweise innerhalb von 2-7 Tagen. ChatGPT-Browsing via Bing braucht 1-3 Wochen. Google AI Overviews folgt dem regulären Google-Crawl-Zyklus (3-8 Wochen).

Ist es sinnvoll, KI-Crawler zum Content-Schutz zu blockieren?

Das ist ein echtes Tradeoff. Wer blockiert, verhindert potenzielle Nutzung in Trainingsdaten — wird aber in KI-Suchantworten vollständig unsichtbar. Für die meisten Businesses überwiegt der Sichtbarkeitsvorteil deutlich, da KI-Suche heute signifikante kaufrelevante Anfragen verarbeitet.

Kann ich KI-Crawler auf bestimmte Bereiche meiner Website beschränken?

Ja. Du kannst in robots.txt spezifische Disallow-Regeln pro Bot setzen: GPTBot erlaubt alles, ausser /admin/ und /api/. Das gibt dir granulare Kontrolle ohne vollständige Blockierung und ist die empfohlene Konfiguration für die meisten Websites.

Was passiert wenn meine robots.txt komplett fehlt?

Eine fehlende robots.txt bedeutet für Crawler "alles erlaubt". Das ist für KI-Sichtbarkeit kein Problem — Crawler können alles lesen. Es ist aber dennoch empfehlenswert, eine robots.txt zu erstellen, um Sensibereiche explizit auszuschliessen und eine Sitemap-Referenz einzutragen.

← GEO-Fehler/Kritisch · −40 Pkt.

Fehler #1: KI-Crawler in robots.txt blockiert

GPTBot, ClaudeBot und PerplexityBot sind auf Millionen von Websites gesperrt — meist unbeabsichtigt. Das Ergebnis ist vollständige Unsichtbarkeit in ChatGPT, Claude und Perplexity. Kein Ranking, kein Traffic, keine Chance. Fix dauert 10 Minuten.

Direkt zum Fix GEO-Score messen

Dieser Fehler kostet dich

ChatGPT-Sichtbarkeit 0%

Perplexity-Sichtbarkeit 0%

Claude-Sichtbarkeit 0%

GEO-Score Abzug↓ −40 Pkt.

Fix-Aufwand 10 Min.

Pantra meldet diesen Fehler als:

CRITICAL — Sofort beheben

Die 5 KI-Crawler die du erlauben musst

Wer crawlt deine Site — und für welches System?

Jeder KI-Crawler hat einen spezifischen User-Agent-String. Wenn dieser String in deiner robots.txt per Disallow: / blockiert ist, bekommt das jeweilige KI-System keinen Zugang zu deinen Inhalten — unabhängig davon wie gut dein Content ist.

User-AgentPlattform & NutzungGEO-ImpactReaktionszeit

GPTBotOpenAI · ChatGPT-Training + BrowsingSehr hoch1-3 Wo.

ClaudeBotAnthropic · Claude.ai WissensbasisHoch2-6 Wo.

PerplexityBotPerplexity AI · Echtzeit-SucheSehr hoch2-7 Tage

Google-ExtendedGoogle · AI Overviews & BardHoch3-8 Wo.

BingbotMicrosoft · ChatGPT-Browsing via BingMittel1-2 Wo.

Ursachen

Wie die Blockierung entsteht — ohne dass du es merkst

️

CMS-Standardkonfiguration

Viele CMS und Hosting-Provider generieren automatisch eine robots.txt mit "Disallow: /" für Staging-Umgebungen. Wenn diese in Produktion landet, sind alle Crawler blockiert.

️

Reaktion auf KI-Training-Debatte 2023

Als OpenAI GPTBot einführte, kursierten Anleitungen zum Blockieren. Viele haben das umgesetzt — und vergessen, dass dieselben Crawler heute KI-Suchantworten befüllen.

SEO-Plugin Fehlkonfiguration

Beliebte SEO-Plugins für WordPress bieten einen "Suchmaschinen-Blockierung"-Schalter. Dieser ist manchmal versehentlich aktiviert oder wurde während eines Wartungsfensters gesetzt.

Deployment überschreibt robots.txt

Die Staging-robots.txt, die alles blockiert, landet versehentlich in Produktion. In Teams mit mehreren Entwicklern passiert das häufiger als man denkt — ohne dass es sofort auffällt.

Alte robots.txt, neue Crawler

Wer seine robots.txt 2020 konfiguriert hat, kannte GPTBot und ClaudeBot nicht. Ältere Konfigurationen enthalten keine explizite Erlaubnis für KI-Bots, die erst 2023 eingeführt wurden.

"Disallow: /" unter User-agent *

Ein "*"-Block mit "Disallow: /" blockiert alle Crawler — auch KI-Bots, die danach nicht explizit mit Allow ausgenommen werden. Das häufigste Missverständnis in der robots.txt-Syntax.

So prüfst du es in 2 Minuten

Öffne deinedomain.com/robots.txt im Browser. Suche nach: Disallow: / unter einem User-agent: *-Block, oder nach expliziten Blöcken für GPTBot/ClaudeBot/PerplexityBot mit Disallow. Wenn du eines davon findest, bist du betroffen.

Der Fix

robots.txt in 10 Minuten richtig konfigurieren

Hier ist das direkte Vorher-Nachher. Auf der linken Seite die typische Fehler-Konfiguration, rechts die korrekte Version die alle wichtigen KI-Crawler durchlässt.

Blockiert — KI unsichtbar

# Alle Crawler blockiert
User-agent: *
Disallow: /
# oder explizit:
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: PerplexityBot
Disallow: /

Offen — KI kann lesen

User-agent: GPTBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: *
Allow: /
Disallow: /admin/
Sitemap: https://dein.io/sitemap.xml

Schritt für Schritt

Aktuelle robots.txt öffnen

Navigiere zu deinedomain.com/robots.txt. Speichere den Inhalt lokal als Backup.

Problematische Einträge identifizieren

Suche nach Disallow: / unter User-agent: * oder spezifischen KI-Bot-Blöcken. Markiere diese Stellen.

Vor den *-Block: Allow-Blöcke für KI-Crawler einfügen

Füge für GPTBot, ClaudeBot, PerplexityBot und Google-Extended je einen Block mit "Allow: /" ein. Das überschreibt bei Bedarf den generischen *-Block.

Sensible Bereiche per Disallow schützen

Setze unter User-agent: * nur die Bereiche per Disallow, die wirklich nicht gecrawlt werden sollen: /admin/, /api/, /dashboard/.

Sitemap-Referenz hinzufügen

Füge am Ende der Datei hinzu: "Sitemap: https://deinedomain.com/sitemap.xml". Das hilft allen Crawlern, deine Inhalte schneller zu finden.

Testen und deployen

Prüfe die neue robots.txt mit dem Google Search Console robots.txt-Tester oder einem Online-Tool. Dann deployen.

Vertiefung: jeder KI-Crawler im Detail

Welcher Bot gehört zu welchem System, wie du pro Crawler granulare Regeln setzt und die fertige robots.txt zum Kopieren findest du im Leitfaden KI-Crawler richtig in robots.txt konfigurieren.

Hintergrund

Warum KI-Crawler robots.txt respektieren — und was das bedeutet

Das Robots Exclusion Protocol (robots.txt) ist seit 1994 Standard im Web. Es ist eine freiwillige Vereinbarung: Crawler respektieren sie, weil ihre Betreiber — Google, Bing, Anthropic, OpenAI, Perplexity — sich dazu verpflichtet haben. Es gibt keine technische Zwang-Mechanik, aber alle seriösen Systeme halten sich daran.

OpenAI hat im August 2023 GPTBot eingeführt und gleichzeitig kommuniziert, dass die robots.txt-Direktiven respektiert werden. Anthropic folgte mit ClaudeBot, Perplexity mit PerplexityBot. Alle drei haben öffentliche Dokumentation zu ihren Crawlern und deren Compliance mit robots.txt veröffentlicht. Das ist grundsätzlich gut für Websitebetreiber, die Kontrolle haben wollen — hat aber eine Konsequenz, die viele unterschätzen.

Die Konsequenz: Wer KI-Crawler blockiert, ist in diesen Systemen wirklich nicht sichtbar. Es gibt keine Hintertür. Perplexity sieht die "Disallow: /" Direktive und verlässt die Seite, bevor es auch nur eine Zeile Content liest. Das geschieht bei jedem Crawl-Versuch, für immer, bis die robots.txt geändert wird.

Was das konkret bedeutet: Angenommen, jemand fragt Perplexity "Welches Tool nehme ich für GEO-Optimierung?" Perplexity startet einen Echtzeit-Crawl, findet relevante Seiten und synthetisiert eine Antwort mit nummerierten Quellenlinks. Deine Website wäre perfekt geeignet — aber PerplexityBot steht vor einer verschlossenen Tür. Perplexity nennt drei Konkurrenten, deren robots.txt offen ist. Der Nutzer wählt einen davon.

Das ist kein hypothetisches Szenario. Perplexity verarbeitet täglich über 100 Millionen Suchanfragen. ChatGPT hat über 500 Millionen Wochennutzer, von denen ein substanzieller Teil die Browsing-Funktion nutzt, die auf denselben Crawl-Mechanismus setzt. Jede dieser Anfragen in deiner Kategorie ist eine Gelegenheit — und mit blockierten Crawlern ist deine Conversion-Rate in diesem Kanal exakt null.

Das Tückische: Dieser Schaden ist nicht messbar in bestehenden Analytics-Tools. Du siehst keine sinkenden Kurven. Dein Google Analytics zeigt keine Verluste, weil der Traffic nie gekommen ist. Alles sieht normal aus. Wer aktiv nach KI-Sichtbarkeit schaut — zum Beispiel indem er eine KI direkt nach seiner Kategorie fragt — bemerkt das Problem. Wer nicht schaut, bezahlt still eine wachsende Opportunity-Cost.

Der Content-Schutz-Tradeoff: Was du wirklich verlierst

Ein legitimer Grund KI-Crawler zu blockieren: Man möchte verhindern, dass eigene Inhalte in KI-Trainingsdaten einfliessen und möglicherweise von KI-Systemen komprimiert reproduziert werden. Diese Sorge ist verständlich — besonders für Verlage, kreative Autoren und Unternehmen mit proprietären Inhaltsformaten.

Was dabei often vergessen wird: robots.txt ist kein technischer Schutz. Es ist eine freiwillige Vereinbarung. Seriöse Crawler respektieren sie — unseriöse nicht. Wer Content wirklich schützen will, braucht andere Mechanismen: Paywall, Login, Rate-Limiting auf Server-Ebene. robots.txt schützt nur vor Crawlern, die sich daran halten.

Das andere was viele vergessen: Die KI-Systeme, die robots.txt am zuverlässigsten respektieren — OpenAI, Anthropic, Perplexity — sind genau die Systeme, die heute signifikanten kaufrelevanten Traffic generieren. Wer diese blockiert, blockiert den Kanal, der am stärksten wächst.

Die Empfehlung für die meisten Businesses: Crawler öffnen, Sensibereiche via Disallow schützen (Admin, API, interne Tools), und Content der wirklich proprietär und schützenswert ist hinter einen Login legen. Der Rest sollte für KI-Systeme zugänglich sein — der potenzielle Traffic-Gewinn überwiegt das theoretische Training-Risiko für fast alle nicht-medialen Businesses.

Was nach dem Fix passiert — und wie schnell

Sobald die robots.txt korrigiert ist und deployt, beginnen die Crawler bei ihrem nächsten Zyklus mit dem Crawlen. Wie schnell das passiert und wann du Ergebnisse siehst:

Tag 1

Deployment

robots.txt korrigiert und live

2-7 Tage

Perplexity

Echtzeit-Crawl startet, erste Indexierung möglich

1-3 Wo.

ChatGPT-Browsing

Bing-Index aufgenommen, Browsing verfügbar

3-8 Wo.

Google AI Overviews

Google-Crawl, AI Overviews Einbindung

Pantra prüft das täglich

Nie mehr unbemerkt blockiert — mit täglichem GEO-Monitoring

Deployments können robots.txt überschreiben. Pantra prüft täglich ob GPTBot, ClaudeBot und PerplexityBot Zugang haben — und schickt sofort eine E-Mail wenn sich das ändert.

Kostenlos starten