← GEO-Fehler/Kritisch · −40 Pkt.

Fehler #1: KI-Crawler in robots.txt blockiert

GPTBot, ClaudeBot und PerplexityBot sind auf Millionen von Websites gesperrt — meist unbeabsichtigt. Das Ergebnis ist vollständige Unsichtbarkeit in ChatGPT, Claude und Perplexity. Kein Ranking, kein Traffic, keine Chance. Fix dauert 10 Minuten.

Dieser Fehler kostet dich
ChatGPT-Sichtbarkeit 0%
Perplexity-Sichtbarkeit 0%
Claude-Sichtbarkeit 0%
GEO-Score Abzug −40 Pkt.
Fix-Aufwand 10 Min.
Pantra meldet diesen Fehler als:
CRITICAL — Sofort beheben
Die 5 KI-Crawler die du erlauben musst

Wer crawlt deine Site — und für welches System?

Jeder KI-Crawler hat einen spezifischen User-Agent-String. Wenn dieser String in deiner robots.txt per Disallow: / blockiert ist, bekommt das jeweilige KI-System keinen Zugang zu deinen Inhalten — unabhängig davon wie gut dein Content ist.

User-AgentPlattform & NutzungGEO-ImpactReaktionszeit
GPTBotOpenAI · ChatGPT-Training + BrowsingSehr hoch1-3 Wo.
ClaudeBotAnthropic · Claude.ai WissensbasisHoch2-6 Wo.
PerplexityBotPerplexity AI · Echtzeit-SucheSehr hoch2-7 Tage
Google-ExtendedGoogle · AI Overviews & BardHoch3-8 Wo.
BingbotMicrosoft · ChatGPT-Browsing via BingMittel1-2 Wo.
Ursachen

Wie die Blockierung entsteht — ohne dass du es merkst

CMS-Standardkonfiguration
Viele CMS und Hosting-Provider generieren automatisch eine robots.txt mit "Disallow: /" für Staging-Umgebungen. Wenn diese in Produktion landet, sind alle Crawler blockiert.
Reaktion auf KI-Training-Debatte 2023
Als OpenAI GPTBot einführte, kursierten Anleitungen zum Blockieren. Viele haben das umgesetzt — und vergessen, dass dieselben Crawler heute KI-Suchantworten befüllen.
SEO-Plugin Fehlkonfiguration
Beliebte SEO-Plugins für WordPress bieten einen "Suchmaschinen-Blockierung"-Schalter. Dieser ist manchmal versehentlich aktiviert oder wurde während eines Wartungsfensters gesetzt.
Deployment überschreibt robots.txt
Die Staging-robots.txt, die alles blockiert, landet versehentlich in Produktion. In Teams mit mehreren Entwicklern passiert das häufiger als man denkt — ohne dass es sofort auffällt.
Alte robots.txt, neue Crawler
Wer seine robots.txt 2020 konfiguriert hat, kannte GPTBot und ClaudeBot nicht. Ältere Konfigurationen enthalten keine explizite Erlaubnis für KI-Bots, die erst 2023 eingeführt wurden.
"Disallow: /" unter User-agent *
Ein "*"-Block mit "Disallow: /" blockiert alle Crawler — auch KI-Bots, die danach nicht explizit mit Allow ausgenommen werden. Das häufigste Missverständnis in der robots.txt-Syntax.
Der Fix

robots.txt in 10 Minuten richtig konfigurieren

Hier ist das direkte Vorher-Nachher. Auf der linken Seite die typische Fehler-Konfiguration, rechts die korrekte Version die alle wichtigen KI-Crawler durchlässt.

Blockiert — KI unsichtbar
# Alle Crawler blockiert
User-agent: *
Disallow: /
# oder explizit:
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: PerplexityBot
Disallow: /
Offen — KI kann lesen
User-agent: GPTBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: *
Allow: /
Disallow: /admin/
Sitemap: https://dein.io/sitemap.xml

Schritt für Schritt

1
Aktuelle robots.txt öffnen
Navigiere zu deinedomain.com/robots.txt. Speichere den Inhalt lokal als Backup.
2
Problematische Einträge identifizieren
Suche nach Disallow: / unter User-agent: * oder spezifischen KI-Bot-Blöcken. Markiere diese Stellen.
3
Vor den *-Block: Allow-Blöcke für KI-Crawler einfügen
Füge für GPTBot, ClaudeBot, PerplexityBot und Google-Extended je einen Block mit "Allow: /" ein. Das überschreibt bei Bedarf den generischen *-Block.
4
Sensible Bereiche per Disallow schützen
Setze unter User-agent: * nur die Bereiche per Disallow, die wirklich nicht gecrawlt werden sollen: /admin/, /api/, /dashboard/.
5
Sitemap-Referenz hinzufügen
Füge am Ende der Datei hinzu: "Sitemap: https://deinedomain.com/sitemap.xml". Das hilft allen Crawlern, deine Inhalte schneller zu finden.
6
Testen und deployen
Prüfe die neue robots.txt mit dem Google Search Console robots.txt-Tester oder einem Online-Tool. Dann deployen.
Hintergrund

Warum KI-Crawler robots.txt respektieren — und was das bedeutet

Das Robots Exclusion Protocol (robots.txt) ist seit 1994 Standard im Web. Es ist eine freiwillige Vereinbarung: Crawler respektieren sie, weil ihre Betreiber — Google, Bing, Anthropic, OpenAI, Perplexity — sich dazu verpflichtet haben. Es gibt keine technische Zwang-Mechanik, aber alle seriösen Systeme halten sich daran.

OpenAI hat im August 2023 GPTBot eingeführt und gleichzeitig kommuniziert, dass die robots.txt-Direktiven respektiert werden. Anthropic folgte mit ClaudeBot, Perplexity mit PerplexityBot. Alle drei haben öffentliche Dokumentation zu ihren Crawlern und deren Compliance mit robots.txt veröffentlicht. Das ist grundsätzlich gut für Websitebetreiber, die Kontrolle haben wollen — hat aber eine Konsequenz, die viele unterschätzen.

Die Konsequenz: Wer KI-Crawler blockiert, ist in diesen Systemen wirklich nicht sichtbar. Es gibt keine Hintertür. Perplexity sieht die "Disallow: /" Direktive und verlässt die Seite, bevor es auch nur eine Zeile Content liest. Das geschieht bei jedem Crawl-Versuch, für immer, bis die robots.txt geändert wird.

Was das konkret bedeutet: Angenommen, jemand fragt Perplexity "Welches Tool nehme ich für GEO-Optimierung?" Perplexity startet einen Echtzeit-Crawl, findet relevante Seiten und synthetisiert eine Antwort mit nummerierten Quellenlinks. Deine Website wäre perfekt geeignet — aber PerplexityBot steht vor einer verschlossenen Tür. Perplexity nennt drei Konkurrenten, deren robots.txt offen ist. Der Nutzer wählt einen davon.

Das ist kein hypothetisches Szenario. Perplexity verarbeitet täglich über 100 Millionen Suchanfragen. ChatGPT hat über 500 Millionen Wochennutzer, von denen ein substanzieller Teil die Browsing-Funktion nutzt, die auf denselben Crawl-Mechanismus setzt. Jede dieser Anfragen in deiner Kategorie ist eine Gelegenheit — und mit blockierten Crawlern ist deine Conversion-Rate in diesem Kanal exakt null.

Das Tückische: Dieser Schaden ist nicht messbar in bestehenden Analytics-Tools. Du siehst keine sinkenden Kurven. Dein Google Analytics zeigt keine Verluste, weil der Traffic nie gekommen ist. Alles sieht normal aus. Wer aktiv nach KI-Sichtbarkeit schaut — zum Beispiel indem er eine KI direkt nach seiner Kategorie fragt — bemerkt das Problem. Wer nicht schaut, bezahlt still eine wachsende Opportunity-Cost.

Der Content-Schutz-Tradeoff: Was du wirklich verlierst

Ein legitimer Grund KI-Crawler zu blockieren: Man möchte verhindern, dass eigene Inhalte in KI-Trainingsdaten einfliessen und möglicherweise von KI-Systemen komprimiert reproduziert werden. Diese Sorge ist verständlich — besonders für Verlage, kreative Autoren und Unternehmen mit proprietären Inhaltsformaten.

Was dabei often vergessen wird: robots.txt ist kein technischer Schutz. Es ist eine freiwillige Vereinbarung. Seriöse Crawler respektieren sie — unseriöse nicht. Wer Content wirklich schützen will, braucht andere Mechanismen: Paywall, Login, Rate-Limiting auf Server-Ebene. robots.txt schützt nur vor Crawlern, die sich daran halten.

Das andere was viele vergessen: Die KI-Systeme, die robots.txt am zuverlässigsten respektieren — OpenAI, Anthropic, Perplexity — sind genau die Systeme, die heute signifikanten kaufrelevanten Traffic generieren. Wer diese blockiert, blockiert den Kanal, der am stärksten wächst.

Die Empfehlung für die meisten Businesses: Crawler öffnen, Sensibereiche via Disallow schützen (Admin, API, interne Tools), und Content der wirklich proprietär und schützenswert ist hinter einen Login legen. Der Rest sollte für KI-Systeme zugänglich sein — der potenzielle Traffic-Gewinn überwiegt das theoretische Training-Risiko für fast alle nicht-medialen Businesses.

Was nach dem Fix passiert — und wie schnell

Sobald die robots.txt korrigiert ist und deployt, beginnen die Crawler bei ihrem nächsten Zyklus mit dem Crawlen. Wie schnell das passiert und wann du Ergebnisse siehst:

Tag 1
Deployment
robots.txt korrigiert und live
2-7 Tage
Perplexity
Echtzeit-Crawl startet, erste Indexierung möglich
1-3 Wo.
ChatGPT-Browsing
Bing-Index aufgenommen, Browsing verfügbar
3-8 Wo.
Google AI Overviews
Google-Crawl, AI Overviews Einbindung
Pantra prüft das täglich
Nie mehr unbemerkt blockiert — mit täglichem GEO-Monitoring
Deployments können robots.txt überschreiben. Pantra prüft täglich ob GPTBot, ClaudeBot und PerplexityBot Zugang haben — und schickt sofort eine E-Mail wenn sich das ändert.
Kostenlos starten

Häufig gestellte Fragen

← Übersicht
Alle 5 GEO-Fehler
Nächster →
Fehler #2: Kein llms.txt