Fehler #1: KI-Crawler in robots.txt blockiert
GPTBot, ClaudeBot und PerplexityBot sind auf Millionen von Websites gesperrt — meist unbeabsichtigt. Das Ergebnis ist vollständige Unsichtbarkeit in ChatGPT, Claude und Perplexity. Kein Ranking, kein Traffic, keine Chance. Fix dauert 10 Minuten.
Wer crawlt deine Site — und für welches System?
Jeder KI-Crawler hat einen spezifischen User-Agent-String. Wenn dieser String in deiner robots.txt per Disallow: / blockiert ist, bekommt das jeweilige KI-System keinen Zugang zu deinen Inhalten — unabhängig davon wie gut dein Content ist.
Wie die Blockierung entsteht — ohne dass du es merkst
So prüfst du es in 2 Minuten
Öffne deinedomain.com/robots.txt im Browser. Suche nach: Disallow: / unter einem User-agent: *-Block, oder nach expliziten Blöcken für GPTBot/ClaudeBot/PerplexityBot mit Disallow. Wenn du eines davon findest, bist du betroffen.
robots.txt in 10 Minuten richtig konfigurieren
Hier ist das direkte Vorher-Nachher. Auf der linken Seite die typische Fehler-Konfiguration, rechts die korrekte Version die alle wichtigen KI-Crawler durchlässt.
Schritt für Schritt
Vertiefung: jeder KI-Crawler im Detail
Welcher Bot gehört zu welchem System, wie du pro Crawler granulare Regeln setzt und die fertige robots.txt zum Kopieren findest du im Leitfaden KI-Crawler richtig in robots.txt konfigurieren.
Warum KI-Crawler robots.txt respektieren — und was das bedeutet
Das Robots Exclusion Protocol (robots.txt) ist seit 1994 Standard im Web. Es ist eine freiwillige Vereinbarung: Crawler respektieren sie, weil ihre Betreiber — Google, Bing, Anthropic, OpenAI, Perplexity — sich dazu verpflichtet haben. Es gibt keine technische Zwang-Mechanik, aber alle seriösen Systeme halten sich daran.
OpenAI hat im August 2023 GPTBot eingeführt und gleichzeitig kommuniziert, dass die robots.txt-Direktiven respektiert werden. Anthropic folgte mit ClaudeBot, Perplexity mit PerplexityBot. Alle drei haben öffentliche Dokumentation zu ihren Crawlern und deren Compliance mit robots.txt veröffentlicht. Das ist grundsätzlich gut für Websitebetreiber, die Kontrolle haben wollen — hat aber eine Konsequenz, die viele unterschätzen.
Die Konsequenz: Wer KI-Crawler blockiert, ist in diesen Systemen wirklich nicht sichtbar. Es gibt keine Hintertür. Perplexity sieht die "Disallow: /" Direktive und verlässt die Seite, bevor es auch nur eine Zeile Content liest. Das geschieht bei jedem Crawl-Versuch, für immer, bis die robots.txt geändert wird.
Was das konkret bedeutet: Angenommen, jemand fragt Perplexity "Welches Tool nehme ich für GEO-Optimierung?" Perplexity startet einen Echtzeit-Crawl, findet relevante Seiten und synthetisiert eine Antwort mit nummerierten Quellenlinks. Deine Website wäre perfekt geeignet — aber PerplexityBot steht vor einer verschlossenen Tür. Perplexity nennt drei Konkurrenten, deren robots.txt offen ist. Der Nutzer wählt einen davon.
Das ist kein hypothetisches Szenario. Perplexity verarbeitet täglich über 100 Millionen Suchanfragen. ChatGPT hat über 500 Millionen Wochennutzer, von denen ein substanzieller Teil die Browsing-Funktion nutzt, die auf denselben Crawl-Mechanismus setzt. Jede dieser Anfragen in deiner Kategorie ist eine Gelegenheit — und mit blockierten Crawlern ist deine Conversion-Rate in diesem Kanal exakt null.
Das Tückische: Dieser Schaden ist nicht messbar in bestehenden Analytics-Tools. Du siehst keine sinkenden Kurven. Dein Google Analytics zeigt keine Verluste, weil der Traffic nie gekommen ist. Alles sieht normal aus. Wer aktiv nach KI-Sichtbarkeit schaut — zum Beispiel indem er eine KI direkt nach seiner Kategorie fragt — bemerkt das Problem. Wer nicht schaut, bezahlt still eine wachsende Opportunity-Cost.
Der Content-Schutz-Tradeoff: Was du wirklich verlierst
Ein legitimer Grund KI-Crawler zu blockieren: Man möchte verhindern, dass eigene Inhalte in KI-Trainingsdaten einfliessen und möglicherweise von KI-Systemen komprimiert reproduziert werden. Diese Sorge ist verständlich — besonders für Verlage, kreative Autoren und Unternehmen mit proprietären Inhaltsformaten.
Was dabei often vergessen wird: robots.txt ist kein technischer Schutz. Es ist eine freiwillige Vereinbarung. Seriöse Crawler respektieren sie — unseriöse nicht. Wer Content wirklich schützen will, braucht andere Mechanismen: Paywall, Login, Rate-Limiting auf Server-Ebene. robots.txt schützt nur vor Crawlern, die sich daran halten.
Das andere was viele vergessen: Die KI-Systeme, die robots.txt am zuverlässigsten respektieren — OpenAI, Anthropic, Perplexity — sind genau die Systeme, die heute signifikanten kaufrelevanten Traffic generieren. Wer diese blockiert, blockiert den Kanal, der am stärksten wächst.
Die Empfehlung für die meisten Businesses: Crawler öffnen, Sensibereiche via Disallow schützen (Admin, API, interne Tools), und Content der wirklich proprietär und schützenswert ist hinter einen Login legen. Der Rest sollte für KI-Systeme zugänglich sein — der potenzielle Traffic-Gewinn überwiegt das theoretische Training-Risiko für fast alle nicht-medialen Businesses.
Was nach dem Fix passiert — und wie schnell
Sobald die robots.txt korrigiert ist und deployt, beginnen die Crawler bei ihrem nächsten Zyklus mit dem Crawlen. Wie schnell das passiert und wann du Ergebnisse siehst: