Robots.txt: HTML Syntax, Länge & Beispiele | Pantra

Robots.txt ist eine Textdatei im Stammverzeichnis einer Domain, die Suchmaschinen-Crawlern Anweisungen gibt, welche Teile einer Webseite sie aufrufen dürfen un…

Die Robots.txt-Datei ist eine einfache Textdatei, die sich im Stammverzeichnis einer Webseite befindet (z.B. https://www.example.com/robots.txt). Sie ist Teil des Robots Exclusion Protocol und gibt Web-Robotern (wie Suchmaschinen-Crawlern) Anweisungen, welche Bereiche der Webseite sie crawlen dürfen und welche nicht.

Diese Datei wird hauptsächlich verwendet, um den Crawler-Traffic zu steuern, die Indexierung privater oder irrelevanter Bereiche (wie Admin-Seiten, Staging-Umgebungen oder doppelter Inhalt) zu verhindern und das Crawl-Budget zu schonen. Es ist wichtig zu beachten, dass robots.txt eine Anweisung und keine Sicherheitsmaßnahme ist; sie teilt höflichen Crawlern mit, was zu tun ist, aber entschlossene Bots können trotzdem auf nicht zugelassene Inhalte zugreifen, wenn sie direkt verlinkt sind.

Eine gängige robots.txt-Konfiguration könnte so aussehen:

User-agent: *
Disallow: /admin/
Disallow: /private/

User-agent: Googlebot
Allow: /public/
Disallow: /temp/

Dieses Beispiel blockiert alle User-Agents von /admin/ und /private/ und weist Googlebot speziell an, dass er auf /public/ zugreifen darf, aber nicht auf /temp/.

Robots.txt

Verwandte Begriffe

Site auf alle diese Punkte prüfen?