robots.txt
Eine robots.txt-Datei ist eine Textdatei, die dem Robots Exclusion Standard entspricht und zur Steuerung des Zugriffs von Webcrawlern auf Webseiten dient. Sie wird im Stammverzeichnis (Root) einer Website platziert und ist das erste Dokument, das ein Bot abruft, wenn er eine Webseite besucht.
Die Hauptfunktion der robots.txt besteht darin, Suchmaschinen-Crawlern mitzuteilen, welche Bereiche einer Website sie durchsuchen dürfen und welche nicht. Dies hilft dabei, den Crawling-Traffic zu verwalten und die Serverlast zu reduzieren. Mit dieser Datei können einzelne Dateien, komplette Verzeichnisse, Unterverzeichnisse oder ganze Domains vom Crawling ausgeschlossen werden.
Der Aufbau einer robots.txt-Datei basiert auf zwei wesentlichen Elementen: dem User-Agent und den Zugriffsbefehlen. Der User-Agent gibt an, für welchen Bot die nachfolgenden Regeln gelten sollen. Die Befehle „Disallow“ oder „Allow“ definieren dann, welche Bereiche der Website für diesen Bot gesperrt oder zugänglich sein sollen.
Es ist wichtig zu verstehen, dass die robots.txt keine absolute Zugangssperre darstellt. Die großen Suchmaschinen wie Google und Bing halten sich zwar an die Vorgaben, aber es gibt keine Garantie, dass alle Bots die Anweisungen befolgen. Zudem schützt die robots.txt nicht vor dem Zugriff durch Menschen oder vor der Indexierung von Seiten, die stark von externen Websites verlinkt sind.
Die robots.txt-Datei kann mit einem einfachen Texteditor erstellt werden. Vor dem Hochladen sollte sie auf Korrektheit geprüft werden, da bereits kleine Syntaxfehler dazu führen können, dass Crawler die Vorgaben missachten. Für jede Domain und jedes Protokoll (HTTP, HTTPS) sowie jeden Port wird eine separate robots.txt-Datei benötigt.
Neben der Steuerung des Crawlings kann in der robots.txt auch ein Verweis auf die XML-Sitemap einer Website hinterlegt werden, um Suchmaschinen die URL-Struktur der Website mitzuteilen.
Eine korrekt konfigurierte robots.txt ist ein wichtiges Element für die Suchmaschinenoptimierung und trägt zur effizienten Verwaltung der Webpräsenz bei.
Der Robots Exclusion Standard (auch bekannt als robots.txt) ist ein Dateiformat mit Namenskonvention für Webserver, um bestimmten Bots mitzuteilen, ob und inwieweit sie willkommen oder unerwünscht sind. Umgesetzt wird das durch eine Textdatei namens robots.txt
im Stammverzeichnis der Website. Webcrawler sollen zuerst eine Datei dieses Namens abzurufen versuchen, und sofern das gelingt, darin niedergeschriebene Grenzen achten.
Webmaster haben so keineswegs die Möglichkeit, ausgesuchte Bereiche ihrer Website für (bestimmte) Suchmaschinen zu sperren. Der Standard ist rein hinweisend und auf die Mitarbeit des Webcrawlers angewiesen. Man spricht hier auch von „freundlichen“ Webcrawlern. Ein Ausgrenzen bestimmter Teile einer Website durch das Protokoll garantiert keine Geheimhaltung; dazu sind Seiten oder Unterverzeichnisse eines Servers durch HTTP-Authentifizierung, eine Access Control List (ACL) oder einen ähnlichen Mechanismus zu schützen. Manche Suchmaschinen zeigen die vom Webcrawler gefundenen und zu sperrenden URLs trotzdem in den Suchergebnisseiten an, jedoch ohne Beschreibung der Seiten.
Der Robots Exclusion Standard geht auf einen Vorschlag des Entwicklers von ALIWEB im Februar 1994 zurück. Anfang Juni 2008 bekannten sich Google, Microsoft und Yahoo zu einigen Gemeinsamkeiten. Mit RFC 9309 von 2022 wurde der Robots Exclusion Standard erweitert und als Internetstandard vorgeschlagen.
Ein zwingendes Verbot der Indizierung wird durch den Einsatz von robots.txt nicht erreicht, auch wenn seriöse Webcrawler die Anweisungen befolgen.