Wat doet het bestand robots.txt op een webserver?

Website bouwers komen vroeg of laat met de vraag van wat doet of wat is het robots.txt bestand. Het bestand robots.txt is een bestand dat specifiek bedoeld is voor search engines spiders. Een spider leest het robots.txt bestand in en als de spider zich gedraagd, dan zal hij de instructies in het robots.txt bestand respecteren. Er zijn spiders die niets aantrekken van de instructies in het bestand en dat is ook het grote manco van deze vorm van het gedrag inperken van spiders.

Tot zover spiders, nu robots.txt. In het robots.txt bestand staat in welke bestanden er wel door de spider mogen worden bekeken. De reden om dit in te perken, komt nog uit de tijd dat bandbreedte duur was en dat er moest door de webhoster worden betaald voor elke gedownloadde MB. Het was daarom onwenselijk dat geautomatiseerde programma's elke week een hele website gingen downloaden met allerlei grote bestanden erop. Er is vervolgens de volgende afspraak gemaakt dat spiders zich moeten houden aan de instructies die in het robots.txt bestand zijn opgenomen. Niet iedere spider doet dat en heeft het risico om verbannen te worden. Echter het hernoemen van de spider is meestal voldoende om vrolijk verder te gaan met het downloaden van complete websites.

Waarom zouden makers van spiders robots.txt respecteren?

Makers van spiders respecteren robot.txt alleen als ze er baat bij hebben om vaker langs te mogen komen. Stel de content van een website veranderd elke week. Dan is het voor bijvoorbeeld een zoekmachine belangrijk dat de verandering zo snel mogelijk worden opgemerkt. Dat kan alleen door vaak een website te gaan bezoeken. Wanneer de webmaster in robots.txt heeft aangegeven dat bepaalde bestanden van de website niet mogen worden gedownload en dit gebeurt dan toch, dan zal de webmaster de spider kunnen verbannen van de website. Als iedere webmaster dit op een bepaalt moment gaat doen, dan hebben zoekmachines geen bestaansrecht meer en doen ze er goed aan om de instructies in het robots.txt bestand staan te respecteren.

Hoe een robots.txt samenstellen? Een tutorial.

Het maken van een robots.txt is redelijk eenvoudig als er een goede editor wordt gebruikt. Hoewel het bestand in notepad onder Windows kan worden gemaakt, is het verstandig om het bestand in een editor zoals het gratis PSPad te doen. Goede editors hebben de mogelijkheid om bestanden in Unix formaat op te slaan. Het gaat met name om de wijze waarop een regel tekst in het bestand wordt afgesloten. PSPad heeft de mogelijkheid om in Unix mode een bestand te maken. Notepad bijvoorbeeld niet.

Elke regel in robots.txt ziet er als volgt uit:

<Veld> : <Waarde>

Voor <Veld> zijn slechts twee mogelijkheden: User-agent_ en Disallow. Met User-agent wordt de spider bedoeld en Disallow wil zoiets zeggen als niet toegestaan/verboden.

Tijd voor wat voorbeelden.

Het uitsluiten van een enkele spider wordt als volgt gedaan.

User-agent: Naam van de spider_

Of gebruik * (wildcard) om iets voor alle spiders te verbieden.

<b>User-agent: Eugene

Op de volgende regel komt Disallow en dan als waarde een bestandsnaam of een complete directory.

Disallow: deze-pagina-niet.html

Een complete directorie kan ook uitgesloten worden.

Disallow: /mijn plaatjes/

Stel we willen een spider met de naam Eugene niet op twee plaatsen op de website hebben. Stel en bestand deze-is-niet-voor-Eugene.html en een directorie map-niet-voor-Eugene.

User-agent : Eugene Disallow : deze-is-niet-voor-Eugene.html Disallow : map-niet-voor-Eugene

Soms is het wenselijk om commentaar in robots.txt te plaatsen en dat kan met het '#'-teken.

User-agent : Eugene #Let op dat de spider Eugene snel van naam veranderd! Disallow : deze-is-niet-voor-Eugene.html Disallow : map-niet-voor-Eugene

Voor meer voorbeelden verwijs ik naar:

  1. Voorbeeld 1
  2. Voobeeld 2