Wat jij kunt leren over Robots.txt

12 januari, 2011

Je hebt al wel eens gehoord van robots.txt, en hopelijk gebruik je deze ook. Zo niet: dit is een tekst-bestand op je website waarin je commando's geeft aan de crawler/spider van een zoekmachine. Er zijn echter een aantal zaken die je moet weten over dit simpele tekstbestand. Hier zijn ze op een rijtje:

Publiek

Wanneer je weet dat het doel van het robots.txt bestand instructies aan de zoekmachine geven is, zou je misschien denken dat deze ook alleen door zoekmachines gelezen kan worden. Fout! Dit bestand is voor iedereen toegankelijk (voorbeeld). Wanneer je dus niet wilt dat een bestand zoals "secret.php" wordt geïndexeerd, plaats dan niet de code "Disallow:  /secret.php", aangezien iemand met iets kwaad in de zin weet waar deze pagina staat. Gebruik dus alleen commando's voor pagina's en mappen die niet privé zijn.

Sitemaps

Van een snelle blik op het robots.txt bestand van Karel Geenen kun je leren dat er weinig nodig is voor een goed bestand. Namelijk, toestaan om alle pagina's te indexeren en een sitemap om de zoekmachine te ondersteunen.
Een sitemap maken lijkt veel werk, maar daar is natuurlijk een oplossing voor. Voor WordPressgebruikers: deze wordpress plugin maakt automatisch een sitemap, zodat dit snel en eenvoudig gaat.

Duplicate content/Dubbele pagina's

Als je een wordpress blog hebt, kun je gebruik maken van een herschreven URL. Dit is mooi, maar er zit een nadeel aan: duplicate content. De pagina http://www.website.nl/?p=24 is bijvoorbeeld dezelfde als http://www.website.nl/10/artikel-naam-in-url/. Dit kun je oplossen met de volgende regel: "Disallow: /*?". Zo verbied je een zoekmachine de oude URL's te indexeren, zodat je maar één versie van elke pagina krijgt. Een andere oplossing vindt je op dit artikel van Karel Geenen over een goede sitestructuur.

Tip's

  • Schrijf robots.txt in kleine letters, sommige webservers zijn hoofdlettergevoelig en zullen anders een "404 - Pagina niet gevonden" teruggeven.
  • Valideren is nooit verkeerd. Ook je robots.txt kun je dus beter laten valideren. Hiervoor kun je onder andere de google webmaster tools gebruiken.
  • Gebruik robots.txt om een bepaald bestandstype, die je niet in zoekmachines wilt zien verschijnen, uit te sluiten. Dit doe je met "Disallow: /*.exe$".

Ook succesvol adverteren met Google AdWords?
Bekijk onze cursus Google AdWords, onze Google AdWords dienst of vul ons formulier in


Adverteer jij al via Google AdWords? Vraag dan onze gratis Google AdWords Quickscan aan!

  1. Door het gebruik van de reguliere expressie /*? zul je ook bijvoorbeeld zoekresultaatpagina's en wellicht andere pagina's welke variabelen gebruiken afschermen voor google.
    Een wordpress zoekresultaatpagina gebruikt bijvoorbeeld ?s=.
    Het is wellicht handiger gebruik te maken van caonical url's en 301 redirects (voor beiden zijn diverse plugins) om duplicate content te voorkomen.

  2. Een eenvoudige en heldere uitleg over een belangrijke file in je website. Een keer goed neerzetten is echter voldoende. Duplicate content en sitemaps zijn eigenlijk off-topic hier en hiervoor zijn verschillende mogelijkheden.

Reageren

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *