Google Webmasterhulpprogramma's voor Dummies: 3. Siteconfiguratie - Crawlertoegang

3 november, 2011

In het vorige artikel in deze reeks (2. Siteconfiguratie - sitemaps) hebben we ervoor gezorgd dat we een sitemap hebben gemaakt en deze hebben aangemeld bij Google.
In de artikel gaan we ervoor zorgen dat Google (en andere zoekmachines) onze website ook daadwerkelijk kunnen "doorlopen", ook wel crawlen genoemd. Tevens leren we in dit artikel ook hoe je bepaalde mappen of bestanden kunt uitsluiten van Google.

Siteconfiguratie - Crawlertoegang

Het tweede onderdeel wat we tegengekomen in de siteconfiguratie is "crawlertoegang". Dit onderdeel geeft ons dus de mogelijkheid om de zoekrobot (crawler) instructies te geven.

Wat is een crawler?

Voordat je ├╝berhaupt in Google kan komen (in de zoekresultaten) zal Google eerst moeten weten welke pagina's je website heeft. Tevens zal Google de inhoud van je pagina's moeten doorlopen om later te kunnen bepalen voor welke zoekopdrachten jouw pagina interessant is.
Dit gebeurt met de zogenaamde Googlebot, ook wel crawler genoemd. Dit is overigens niets meer dan een robot die alle pagina's van het web afstruint en de informatie opslaat in een grote database.
Nu moeten we er alleen voor zorgen dat we de Googlebot toegang geven tot onze website, en eventueel mappen of bestanden die we niet in Google willen hebben uitsluiten. Dit doen we door het uploaden van een bestand naar onze website genaamd: robots.txt. In de bestand vertellen we de Googlebot wat hij wel en niet mag doorzoeken en indexeren.

Stap 1: Ga naar het tabje robots.txt genereren

Wanneer je in het menu crawlertoegang hebt gekozen kun je in het horizontale menu "robots.txt genereren" kiezen:

Stap 2: Kies een standaardtype

Bij de eerste optie hebben we twee keuzes:

  1. Alles toestaan
  2. Alles blokkeren

Voor 99% van de webmasters geldt dat hier voor de eerste optie moet worden gekozen. Kies dus voor optie 1:

Stap 3: Geef aanvullende regels op

In deze stap kunnen we bepaalde mappen of bestanden uitsluiten. Stel dat we bijvoorbeeld bij elke pagina op onze website een optie hebben om deze te printen. Meestal worden daar ook echte "printvriendelijke" pagina's van gemaakt. Oftwel, een compleet andere URL maar met dezelfde inhoud.
Een goed voorbeeld hiervan is Kieskeurig.nl. Op elke productpagina heb je hier de mogelijkheid om deze te printen:

Wanneer je daar op het printicoontje klikt wordt deze URL vertoond:
http://www.kieskeurig.nl/print/Panasonic/HDC-SD900/1F69D6CB8FAA417AB7754B715E2F6273.html?placeValuesBeforeTB_=savedValues&TB_iframe=true&height=300&width=490&modal=true
Wanneer we goed kijken zien we dat we plotseling in de map "print" terecht zijn gekomen (direct na de domeinnaam: www.kieskeurig.nl/print/...)
Aangezien we deze pagina's niet in Google willen hebben (kans op duplicate content en verspilling van de bandbreedte van de Googlebot) gaan we deze uitsluiten met ons robots.txt bestand.
In de onderstaande afbeelding zie je hoe we dit hebben gedaan:

Tenslotte klikken we nog op "Regel toevoegen" en ons robots.txt bestand ziet er dan als volgt uit:

Stap 4: Robots.txt bestand uploaden naar onze website

Wanneer je op deze manier alle bestanden en mappen die je niet in Google wil hebt opgegeven kun je het bestand downloaden.
Het bestand sla je dan op en moet je uploaden naar de hoofddirectory van je website. Voor deze website betekent dat: www.karelgeenen.nl/robots.txt.

Opmerkingen

Allereerst is het belangrijk om te weten dat Google altijd eerst op zoek gaat naar een robots.txt bestand. Advies is dus ook om altijd een dergelijke bestand op je website te plaatsen.
Om er zeker van te zijn dat Google, en andere zoekmachines, je hele website kunnen doorzoeken moet er het volgende in je robots.txt bestand staan:

Dus User-agent allemaal (een sterretje) en Allow alles (een slash).
Verder is het ook belangrijk om te beseffen dat dit bestand ook "gevaarlijk" kan zijn indien niet goed toegepast. Wees er daarom voorzichtig mee. Wanneer je de bovenstaande instructies gebruikt kan er echter weinig mislopen. Twijfel je? Vraag dan aan je webbouwer of webbureau of dat het in orde is!

Ook succesvol adverteren met Google AdWords?
Bekijk onze cursus Google AdWords, onze Google AdWords dienst of vul ons formulier in


Adverteer jij al via Google AdWords? Vraag dan onze gratis Google AdWords Quickscan aan!

  1. Bedankt Karel voor de duidelijke uitleg. Ik doe vrij weinig met webmastertools, maar als ik jouw artikelen hierover lees wordt het tijd om hier ook tijd in te steken! Ik kijk uit naar het volgende artikel... Gr, Marcel

Reageren

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *