Zo voorkom je dat jouw staging of development website wordt geïndexeerd door Google

door | 30 juli 2018 | Zoekmachine Optimalisatie

Afgelopen week werd ik weer eens geconfronteerd met een klant wiens staging website werd geïndexeerd door Google. Dit is om verschillende redenen niet wenselijk. Het is daarom belangrijk dat je ervoor zorgt dat je staging of development website netjes uit de index van Google blijft.

In het onderstaande artikel ga ik uitleggen hoe je hiervoor kunt zorgen en welke methodes jij (of je webbouwer) hiervoor kunt gebruiken.

Wat is een staging of development website?

Een staging of development website (of server) is een omgeving waarop jouw website wordt ontwikkeld door je webbouwer. Als het goed is wordt een nieuwe website of aanpassingen aan je bestaande website niet op het bestaande domein ontwikkeld.

Hiervoor wordt vaak een staging server gebruikt, op een andere domeinnaam of subdomein. Dit zou in ons geval bijvoorbeeld staging.kgom.nl kunnen zijn.

Op deze manier kan de webbouwer de ontwikkelingen doorvoeren en kan deze door de klant (jij dus) bekeken en getest worden. Zodra de ontwikkelingen zijn “goedgekeurd” zal de webbouwer de staging omgeving overzetten naar de live omgeving.

Waarom mag een staging/development omgeving niet worden geïndexeerd?

Deze testomgeving wil je liever niet in Google hebben. Allereerst heb je hierdoor namelijk kans dat als de website straks live komt te staan dat je te maken krijgt met duplicate content. Hierdoor loop je het risico dat Google straks niet meer weet wat de juiste pagina is, met slechtere posities tot mogelijk gevolg.

Daarnaast wil je ook niet dat Google de staging omgeving gaat crawlen omdat dit ten kostte gaat van je crawlbudget (indien op hetzelfde domein). Zeker bij grotere websites / webwinkels is hier een groter risico.

Tenslotte wil je niet dat je staging omgeving zichtbaar is voor het grote publiek. Want als Google hem kan vinden dan kunnen anderen dat ook. Je wil bijvoorbeeld niet dat concurrenten zien waar je mee bezig bent of potentiële klanten afschrikken met een testomgeving die misschien nog niet helemaal werkt zoals het hoort.

Hoe test ik of mijn staging omgeving wordt geïndexeerd door Google?

Gelukkig is het erg eenvoudig om te controleren of je staging omgeving wordt geïndexeerd door Google. Dit doe je door de volgende zoekopdracht in Google in te typen:

  • site:staging.domeinnaam.nl

Uiteraard vul je hier dan het adres in van jouw staging omgeving. Wanneer je hier resultaten ziet terugkomen dan weet je dus dat deze wordt geïndexeerd door Google. Het is raadzaam om dan verder te lezen óf dit artikel door te sturen naar je webbouwer!

Welke methodes kun je gebruiken om een staging omgeving uit de index van Google te houden?

Er zijn verschillende oplossingen mogelijk, maar niet elke oplossing is even bruikbaar. Hieronder geef ik aan wat de beste methodes zijn.

#1: HTTP Basic Authentication

Dit is de beste manier om te voorkomen dat Google en anderen de website niet kunnen crawlen of indexeren. Door deze methode te gebruiken word je als bezoekers (http client) verplicht om een gebruikersnaam en wachtwoord op te geven alvorens de content wordt vrijgegeven door de server.

#2: IP whitelisten

Een andere goede manier is om alleen ip-adressen toe te staan die je van te voren heb goedgekeurd (whitelist). Zo zou bijvoorbeeld alleen het ip-adres van de webbouwer en de klant kunnen worden toegevoegd. Iemand met een ander ip-adres wordt door de server dan simpelweg niet toegelaten.

Het is ook mogelijk om de eerste twee methodes te combineren voor extra zekerheid.

Welke methodes (liever) niet gebruiken?

Zoals je hierboven hebt gelezen zijn er eigenlijk slechts twee methodes die 100% gegarandeerd werken en het maximale effect hebben. Hiermee bedoel ik dat:

  1. De pagina’s niet in Google komen
  2. Er geen crawlbudget verloren gaat
  3. Concurrenten niet kunnen zien waar je mee bezig bent

Hieronder vind je een aantal methodes die slechts één of twee van de bovenstaande problemen oplost en dus niet alle drie.

#1: Niet aangeraden: noindex in robots.txt

Dit is ongetwijfeld één van de meest gebruikte methodes. Over het algemeen werkt deze oplossing voor het uit de index blijven van Google. Echter het probleem is dat je gebruikers ook duidelijk vertelt waar ze niet mogen zoeken. Hierdoor is je staging omgeving nog steeds niet afgeschermd van je concurrenten.

#2: Niet aangeraden: noindex tags op pagina’s

Een andere veelvoorkomende manier is het gebruik van noindex tags op de pagina’s zelf door de robots meta tag te gebruiken of een X-Robots-Tag.

Deze manier zal er over het algemeen wel voor zorgen dat de pagina’s niet in Google zullen belanden, maar Google zal deze pagina’s wel gaan crawlen. Dit zal uiteindelijk dat ook weer van invloed zijn op je crawlbudget.

#3: Niet aangeraden: Canonical tag

De canonical tag kan ook toegevoegd worden aan de staging omgeving die dan uiteindelijk verwijst naar de juiste pagina. Over het algemeen werkt dit goed om de betreffende pagina’s uit Google te houden.

Echter zit je hier ook weer met het probleem van het crawlbudget, want uiteindelijk verplicht je Google wel om de pagina’s helemaal te crawlen.

#4: Niet doen: disallow in robots.txt

Tenslotte is er nog een veelgebruikte methode die ik sterk afraad. En dat is het gebruik van disallow:all in het robots.txt bestand.

Want hiermee voorkom je inderdaad dat Google de pagina gaat crawlen. Echter je voorkomt hiermee niet dat de pagina wordt geïndexeerd! Wanneer Google de pagina namelijk ook via een andere url vindt (interne links, externe links, etc.) zal hij deze toch indexeren.

Je herkent dit probleem wanneer je bij een zoekresultaat in Google het volgende ziet staan:

Dit betekent dus dat deze specifieke pagina is afgeschermd in robots.txt middels een disallow, maar dat Google wel op een andere manier deze pagina heeft gevonden.

Live zetten van de website? Extra opletten!

Welke methode je ook uiteindelijk kiest, zorg ervoor dat de betreffende methode tijdens de livegang niet averechts zal gaan werken.

Wanneer je bijvoorbeeld hebt gekozen om een noindex tag aan de pagina of robots.txt toe te voegen zorg er dan voor dat deze verwijderd is alvorens je live gaat! Dit is namelijk iets wat al snel over het hoofd kan worden gezien door de webbouwer.

Check, of wijs je webbouwer er op, dat de “live” website straks wél goed geïndexeerd kan worden!

Verantwoordelijkheid van de webbouwer & wat als het fout gaat?

Hoewel je dit artikel misschien leest als “klant” en niet als webbouwer en je dit zelf kunt controleren zijn wij van mening dat deze verantwoordelijkheid uiteindelijk bij de webbouwer hoort te liggen.

In veel gevallen gaat het overigens wel goed. Maar uit onwetendheid of onoplettendheid kan het wel eens voorkomen dat een staging omgeving toch wordt geïndexeerd.

In dit geval is het belangrijk om de staging omgeving weer uit de Google index te krijgen. Ons advies is om allereerst één van de bovenstaande methodes toe te passen en daarna via de Google Search Console de betreffende url’s te laten verwijderen door Google.

Conclusie

Zorg er dus voor dat je checkt of jouw staging omgeving in Google staat. We zien namelijk tijdens de audit-fase van ons KGOM-succesmodel dat dit regelmatig fout gaat en er hierdoor problemen ontstaan die vaak veel tijd (en dus geld) kosten om weer op te lossen!

Nader kennismaken?

Wil je graag meer informatie over onze dienstverlening en weten wat wij voor jouw showroom kunnen betekenen? Vul dan het contactformulier in en we nemen binnen één werkdag contact met je op. Bellen mag uiteraard ook: 085 208 21 00.

7 + 5 =

Klantervaringen

“De grootste klik met KGOM is de passie waarmee zij werken”

Hellen Eekhof – Flagstone Company