Duplicate content: problemen voorkomen en oplossen

Wat is duplicate content? Wanneer je website verschillende pagina's heeft met dezelfde inhoud (of wanneer een andere website informatie van jouw site heeft gekopieerd), spreken we van duplicate content. De Nederlandse vertaling is dubbele inhoud. Duplicate content is zeer ongunstig voor zoekmachine optimalisatie, omdat je pagina's hierdoor minder waarde krijgen. Voor Google heeft namelijk slechts een van de twee ‘dezelfde' pagina's waarde. Google kan dit op verschillende manieren meten.

Duplicate content en SEO: het is nooit een gelukkige combinatie geweest. Sinds Googles Panda-update in 2011 en de Pinguïn-updates in 2012 en 2013 zijn de gevolgen van duplicate content echter groter geworden.

Waren het voorheen vooral de rankings van de pagina's met duplicate content die aangetast konden worden, na Panda/Pinguïn kunnen de rankings van je gehele site in gevaar komen.

Een goed moment om duplicate content nog eens uitgebreid onder de loep te nemen.

Wat is duplicate content?

Er is sprake van duplicate content wanneer twee of meer pagina's dezelfde of nagenoeg dezelfde inhoud hebben.

Zoekmachines laten helaas geen exacte percentages los, maar de schatting is dat pagina's die voor meer dan 70% gelijk zijn, beschouwd worden als duplicate content.

Hierbij telt overigens alleen de tekst van de pagina: codering is niet van belang.

Als je dus twee websites hebt met een identieke vormgeving (hetzelfde template, menustructuur enz.) maar met verschillende tekst, hoef je je nergens druk om te maken.

Als het gaat om duplicate content, moet je verder in gedachten houden dat een “pagina” niet simpelweg een bestand of document is dat op de webserver staat.

Een zoekmachine beschouwt elke unieke URL namelijk als een afzonderlijke pagina.

Verwijzen twee verschillende URL's naar exact dezelfde content (iets wat op een website al snel kan gebeuren), dan ziet Googlebot ze dus als twee aparte pagina's met duplicate content.

Voorbeelden van duplicate content

Duplicate content kan voorkomen op één en hetzelfde domein of op twee (of meer) domeinen.

Hetzelfde domein

Duplicate content is een veelvoorkomend probleem op websites. Ten eerste is een domein ”“ als je hier geen actie tegen onderneemt ”“ altijd toegankelijk via twee verschillende URL's: de http- en de www-versie.

Voor sites met een beveiligde omgeving komt daar nog een derde bij: https. Googlebot ziet al die URL's die naar dezelfde content verwijzen als afzonderlijke pagina's, waardoor sprake is van duplicate content.

Andere veelvoorkomende problemen (vooral bij dynamische websites op basis van een CMS, zoals WordPress of Joomla) zijn meerdere URL's voor de homepage en pdf- of printversies van een pagina met een afzonderlijke URL.

Op een site kan duplicate content er dus bijvoorbeeld in de praktijk zo uit zien:

  • http://mijnsite.nl
  • www.mijnsite.nl
  • http://mijnsite.nl/index.html
  • www.mijnsite.nl/artikel
  • www.mijnsite.nl/artikel.pdf
  • www.mijnsite.nl/print/artikel

Verschillende domeinen

Duplicate content op verschillende domeinen kan bijvoorbeeld ontstaan wanneer de auteur zijn artikel aan meerdere sites aanbiedt.

Soms worden artikelen ook zonder toestemming van de auteur op andere sites geplaatst, wat een schending van auteursrecht oplevert.

Een ander geval van duplicate content op verschillende domeinen dat vaak voorkomt, is wanneer affiliate sites alle productomschrijvingen automatisch één op één overnemen van de leverancier.

Gevolgen van duplicate content

Voordat we toekomen aan hoe je duplicate content opspoort en wat je ertegen kunt doen, kijken we eerst maar eens naar de meest prangende vraag: wat zijn de gevolgen en hoe erg is duplicate content nu eigenlijk?

Google negeert duplicate content

Google wil gebruikers altijd de meest relevante zoekresultaten voorschotelen. Een gebruiker zit er uiteraard niet op te wachten dat dezelfde content meerdere keren in de zoekresultaten voorkomt.

Dus als Google duplicate content tegenkomt, wordt slechts één pagina in de zoekresultaten opgenomen. In de zoekresultaten zie je dan de volgende mededeling:

Zoekresultaten-duplicate-content

Voor wat betreft duplicate content die op je eigen domein staat, is dit op zichzelf beschouwd niet zo erg. Zolang Google maar jouw voorkeurs-URL kiest om weer te geven natuurlijk.

Iets wat helaas niet altijd het geval is.

Duplicate content op twee verschillende domeinen kan ook wel eens problemen opleveren. Soms slaagt Google er namelijk niet in om vast te stellen wat nu het originele artikel is, zodat de site van de oorspronkelijke auteur achter het net vist en alleen de site die het artikel heeft overgenomen wordt weergegeven in de zoekresultaten.

Als Google het bij het juiste eind heeft en het origineel laat zien, plukt de site die het artikel overneemt daar geen SEO-vruchten van. Als de overnemende site gewoon waardevolle content aan haar gebruikers aan wil bieden, is dit geen probleem. Als de overnemende site echter niets anders doet dan content plaatsen die ook al op andere websites staat, zijn de gevolgen (zoals we hieronder zullen zien) wel vervelend.

Verlies van linkjuice en rankings

Via links stroomt waarde door naar een pagina waarnaar wordt gelinkt. Deze waarde wordt linkjuice genoemd en hoe meer waarde een pagina krijgt hoe hoger hij rankt in Google.

Stel nu dat je duplicate content op je site hebt staan in de vorm van een artikel, dat toegankelijk is via twee URL's: www.mijnsite.nl/artikel en www.mijnsite.nl/artikel.pdf.

Er linken 5 websites naar de eerste URL en 5 websites naar de tweede URL. Het gevolg hiervan is dat de linkjuice verdeeld wordt over twee verschillende URL's in plaats van dat alle waarde naar één URL/pagina vloeit.

De rankings van je artikel in Google zijn nu lager dan wanneer alle 10 de links naar dezelfde URL hadden verwezen.

Minder crawltijd voor je site

Als Googlebot op je site aanlandt, gaat hij aan de gang met het crawlen van al je pagina's. Als hij heel veel URL's/pagina's met dezelfde inhoud tegenkomt, houdt Googlebot het al snel voor gezien.

Een site met veel duplicate content is nu eenmaal niet interessant. Als Googlebot minder tijd besteedt aan het crawlen van je site, loop je het risico dat belangrijke pagina's op je site niet meer worden gecrawld en dus ook niet zichtbaar zijn in de zoekresultaten.

Minder pagina's worden geïndexeerd

Aan de hand van de PageRank/autoriteit van je site, stelt Google een limiet vast van hoeveel pagina's maximaal geïndexeerd worden.

Als er inmiddels al honderden pagina's met duplicate content van je site in de index van Google staan, loop je het risico dat de limiet is bereikt en dat andere belangrijke pagina's van je site niet in de index worden opgenomen.

Een penalty voor de hele site

In sommige gevallen kan duplicate content leiden tot een penalty voor de gehele site. Google zegt hier het volgende over op zijn support pagina's:

“In de zeldzame gevallen waarin Google merkt dat dubbele inhoud wordt weergegeven met de bedoeling onze rangschikking te manipuleren en onze gebruikers te misleiden, zullen we ook de juiste aanpassingen aanbrengen in de indexering en rangschikking van de betreffende sites. Dit kan een nadelig effect hebben op de positie van de site of de site kan worden verwijderd uit de index van Google en daardoor niet meer in zoekresultaten worden weergegeven.”

Een behoorlijke zware straf.

Gelukkig deelt Google een dergelijke “site-wide penalty” niet zomaar uit: daarvoor moet een site het wel behoorlijk bont maken met duplicate content.

De grootste verliezers van de Panda- en Pinguïn-updates waren sites die grotendeels uit matige en duplicate content bestonden. Dergelijke sites hebben weinig tot geen toegevoegde waarde voor gebruikers en worden dan ook uit de zoekresultaten geweerd.

Is duplicate content altijd slecht?

Als rankings in zoekmachines je lief zijn, is duplicate content een belangrijk aandachtspunt.

Op eigen domein is duplicate content eigenlijk nooit goed en moet je het zoveel mogelijk zien te vermijden.

Google kan ervoor kiezen een andere dan jouw voorkeurs-URL te tonen in de zoekresultaten, je verspreidt in veel gevallen onnodig linkjuice en het kan gebeuren dat minder pagina's op je site worden gecrawld en geïndexeerd.

Duplicate content op twee of meer verschillende domeinen kun je in de meeste gevallen ook maar het best vermijden.

In één geval is het echter niet erg en kan het je zelfs voordeel opleveren. Als je een artikel schrijft, dit op je eigen site plaatst en vervolgens aanbiedt aan een andere site, is er niet zoveel aan de hand als Google het artikel op jouw site als origineel aanmerkt en laat zien in de zoekresultaten.

Met het artikel op de andere site vergroot je dan niet alleen je lezersgroep, maar verdien je ook meteen een mooie link naar je site. Duplicate content kan soms dus ook wel eens positief uitpakken!

Hoe spoor je duplicate content op?

Duplicate content kun je op de volgende manieren opsporen:

Google Webmaster Tools

Ga in Google Webmaster Tools (GWT) naar Uiterlijk van Site Search > HTML-verbeteringen. Hier kun je zien of Google dubbele meta descriptions en/of title tags is tegengekomen op je site, wat zou kunnen duiden op duplicate content op je domein.

Google

Als je wilt checken of er kopieën van je artikel elders op het web staan, kun je een stuk tekst uit je artikel kopiëren en tussen dubbele aanhalingstekens invoeren in Google.

Door dubbele aanhalingstekens te gebruiken zoekt Google naar plaatsen waar dat gehele blokje tekst in dezelfde volgorde op internet voorkomt.

Ben je op zoek naar duplicate content op je eigen domein, gebruik dan het “site:” commando. Dit commando kun je in combinatie met andere zoekcommando's gebruiken.

Vermoed je bijvoorbeeld dat er meerdere kopieën van je homepage op je eigen domein voorkomen, zoek dan in Google op “site:mijnsite.nl intitle:”de titel van mijn homepage””.

Copyscape

Een handige manier om te controleren of jouw artikel zonder toestemming door een andere site is overgenomen is Copyscape. Voer eenvoudigweg de URL van de pagina die je wilt controleren in en Copyscape speurt het web af naar mogelijke duplicaten van je artikel.

Oplossingen voor duplicate content

Als je duplicate content tegen bent gekomen, is het zaak om het weer op te lossen. Hieronder lees je verschillende manieren waarop je dit kunt doen.

Kies de oplossing die voor jou het makkelijkst is en doe geen dingen dubbelop. Kies je bijvoorbeeld voor een 301-redirect, dan hoef je niet ook nog eens een canonical tag toe te passen.

1. Duplicate content verwijderen: 404

De eenvoudigste manier om met duplicate content om te gaan, is om het simpelweg te verwijderen. De verwijderde URL geeft dan een 404-code (pagina niet gevonden).

Heeft de oude pagina inkomende links en bezoekersverkeer? Kies dan voor een 301-redirect.

2. Een 301-redirect

Met een 301-redirect geef je aan dat de pagina permanent verplaatst is naar een andere locatie. Een gebruiker die de duplicaat-URL invoert in zijn browser, wordt dan automatisch doorgeleid naar de juiste URL.

Het voordeel van een 301-redirect is dat de linkjuice van de duplicaatpagina doorvloeit naar het origineel.

Gebruikers die de oude URL in hun favorieten hebben opgeslagen, worden vanzelf doorgeleid naar de nieuwe URL en krijgen geen 404-foutmelding.

Gebruik altijd een 301-redirect (permanent verplaatst) en geen 302-redirect (tijdelijk verplaatst). Een 302-redirect laat namelijk geen linkjuice doorvloeien.

3. Redirecten van http naar www

Om ervoor te zorgen dat alle pagina's op je site toegankelijk zijn via één type URL, moet je een 301-redirect aanleggen van http naar www (of andersom). Als je website gehost wordt op een Apache server, kun je de 301-redirect maken door je .htaccess-bestand aan te passen.

Draait je site op een Microsoft IIS-server, dan maak je de nodige aanpassingen met behulp van de Internet Services Manager. Ga je hier liever niet zelf mee aan de slag, vraag dan je hostingprovider om de redirect voor je door te voeren.

Stel vervolgens ook in Google Webmaster Tools je voorkeursdomein in. Klik hiervoor in GWT op het tandwielpictogram en klik op Site-instellingen. Stel je hier bijvoorbeeld de www-versie als je voorkeursdomein in, dan beschouwt Google alle links die hij tegenkomt naar de http-versie van je site als een link naar de www-versie.

4. De canonical tag

Met gebruik van de canonical tag kun je Google laten weten wat je voorkeurs-URL is (ook wel canonieke URL genoemd).

Gebruik je zo'n canonical tag, dan geef je de linkjuice door net als bij een 301-redirect. Je kunt zoekmachines op de hoogte brengen van de canonieke pagina door een canonical tag toe te voegen aan het <head>-gedeelte van de niet-canonieke versie van de pagina.

Is je homepage bijvoorbeeld toegankelijk via de niet-canonieke URL http://www.mijnsite.nl/index.html, dan voeg je onderstaande code aan het-gedeelte van die pagina toe om Google te laten weten dat http://www.mijnsite.nl je voorkeurs-URL is:

Rel-canonical

5. Robots.txt en meta robots

Met een robots.txt-bestand in je root directory kun je zoekmachines laten weten welke pagina's of folders ze wel en niet mogen crawlen. Als je duplicate content op een pagina en in een bepaalde folder hebt staan, blokkeer je die pagina en folder voor Googlebot door ze als volgt op te nemen in je robots.txt:

robots-txt

Je kunt dit ook op paginaniveau doen door een meta robots tag toe te voegen aan het-gedeelte van de pagina.

Je kunt kiezen voor een noindex, follow of noindex, nofollow. In beide gevallen wordt de pagina niet geïndexeerd, maar bij een follow-commando volgt de zoekmachine wel alle links die op de pagina staan in tegenstelling tot het nofollow-commando.

meta-robots

Google raadt overigens het gebruik van robots.txt af en adviseert liever een andere oplossing te gebruiken. Als Googlebot de geblokkeerde pagina's met duplicate content niet kan crawlen, kan hij namelijk niet vaststellen dat die URL's naar duplicate content verwijzen en beschouwt hij de geblokkeerde URL's als unieke en afzonderlijke pagina's.

6. URL verwijderen in Google Webmaster Tools

Om een URL handmatig uit de index van Google te laten verwijderen, ga je in GWT naar Google-index > URL's verwijderen.

Voordat je een verzoek tot verwijdering aanvraagt, moet je eerst de pagina verwijderen zodat ze een 404-code geeft en/of de pagina blokkeren met robots.txt of een robots noindex metatag.

7. URL-parameters blokkeren in Google Webmaster Tools

In GWT kun je bepaalde URL-parameters instellen, zodat Google alle URL's die die parameters bevatten negeert en niet in de index opneemt.

Dit kan bijvoorbeeld handig zijn als je site URL's met sessie-id's gebruikt, die allemaal naar dezelfde content verwijzen. Om dit in te stellen ga je in GWT naar Crawlen > URL-parameters.

8. Plagiaat aanpakken

Heeft een andere site content van jouw site zonder toestemming overgenomen? Neem dan contact op met de host of webmaster van die site en verzoek om verwijdering van de content. Als dit niet helpt, kun je bij Google een verwijderingsverzoek indienen.

Schrijf unieke en waardevolle content

In het post-Panda en post-Pinguïn SEO-landschap is het belangrijker dan ooit om unieke en waardevolle content te schrijven. Google slaagt er steeds beter in om de wensen van gebruikers te vertalen in zijn zoekresultaten.

Gebruikers zijn voornamelijk geïnteresseerd in unieke, waardevolle informatie die hen helpt vragen te beantwoorden en problemen op te lossen. Schrijf dus content waar mensen echt wat aan hebben en kopieer niet zomaar stukken uit andere artikelen.

Ga slim te werk bij on-page optimalisatie

De eerste stap in het SEO-werk voor je website is het doen van een uitgebreid zoekwoordonderzoek.

Aan de hand van je gevonden zoekwoorden ga je vervolgens aan de slag met on-page optimalisatie door het schrijven van gerichte SEO-teksten. Google is nog niet in staat om de betekenis van zoekwoorden echt te begrijpen.

Wat je dus vaak ziet, is dat websites voor allerlei variaties op zoekwoorden aparte pagina's aanmaken om op al die variaties te kunnen ranken.

Een website die autoverzekeringen verkoopt, maakt dan bijvoorbeeld verschillende pagina's aan voor de zoekwoorden “goedkope autoverzekering”, “goedkope automobielverzekering”, “voordelige autoverzekering”, “voordelige automobielverzekering” enz.

Google wil niet dat je extra pagina's, subdomeinen of domeinen met vrijwel identieke inhoud maakt. Zorg er dan ook voor dat je zoveel mogelijk van die zoekwoordvariaties verwerkt op één pagina. Dit is goed mogelijk voor zoekwoorden waar niet al te veel concurrentie op zit en die dezelfde zoekintentie van gebruikers hebben.

Zit er veel concurrentie op de zoekwoorden en/of is de zoekintentie niet helemaal hetzelfde? Maak dan aparte pagina's aan, maar zorg dat je unieke content schrijft voor elk van die pagina's.

Het kost je natuurlijk meer tijd en geld, maar als je dezelfde tekst elke keer kopieert en alleen de zoekwoorden verandert, worden de pagina's als duplicate content aangemerkt en zijn ze toch niet zichtbaar in de zoekresultaten.

Als je heel veel van dit soort pagina's met vrijwel dezelfde inhoud op je site aanmaakt, loop je bovendien het risico op een site-wide penalty.

Zorg dat je interne links op orde zijn

Veel webmasters die duplicate content op hun domein hebben aangepakt met behulp van 301-redirects en canonical tags, vergeten nogal eens de interne links op de site na te lopen en aan te passen. Als veel interne links nog steeds naar de niet-canonieke pagina's verwijzen, geeft dit verwarrende signalen af aan Googlebot. Zorg er dus altijd voor dat al je interne links naar canonieke pagina's verwijzen.

Tips voor affiliate websites

Het is een bekend probleem voor veel affiliate websites: hoe rank je in Google?

De meeste affiliate sites nemen alle productomschrijvingen en promotieteksten rechtstreeks over van de leverancier. Google ziet dit als duplicate content en toont alleen de content van de leverancier, waardoor de affiliates nauwelijks zichtbaar zijn in Google.

De manier om dit op te lossen is om unieke content te schrijven voor alle producten die je aanbiedt. Bij grote websites betekent dit een behoorlijke investering. Maar als je als affiliate geld wilt verdienen aan verkopen en leads, zul je meestal toch door de zure appel heen moeten bijten.

Een andere, gratis manier om unieke content toe te voegen aan je productomschrijvingen, is om gebruikers tekst te laten toe voegen door “user generated reviews”.

Als je gebruikers recensies en ervaringen achter kunnen laten op je site, wordt meteen unieke content aan de pagina toegevoegd waardoor je op termijn weer zichtbaar wordt in Google.

Content aanbieden aan andere sites

Heb je een artikel geschreven en wil je dit voor plaatsing aan een andere site aanbieden? Zorg er dan voor dat de site die het artikel plaatst een link terug opneemt naar het oorspronkelijke artikel. Op die manier is Google in de meeste gevallen in staat om vast te stellen dat het artikel op jouw site het origineel is, zodat jouw site ook wordt weergegeven in de zoekresultaten.

Wil je er absoluut zeker van zijn dat Google het artikel op jouw site ziet als origineel? Dan kun je:

1. Het artikel pas aanbieden wanneer Google het artikel op jouw site al heeft geïndexeerd;

2. Verzoeken dat de overnemende site een canonical tag aan de pagina toevoegt met verwijzing naar jouw site;

en/of

3. Verzoeken dat de overnemende site een robots noindex-metatag op de pagina zet.

Video over duplicate content

In de bovenstaande video vertel ik je alles over duplicate content, oftewel dubbele inhoud. Liever de tekst lezen? Ook dat is mogelijk!

Wij krijgen vaak nog vragen waaruit blijkt dat mensen bang zijn voor duplicate content en de negatieve gevolgen daarvan. Wat vooral belangrijk is om te weten: wanneer je niet bewust content van andere websites 1 op 1 overneemt op jouw website, of een website gaat scrapen (via een RSS-feed content binnenhalen en bij jou op de site plaatsen), dan is er niets aan de hand als het gaat om penalties vanuit Google.

Twee pagina’s met bijna dezelfde zoekwoorden?

Als het gaat om duplicate content binnen jouw website, moet je wél met een aantal zaken rekening houden. Stel, je hebt twee zoekwoorden gevonden die elk goed scoren. Het ene zoekwoord is ‘online webcam kopen’ en het andere zoekwoord is ‘webcam online kopen’. Omdat je zoveel mogelijk relevante bezoekers naar je website wil trekken, ben je misschien geneigd om voor beide zoekwoorden een aparte pagina aan te maken en te vullen. Dit is echter geen slim idee! Als je zoekwoorden gebruikt die dezelfde betekenis hebben en waar dezelfde zoekintentie achter zit, is het beter om die pagina’s samen te voegen.

Google wordt steeds beter in het herkennen van die zoekintentie. Als je twee pagina’s schrijft over bijna identieke zoekwoorden, verwar je de zoekmachines alleen maar. Welke pagina moet getoond worden, en waar moet de waarde eigenlijk naartoe? Kortom, je maakt het jezelf niet gemakkelijk.

Printversie aanbieden is duplicate content (of kan dat zijn)

Wat ik vaak zie, is dat mensen een printversie aanbieden van de content op hun website. Als je daarop klikt, krijg je dus alleen de tekst te zien (zonder afbeeldingen en dergelijke). Het aanbieden van zo’n printpagina is wel degelijk duplicate content, vooral als je die apart laat indexeren door de zoekmachines. Je zult er misschien niet voor gestraft worden, maar het blijft iets wat je niet wilt.

Het is daarom verstandig om die printpagina op noindex te zetten, zodat deze niet geïndexeerd wordt. Een andere oplossing is, hoewel deze niet echt past bij dit voorbeeld, het gebruiken van de canonical. Als je twee bijna identieke pagina’s hebt, gebruik je de canonical om aan te geven ‘dit is de échte pagina, waar alle waarde naartoe moet en die getoond moet worden’.

Wat je als laatste nog zou kunnen doen als je twee identieke pagina’s hebt die eigenlijk geen aparte functies vervullen, is een 301-redirect instellen. Dan maak je pagina A min of meer onzichtbaar, omdat de bezoekers worden doorgestuurd naar pagina B.

Conclusie: maak je geen zorgen!

Mijn conclusie is dus eigenlijk dat je je niet zoveel zorgen hoeft te maken om duplicate content. Je wordt hier niet zomaar voor gestraft, tenzij je moedwillig content overneemt en op jouw website plaatst. Zorg er gewoon voor dat je unieke content hebt, en maak geen aparte pagina’s gebaseerd op zoekwoorden die eigenlijk hetzelfde betekenen (dezelfde zoekintentie).

Terug naar top