Hoe je A/B-tests stopzet zonder verkeerde conclusies te trekken



Als ondernemer zie ik dat A/B-tests regelmatig te vroeg worden stopgezet of juist te lang doorlopen. En bijna altijd is dat niet omdat iemand onzorgvuldig wil zijn, maar omdat er druk is. Budgetdruk, tijdsdruk, commerciële druk. De verleiding is groot om snel te willen weten wat werkt. Maar juist dat snelle oordeel maakt de kans op verkeerde conclusies groter dan veel ondernemers zich realiseren.
Waarom A/B-testen vaak verkeerd worden beëindigd
Als ik met klanten spreek over A/B-testen, merk ik dat het vaak draait om één vraag: “Is variant A beter dan B?” Maar die vraag is te kort door de bocht als je niet eerst snapt wat de randvoorwaarden zijn om die vraag überhaupt goed te kunnen beantwoorden. Een test is geen eenvoudige wedstrijd die je kunt stoppen zodra één variant voorloopt. Er speelt meer, onder andere:
- De steekproefgrootte is op dat moment vaak nog onvoldoende.
- De statistische significantie wordt verkeerd begrepen.
- Seizoensinvloeden of campagne-effecten worden niet meegenomen in de interpretatie.
- De meetperiode is soms te kort om structureel gedrag te meten.
Als je dan een test stopt op basis van een vroege voorsprong van de ene variant, is dat niet per se fout, maar wel risicovol. Je weet simpelweg nog niet of het resultaat houdbaar is.
Wat je nodig hebt voor een betrouwbare beslissing
Om een test op het juiste moment te stoppen, moet er voldaan zijn aan een aantal basisprincipes. Die zijn niet ingewikkeld, maar vereisen wel discipline:
- Vooraf gedefinieerde succescriteria: je moet vooraf helder hebben bij welke metriek je besluit dat een variant wint. Is dat conversieratio, gemiddelde orderwaarde, klikratio?
- Een vaste looptijd of minimaal aantal bezoekers: ik hanteer in de praktijk vaak een combinatie van tijd (bijvoorbeeld minimaal 2 weken) en volume (minstens 100 conversies per variant) als richtlijn.
- Monitoring van externe invloeden: denk aan e-mailcampagnes, kortingsacties of onverwachte media-aandacht. Die kunnen tijdelijk het gedrag beïnvloeden en zo de test vertekenen.
Wat ook helpt is het visualiseren van de resultaten door de tijd heen. Vaak zie je dat de eerste dagen grote schommelingen laten zien, maar dat er daarna een stabieler patroon ontstaat. Als dat patroon zich pas na verloop van tijd aftekent, is vroegtijdig stoppen een gok.
Wanneer je wél eerder kunt stoppen
In sommige gevallen is het prima om een test eerder af te breken. Bijvoorbeeld als er overduidelijke verschillen zijn én je al voldoende data hebt. Maar zelfs dan gaat het vaak mis door korte termijn te denken. Iemand ziet 14,3% vs 10,0% en zegt: “Dat is 43% beter, dus hij wint.” Alleen vergeet men dat het om een relatief kleine basis gaat. Die 4% verschil kan bij een kleine steekproef puur toeval zijn.
Als er meer dan 95% kans is dat het verschil geen toeval is, spreken we over statistische significantie. Maar zelfs dat getal moet je met nuance bekijken. Wat is je foutenmarge? Hoe groot is het absolute verschil? En vooral: is het verschil economisch relevant? Een stijging van 0,2% kan statistisch betrouwbaar zijn, maar bedrijfsmatig zinloos.
In de praktijk betekent dat:
- Niet alleen kijken naar percentages, maar ook naar absolute aantallen.
- Niet alleen sturen op significantie, maar ook op impact.
- Niet testen om het testen, maar met een concreet doel en beslismoment.
Als een test bijvoorbeeld leidt tot 3 verkopen extra per maand, maar je implementatie kost dagelijks tijd en onderhoud, moet je je afvragen of die winst opweegt tegen de investering.
Hoe je voorkomt dat je jezelf voor de gek houdt
Wat ik zelf in onze werkwijze heb ingebouwd, is een checklist vóórdat we een A/B-test starten. Daar staat in:
- Wat testen we precies?
- Wat is de verwachte impact?
- Hoeveel verkeer en conversies halen we gemiddeld per week?
- Hoe lang duurt het dus voordat we tot een betrouwbare steekproef komen?
- Wat zijn de randvoorwaarden om een winnaar aan te wijzen?
Door dit vooraf te benoemen, voorkom je dat je tijdens de test ineens gaat schuiven met je oordeel omdat er druk ontstaat. Je neemt samen met de klant de beslissing op basis van vooraf bepaalde logica, niet op basis van een tijdelijke piek in resultaten.
Wat je na de test vooral niet moet doen
Het klinkt misschien gek, maar het implementeren van de winnende variant is niet altijd het juiste vervolg. Ik zie in de praktijk dat een winnende variant in een A/B-test na livegang tóch niet duurzaam presteert. Dat komt vaak doordat het testmoment (met twee varianten naast elkaar) een vertekend beeld van de werkelijkheid creert dan wanneer je die variant 100% live zet.
Daarom is het verstandig om na de test een periode van monitoring in te bouwen. Implementeer de winnende variant, maar blijf meten alsof je een nieuwe test doet. Pas als de resultaten ook in deze fase stabiel blijven, kun je spreken van een structurele verbetering.
Wat je nu direct kunt doen
Als je nu A/B-testen draait of op de planning hebt, stel jezelf dan deze vragen:
- Heb ik vooraf vastgelegd wat ik test en wanneer ik beslis?
- Weet ik hoeveel tijd en verkeer ik gemiddeld nodig heb voor een betrouwbaar resultaat?
- Ben ik bereid om ook de variant die me niet bevalt, langer te laten draaien als de data daarom vragen?
Als het antwoord op één of meer van die vragen nee is, stop dan nog niet. Pas de opzet aan en zorg dat je basis klopt. De grootste winst bij A/B-testen zit niet in hoe vaak je wint, maar in hoe zorgvuldig je beslissingen maakt. En dat begint met weten wanneer je moet stoppen en wanneer niet.

