De zes grootste valkuilen bij AB-testen van e-mailcampagnes

Als marketeer weet je dat je door middel van AB-testen gemakkelijk kunt onderzoeken welke variant van je e-mailcampagnes het beste resultaat oplevert. Maar enkel wanneer je deze AB-testen goed uitvoert krijg je een schat aan informatie waar je ook daadwerkelijk resultaat mee kan behalen. Helaas zie ik in de praktijk nog dagelijks AB-testen voorbij komen die verkeerd worden uitgevoerd of verkeerd worden geïnterpreteerd. Zo vergeet men de juiste instellingen of worden de successen tijdens een testfase overgewaardeerd, waardoor het succes op de langere termijn enkel maar zal tegenvallen. Zo verandert een valkuil ongemerkt in een vrije val. In deze blogpost behandel ik de zes gevaarlijkste valkuilen bij AB-testen van e-mailcampagnes. En nog belangrijker: zo stap je eromheen.

AB-test valkuil nr. 1: we selecteren de verkeerde controlegroepen

Om betrouwbare testresultaten te krijgen, is het van belang dat je een random geselecteerde controlegroep samenstelt. Dit is de groep waarmee je het resultaat van de AB-testen kunt vergelijken. Veel e-mailmarketingtools bieden echter de mogelijkheid een controlegroep willekeurig op te splitsen. Het lijkt dan ook heel gemakkelijk om AB-testen uit voeren, maar het is toch lastiger dan je denkt. Iedere test die je uitvoert heeft namelijk een andere doelstelling en/of doelgroep. De testresultaten zijn dan ook niet altijd even representatief voor de totale database. Door gebruik te maken van een vaste controlegroep en daarnaast per campagne nieuwe en aparte controlegroepen samen te stellen krijg je veel nauwkeurigere informatie.

De nieuwe controlegroep kun je vervolgens het beste eerst nog een keer opsplitsen voor een AA-test. De beste resultaten hiervan neem je vervolgens mee in de AB-test met de vaste, random geselecteerde, controlegroep.

AB-test valkuil nr. 2: we meten de verkeerde zaken

Zodra de testvarianten zijn opgemaakt en uitgevoerd, analyseren marketeers de verschillen meestal in een singular performance indicator. Hoewel dit gemakkelijk laat zien hoe een enkele wijziging invloed heeft op een bepaald aspect van de nieuwsbrief, zegt het niks over tegenstrijdige trends of meer algemene wijzigingen. Om een eventuele trend of groter patroon te ontdekken, is het dus verstandiger om op meerdere KPI's te focussen zoals click-through-rate, een call-to-action button of een conversieratio in plaats van op één enkele indicator. Hoewel conversieratio vaak het belangrijkste ijkpunt is, geven andere indicatoren als bijvoorbeeld de tijd die iemand neemt om de e-mailing te lezen een uitgebreider beeld. Een voorbeeld: een ander font in een call-to-action button kan de click through rate verhogen, maar als dit tegelijkertijd zorgt voor een hogere bounce rate, is deze wijziging niet verstandig. Hoe meer je weet over het gedrag van je lezers, des te makkelijker het wordt om de moeilijke marketingvraag 'Hoe?' te beantwoorden.

AB-test valkuil nr. 3: we testen te kort en in te kleine volumes

Door de testperiode en het volume van je controlegroep te beperken ontstaat niet alleen de kans op verkeerde aannames, maar kun je je testresultaten ook niet voldoende onderbouwen. Marketeers stoppen regelmatig met testen zodra het lijkt dat er een aanzienlijke verbetering is opgetreden of een als een slecht scorende factor is uitgeschakeld, zonder er zeker van te zijn dat de statistieken laten zien dat een test is geslaagd. Het is daarom belangrijk om voor de start van de AB-test de grootte van de controlegroep en de duur van de testperiode vast te stellen.

Zo is het belangrijk om een testperiode van minstens twee weken aan te houden zodat resultaten niet kunnen worden beïnvloed door een bepaalde dag in de week of door een afwijkende periode in het jaar. Let er bijvoorbeeld goed op of een testperiode in een vakantieperiode valt. In dat geval is het verstandig om de resultaten nog een keer te checken door een nieuwe test uit te voeren. Tot slot is er een gouden regel die ik niet vaak genoeg kan herhalen: breek een test NOOIT vroegtijdig af. Het kan misschien lijken alsof je nieuwe design de gewenste resultaten oplevert, maar dit weet je pas echt zeker zodra de vooraf vastgestelde periode helemaal is doorlopen en als het afgesproken aantal versies is getest.

AB-test valkuil nr. 4: we vergeten onze statistische bril op te zetten

Het is uiterst belangrijk dat het volume van je controlegroep klopt zodat deze statistisch significant is en daarmee voor betrouwbare resultaten zorgt. Dit kun je doen door gebruik te maken van power analyse. Ik geef je hier een link naar een tool die je kunt gebruiken om de optimale grootte van je controlegroep te bepalen.

Ik weet uit ervaring dat de resultaten van een AB-test soms verraderlijk positief kunnen zijn. In sommige gevallen overtreffen de testresultaten de beoogde conversieratio met wel 20 of 30 procent. Hoewel deze resultaten veelbelovend klinken, is het belangrijk om ze met een kritisch oog door een statistische bril te bekijken. Om er zeker van te zijn dat de beste testvariant ook daadwerkelijk het resultaat is van de doorgevoerde wijzigingen kun je een T-test uitvoeren. Zonder in details te treden: deze test geeft een Z-score (of standaardscore) die de betrouwbaarheidsinterval van je data meet en bepaalt of een verandering niet gewoon het resultaat is van een toevallige samenloop van omstandigheden. Om vervolgens het betrouwbaarheidsniveau van je data te bepalen kun je een significantie calculator gebruiken of deze algemene uitleg lezen. Als je data een betrouwbaarheidsniveau van 95% of meer bereikt, mag je erop vertrouwen dat de testresultaten significant zijn. Je mag dan veilig stellen dat er een verband is tussen de aanpassing in je e-mailtemplate en de verhoogde conversieratio.

AB-test valkuil nr. 5: we nemen te snel genoegen met resultaten

Wat doe je als je maar nieuwe fonts, indelingen, afbeeldingsformaten, kleuren en thema's blijft gebruiken terwijl je geen verandering ziet in de resultaten? Veel marketeers komen vroeg of laat op dit punt en denken daarmee het hoogst haalbare te hebben bereikt. Dit hoeft absoluut niet het geval te zijn! Dit is namelijk hoogstwaarschijnlijk een voorbeeld van de Local Maximum Theory. Deze theorie houdt simpel gezegd in dat je denkt het doel te hebben bereikt omdat je een lokaal maximum hebt bereikt, terwijl er in werkelijkheid nog genoeg ruimte is voor verbetering om een globaal maximum te bereiken. Onderstaande afbeelding laat het basisprincipe van deze theorie zien. Om nu naar een volgende stap in verbetering te gaan, is het waarschijnlijk nodig om drastische veranderingen door te voeren. Dit betekent niet dat je je hele e-mailcampagne of basistemplate in de prullenbak moet gooien en opnieuw moet beginnen. Het betekent dat je ze moet bekijken vanuit een ander oogpunt en dat je de kernwaarden moet analyseren om zo je klantbetrokkenheid te vergroten. AB-testen is een goede manier om te ontdekken welke richting je uit moet gaan. Denk eraan dat je de tijd neemt om te testen, want zoals de afbeelding laat zien kan een kleine dip in conversie uitmonden in een exponentiële groei.

Lokale extrema Een voorbeeldgrafiek van een lokale extrema.

AB-test valkuil nr. 6: een verband is wat anders dan een oorzaak

AB-testen is een geweldige statistische methode en levert een schat aan informatie. Statistieken geven echter alleen antwoord op de vraag wát er anders moet, niet waaróm. Met een AB-test kun je data verzamelen, analyseren en samenvatten, maar je ontdekt er niet mee waarom de resultaten zijn zoals ze zijn. Je kunt valse oorzaken ontdekken door micro-KPI's te gebruiken. Stel, je neemt bijvoorbeeld in een email een keurmerk op voor betrouwbaar gebruik van persoonsgegevens en vervolgens zie een directe stijging in de conversieratio. Je zou er nu van uit kunnen gaan dat dit keurmerk de oorzaak is. Het is daarentegen goed mogelijk dat mouse-tracking laat zien dat de lezers niet eens naar het keurmerk hebben gekeken. Dit maakt het moeilijk om te bepalen of hier echt een verband is of dat er gewoon iets mis is gegaan met de testapparatuur. De vergroting van de conversieratio zou ook kunnen zijn ontstaan door een andere kleine wijziging of door een afwijkende testperiode. Het kan ook een voorbeeld zijn van slechte randomisatie waardoor een AA-test noodzakelijk is. Er zijn nog honderden andere voorbeelden van niet-oorzakelijke relaties. Een van de meeste extreme voorbeelden is het verband tussen het aantal piraten en de gemiddelde globale temperatuur. Kijk maar:

Een extreem voorbeeld van een niet-oorzakelijke relatie.

Een extreem voorbeeld van een niet-oorzakelijke relatie.

De temperatuur is niet de oorzaak van het aantal piraten, maar toch is er een statistisch verband. Wees je bewust van dit soort beperkingen tijdens het testen van jouw e-mailcampagnes en onthoud dat AB-testen een methode is die niet voor elk probleem een oplossing biedt.

Vanaf nu loop je om de valkuilen heen

Ik hoop dat je dankzij deze blog in de toekomst om deze valkuilen heenloopt. Je bespaart daarmee niet alleen tijd en geld, maar het verbetert ook de manier waarop je organisatie beslissingen maakt. En onthoud: blijf testen, testen en nog eens testen! Heb jij valkuilen tijdens AB-testen ontdekt waarvoor je ons wilt waarschuwen? Lever dan je bijdrage in de discussie over dit onderwerp in de LinkedIn-groep “E-mailmarketing Nederland".

Volg de discussie over dit onderwerp in de LinkedIn-groep "E-mailmarketing Nederland".



Ja, natuurlijk wil ik dit artikel delen:




Reageer op dit artikel


Best bekeken blogs


Vraag aan e-Village?

Wist je dat...

Wist je dat...

...e-Village een deliverability ratio (afleverpercentage) heeft van 99,72%?

Meer weetjes? Schrijf je in voor de nieuwsbrief en blijf altijd op de hoogte