Het einde van A/B-testen in Adwords

Geen reacties
Tags: , , ,
Posted 24 nov 2017 in nieuws

Moeten we standaard Google’s nieuwe ‘Optimize ad rotation’ gebruiken en A/B-testen laten varen? Ja. Waarschijnlijk dacht je dat deze testen de manier zijn om de beste advertenties te ontdekken en te tonen, SEA-icoon Martin Röttgerding gooit dat beeld overhoop.

Vorige maand vond in Londen de Europese variant van het PPC-congres Herconf plaats. SEA-specialisten lieten zich bijpraten over onder andere Google Shopping strategieën, de nieuwe Adwords interface, Adwords Tools en Ad Copy Testing.

Die laatste talk over het testen van je advertentieteksten was de terechte winnaar van de contest “beste presentatie van het event”. De spreker Martin Röttgerding zal voor veel SEA-specialisten geen onbekende zijn; hij werd bekend met zijn inmiddels legendarische presentatie over Google Shopping campaign segmentation. Ook tijdens Heroconf stelde hij niet teleur.

Martin stelt in zijn presentatie “Debunking Ad Testing” dat de manier waarop we traditioneel onze advertentieteksten optimaliseren niet werkt, en we deze taak beter aan Google over kunnen laten. Een gewaagd statement dat hij met sterke argumenten onderbouwd.

De hamvraag: Moeten we standaard Google’s nieuwe “Optimize ad rotation” gebruiken en A/B-testen laten varen? Ja, aldus Martin.

Argument 1: Statistische significantie is een farce

De manier waarop we traditioneel te werk gaan in het testen van advertenties is: zet 2 advertenties naast elkaar in een advertentiegroep op “rotate indefinitely” (A/B test) en wacht net zolang tot er één significant beter presteert dan de andere. Pak vervolgens de winnaar en test die tegen een nieuwe variant. Op die manier zouden we telkens betere advertenties krijgen. FOUT dus.

Martin laat zien dat als we maar lang genoeg wachten er altijd wel een “statistisch significante winnaar” naar voren komt, EN dat als we maar lang genoeg doorgaan met diezelfde test diezelfde “statistisch significante winnaar” weer verdwijnt. De grap is dat hij aantoont dat dit zelfs bij A/A tests optreedt, laat staan bij A/B tests.

Sterk punt, zeker als je je realiseert dat als je op deze traditionele manier van ad testing 11x achter elkaar een nieuwe advertentie tegen de winnaar tot dan toe zou testen. Er is dan een zeer grote kans is dat je niet met de beste advertentie eindigt. (Stel je gaat voor 95% betrouwbaarheid in je A/B-test en test elke maand een nieuwe advertentie, dan heb je na een jaar met een kans van 0.95^11=0.57 de beste advertentie. Meer dan 40% kans op niet de beste dus.)

Uiteraard kun je je A/B-tests ook doen met een veel hogere eis voor de betrouwbaarheid (bijv: 99.5%) en daarmee de kans dat er onterecht een “statistisch significante winnaar” optreedt enorm verkleinen. Maar dat maakt A/B-testen in de praktijk weer erg lastig vanwege de grote hoeveelheid data die je nodig hebt om dan conclusies te trekken. Dit argument van Martin blijft wat mij betreft dus staan.

Argument 2: Simpson’s Paradox en verborgen causale variabelen

De traditionele manier van A/B-testen voor onze advertenties heeft veel last van Simpson’s Paradox. Volgens Martin’s test treedt dit zelfs in meer dan 10% van de gevallen op. Simpson’s Paradox is misschien wat lastig te bevatten, maar deze video legt het prima uit. Het komt erop neer dat wij tijdens het opzetten van onze A/B-test last hebben van ‘verborgen’ variabelen die een causaal effect hebben op de uitkomst van onze test. Een deel van die variabelen kunnen we controleren in de test; bijvoorbeeld het device waarop de advertentie getoond wordt.  

Een ander deel van die variabelen kunnen we niet 100% controleren, maar het effect ervan wel verwerken in onze analyses; denk aan het deel van de impressies van een advertentie op het Search Partner network versus Google netwerk, of impressies met Sitelinks. En dan is er nog een heel aantal verborgen variabelen dat een causaal effect heeft op het gedrag van onze advertenties waar we geen controle over hebben én geen mogelijkheid om het effect te verwerken in onze analyse (omdat we de data niet hebben). Denk bij die laatsten bijvoorbeeld aan het aantal impressies met de Seller rating extension (grote invloed op CTR), of of de gebruiker je advertentie daadwerkelijk heeft gezien (naar beneden scrollde als deze onderaan de SERP staat).

Stel, je draait een A/B-test en advertentie A krijgt “toevallig” een disproportioneel grote hoeveelheid vertoningen met de Seller Ratings erbij. Hierdoor heeft A waarschijnlijk de beste CTR en wint je test, onafhankelijk van de kwaliteit van wat je wilde testen; de advertentietekst.

Het gaat dus mis als er een advertentie disproportioneel veel vertoningen krijgt die postief of negatief beinvloed worden door een voor onze verborgen variabele.  Als ik Martin’s test goed begrijp, treedt dit verschijnsel in zo’n 10% van de gevallen op.

Als je zelf secuur bent bij je A/B-tests en in de analyse onderscheid maakt tussen de prestaties op het Search Partner netwerk en het Google Netwerk, dan zul je de waarde van dit argument herkennen; de CTR verschilt enorm bij Search Partners en Google.

Dit punt is een sterk argument wat mij betreft. Toch voelt het voor mij nog niet af. Dit argument is iets wat ik eigenlijk verder wil uitzoeken. Wat zijn die verborgen variabelen, en hoe vaak treedt die disproportionele verdeling in vertoningen op?

Argument 3: Positie feedback

Als een advertentie een hogere CTR heeft, krijgt deze een hogere ‘auction quality score’. Die hogere hogere ‘auction quality score’ leidt tot een hogere positie, en die leidt weer tot een hogere CTR.

Dit zie je ook vaak in je A/B-tests; als je bijvoorbeeld een exact match keyword hebt met een gemiddelde positie van 1.3, dan kan het best zijn dat advertentie A een gemiddelde positie heeft van 1.2 en advertentie B een gemiddelde positie van 1.4. Die positie heeft effect op de CTR’s en de uitkomst van je test.

Dit argument staat als een huis wat mij bereft. Zelfs als je je bewust bent van de verschillende posities van je advertenties is het praktisch onmogelijk om het effect ervan in je analyse mee te nemen.

Argument 4: Je kunt niet op tegen Google’s algoritmen

Eigenlijk zegt Martin hier dat het in Google’s belang is om altijd de beste advertentie te tonen, en dat Google’s algoritmen beter zijn in het vinden van de beste advertentie dan jouw handmatige optimalisaties of je eigen algoritmen.

Dit argument voelt voor mij niet goed. Het is in Google’s belang om zoveel mogelijk kliks op advertenties te krijgen. De algoritmen zullen dus de CTR optimaliseren (iets wat Martin ook beaamt). Echter, een betere CTR wil niet zeggen dat het voor de adverteerder ook de beste advertentie is. Denk aan headline A (“Gratis Vuurwerk Afhalen”) versus headline B (“Vuurwerkpakket vanaf €150”). Het zal duidelijk zijn welke de meeste kliks krijgt en welke het meeste geld oplevert.

Daarnaast heb ik zelf niet zo veel vertrouwen in Google’s (AI) algoritmen. Het kost me veel moeite om Google’s Smart Bidding-algoritmen beter te laten presteren dan mijn eigen bid management oplossingen. Vaak legt Google het af. Iets wat ik ook terughoor van veel andere SEA specialisten. Dit vierde argument is naar mijn idee niet sterk.

Argument 5: we kunnen niet testen op variabelen buiten onze controle, Google wel

Tijdens de ad auction die bepaalt welke advertentie wordt getoond, gebruikt Google meerdere factoren (variabelen) die buiten ons zicht en controle zijn. Denk hierbij aan de zoekgeschiedenis van de gebruiker, het eerdere klikgedrag van de gebruiker, het type persoonlijkheid van de gebruiker (zijn het koopjesjagers, of luxepaarden? Lezen ze vaak reviews of beslissen ze snel. etc). Wij hebben geen inzicht in die factoren, Google wel. Google kan theoretisch gezien voorrang geven aan de headline A “…met 20% Korting” bij prijsgevoelige gebruikers, en headline B “…met 24/7 Support” bij mensen die service waarderen.

Eigenlijk maakt dit het idee dat er altijd één winnaar, één beste advertentie, moet zijn belachelijk. In verschillende situaties zijn verschillende advertenties de beste. Google gebruikt volgens Martin meerdere voor ons “ontargetbare” variabelen om te bepalen welke advertentie op dat moment de beste is.

Ik vroeg Martin om hard bewijs voor deze stelling, maar dat kon hij niet geven. Ondanks dat er geen hard bewijs is deel ik zijn vermoeden; wij kunnen targetten op “mobile device”, maar Google weet of het een dure grote iPhone is, of een een goedkope kleine Android. Hoe aannemelijk is het dat ze deze informatie niet gebruiken in de auction? Dit argument telt wat mij betreft.

Conclusie

Tja. Daar zit je dan, net als ik waarschijnlijk. Dacht je jarenlang dat A/B-testen de manier is om de beste advertenties te ontdekken en tonen, komt dit verhaal om de hoek. Martin heeft mij op zijn minst ernstig aan het twijfelen gezet over A/B-testen van advertenties, en eigenlijk al overtuigd dat dit voor de meeste klanten niet de weg voorwaarts is. Ik geef Google’s “Optimize ad rotation” vaker het voordeel van de twijfel en laat Google bepalen welke advertentie wordt vertoond.



Lees het volledige bericht op Emerce »


Add Your Comment