Serie, Teil 2 19.10.2015, 09:35 Uhr

Conversion-Optimierung: Hypothesen mit A/B-Tests überprüfen

Mit A/B-Testing kann man überprüfen, ob Änderungen auf der Website die Conversion Rate steigern. Doch dabei lauern einige Statistik-Fallen, die man kennen sollte.
Mann sitzt vor PCs
(Quelle: shutterstock.com/Danang Setiawan)
von André Morys, Geschäftsführer WebArts
Bei der Conversion-Optimierung von Websites ist A/B-Testing das Mittel der Wahl, um ­eine Veränderung auf ihre Wirksamkeit zu überprüfen. Das Prinzip ist einfach: Die Ausgangsseite und die "verbesserte" Seite werden im Wechsel ausgespielt: Zeigt die „verbesserte“ Seite eine Steigerung der Performance, hat sie den Test bestanden. Im ersten Teil der Serie zur Conversion-Optimierung wurde erklärt, ­woher gute Ideen für die Experimente kommen und wie diese "Hypothesen" priorisiert werden.
Warum sollte man Ideen für die Conversion-Optimierung überhaupt "testen"? Viele Verantwortliche sind von der Wirksamkeit der einen oder anderen Idee derart überzeugt, dass ihnen eine direkte Umsetzung wesentlich schneller und kostengünstiger erscheint. Der Sinn eines Tests liegt jedoch darin, durch Prüfung der unterschiedlichen Umsetzungen oder Ideen für eine Optimierungshypothese deren Wirksamkeit anhand von Nutzungsdaten nachzuweisen.

Multivariate Tests

Neben dem A/B-Testing, bei denen die Änderung eines einzelnen Website-Elements getestet wird, wurden auch sogenannte multivariate Tests (MVT) entwickelt, bei denen jede Veränderung isoliert betrachtet wird, und zwar in Kombination mit sämtlichen ­anderen Veränderungen.
Solche multivariate Tests sind sehr hilfreich, um zu messen, welcher Erfolg mit den unterschiedlichen Elementen einer Hypothese bei der Conversion-Optimierung erzielt wird, oder auch um Kreuzeffekte bei mehreren Hypothesen zu testen. Als Nachteil sei vor allem die sehr hohe Traffic-Menge erwähnt, die benötigt wird, um valide Testresultate zu erzielen.
Tools für MVT- oder A/B-Testing sorgen für eine gleichmässige Verteilung des Traffics auf alle Varianten, spielen die Veränderung aus und leiten die Nutzer­zugriffe auf die entsprechende URL. Ausserdem messen sie mithilfe eines Java-Script-Tags, ob die zuvor definierten Ziele für die Conversion-Optimierung ­erreicht wurden.
Jeder, der bereits solche Tests durchgeführt hat, kennt die Überraschung, wenn eine Variante gewinnt, die niemand im Auge hatte. Und genau darin liegt letztlich der grosse Vorteil dieser Methode: Objektive Daten sind eine bessere Grundlage für Entscheidungen als subjektive Meinungen.
Jedes Unternehmen, das mithilfe von A/B-Testing die Wirksamkeit seiner Massnahmen zur Conversion-Optimierung kontrolliert, gewinnt einen grossen Erfahrungsschatz auf Basis echter Nutzerdaten. Amazon führte laut eigenem Geschäftsbericht im vergangenen Jahr knapp 2.000 Experimente durch - der aus den Erkenntnissen entstandene Wettbewerbsvorteil ist neben dem betriebswirtschaftlichen Nutzen sicherlich enorm.

Die A/B-Testing-Regeln

Folgende Regeln sollten bei der Konzep­tion und der Durchführung von Tests ­jedoch eingehalten werden, damit wirklich ein Nutzen entsteht.
Unterschied von A/B und MVT-Testing
Die Testkonstruktion: Nehmen wir an, die Produktdetailseite ­eines Shops soll optimiert werden. Bei der Analyse ist aufgefallen, dass die Produkt­abbildungen zu klein sind, die Bewertungen der Produkte durch andere Nutzer nicht richtig erkannt werden und die Informationen rund um den "Warenkorb" nicht gut strukturiert sind.
Schnell entsteht das Konzept für eine bessere Produktdetailseite, bei der alle ­diese Faktoren optimiert wurden: ­Grössere Abbildungen werden verwendet, die Bewertungen werden im sichtbaren Bereich platziert und auch die "Buy-Box" wird aufgeräumt. Die verbesserte Variante des Templates wird umgesetzt und mithilfe ­eines A/B-Testing-Tools getestet. Im ­Laufe dieses kleinen Projekts kommt eine lebhafte Diskussion darüber auf, ob die Buy-Box farblich hinterlegt werden sollte oder nicht.
Es entsteht recht schnell die Idee, zwei ­Varianten des verbesserten Templates zu entwickeln, die sich nur durch die farbliche Hinterlegung unterscheiden - schliesslich ist ein A/B-Testing-Tool ja dazu da, solche Einflüsse für die Conversion-Optimierung zu messen. Die Resultate des A/B-Testing in unserem Beispiel ergeben: Beide Varianten haben eine signifikant geringere Conversion-Rate als die Ausgangsseite. Die Variante mit der farblichen Hinterlegung verliert dabei etwas weniger als die Variante ohne die Farbe.
Was nun? Dadurch, dass alle Veränderungen ("Faktoren") in einer Variante enthalten sind, lässt sich nun nicht mehr erkennen, welcher Faktor für das schlechte Abschneiden der beiden Varianten verantwortlich ist. Lediglich die Farbe der Box wurde als Variante "isoliert". Leider ist der Unterschied zwischen den beiden Varianten nicht signifikant, es wurde nur herausgefunden, dass die Farbe keinen Einfluss auf die Resultate hat.
Lösung: Bei der Konstruktion des A/B-Testing ist zu berücksichtigen, dass jede ­Variante nur einer einzelnen Hypothese folgt. Jede Änderung der eingangs genannten Schwachstellen der Seite ist eine Hypothese für sich. Der Fehler bestand darin, alle Hypothesen in einer Variante umzusetzen.
Technische Aspekte: A/B-Testing wird meist intern von hauseigenen Entwicklern umgesetzt. Am einfachsten erscheint es, die gewünschte Variante direkt als eigenständiges HTML-Template unter einer ­anderen URL zu veröffentlichen und dem A/B-Testing-Tool nur die URL der Variante mitzuteilen. Bei diesen sogenannten Split-URL-Tests sorgt ein Redirect dafür, dass beim gewünschten Prozentsatz an Besuchern auf die Variante gesprungen wird.
Die Herausforderung: Der Redirect ­benötigt mehr Ladezeit. Laut einer Studie von Walmart aus dem Jahr 2012 ­reduziert eine Verlängerung der Ladezeit von zwei auf vier Sekunden die Conversion-Rate um über 50 Prozent. Konkret bedeutet dies für die Split-URL-Lösung, dass eine Verzögerung von wenigen Hundert Millisekunden bereits das Resultat der Conversion-Optimierung signifikant beeinflusst.
Eine weitere technische Umsetzungsmöglichkeit der Conversion-Optimierung besteht darin, über soge­nannte "Code-Injection" die HTML- oder CSS-Datei im Browser zu manipulieren. Die Veränderung wird über Java Script per Testing-Tool eingespielt. Doch auch hierbei entstehen zeitliche Verzögerungen und im schlimmsten Fall sichtbare Flacker­effekte, die das Nutzererlebnis spürbar ­beeinflussen. Auch dadurch entstehen Verzerrungen, die nicht beabsichtigt sind.
Lösung: Alle Varianten, das heisst auch das unveränderte Original, müssen unter den gleichen Voraussetzungen getestet werden. Im Fall des Split-URL-Tests wird ­daher zusätzlich einfach auf eine Kopie der Originalseite verwiesen, der Effekt der Zeitverzögerung durch den Redirect kommt bei allen Varianten wie auch bei der Kontrollvariante gleichermassen zum Tragen.
Die Statistikfalle : Vielerorts werden Fallbeispiele für Fallstricke bei der Conversion-Optimierung zitiert, bei denen eine kleine Veränderung angeblich die Konversionsrate eines Online-Shops um sagenhafte 59,7 Prozent gesteigert hat - indem der Text im Warenkorb-Button geändert wurde. Erfahrene Anwender von Testing-Tools erkennen dabei schnell, dass die Stichprobe zu klein war, um Rückschlüsse zu ziehen.
Wie passiert der Fehler in der Praxis? Es wird viel Zeit in die Analyse, Konzeption und Umsetzung von A/B-Testing investiert. Dies geschieht immer im sicheren Glauben, dass die entwickelte Verbesserung auch wirklich besser ist. Für viele ­Conversion-Optimierer ist der Moment, in dem das A/B-Testing live geschaltet wird, daher extrem spannend: Täglich wird der Verlauf des Tests verfolgt und der Moment, in dem ­eine Variante tatsächlich ein signifikantes Ergebnis zeigt, ist eine Bestätigung für die eigene Arbeit.
Dabei wird vergessen, dass eine wirklich "valide", das heisst zuverlässige Aussage für die Conversion-Optimierung nur dann getroffen werden kann, wenn auch eine repräsentative Menge des Traffics im A/B-Testing berücksichtigt wurde. Das Verhalten von Konsumenten ändert sich je nach Traffic-Quelle (Adwords-Traffic versus Newsletter), Wetter (Menschen kaufen bei Regen anders als bei Sonnenschein) oder auch Zeit (am Monats­anfang wird mehr gekauft als am Monatsende). Zu guter Letzt sorgen auch eigene Kampagnen (Sales-Phasen, Gewinnspiele, etc.) für Verzerrungen.
Das "tägliche Kontrollieren" der Test­ergebnisse und ein verfrühtes Abschalten der verteilten Ausspielung sorgen dafür, dass der Faktor „Zufall“ und die oben erwähnten Verzerrungen durch äussere Faktoren eine viel stärkere Rolle spielen, als manch einem wirklich bewusst ist.
Lösung: Realistische Uplifts liegen im ­E-Commerce im einstelligen Prozent­bereich. Zweistellige Uplifts sind selten zu erzielen, da das Nutzerverhalten massiv beeinflusst werden muss. Das Diagramm zeigt die ­benötigte Stichprobengrösse pro Variante (unabhängig von der zeitlichen Komponente) aus rein statistischer Sicht. Für einen repräsentativen Ausschnitt des Traffics sollte basierend auf den oben genannten Faktoren während einer ausreichend grossen Zeit ermittelt werden - in der Regel sind dies mindestens zwei bis vier Wochen.




Das könnte Sie auch interessieren