Conversion-Optimierung: Hypothesen mit A/B-Tests überprüfen
Die A/B-Testing-Regeln
Folgende Regeln sollten bei der Konzeption und der Durchführung von Tests jedoch eingehalten werden, damit wirklich ein Nutzen entsteht.
Die Testkonstruktion: Nehmen wir an, die Produktdetailseite eines Shops soll optimiert werden. Bei der Analyse ist aufgefallen, dass die Produktabbildungen zu klein sind, die Bewertungen der Produkte durch andere Nutzer nicht richtig erkannt werden und die Informationen rund um den "Warenkorb" nicht gut strukturiert sind.
Schnell entsteht das Konzept für eine bessere Produktdetailseite, bei der alle diese Faktoren optimiert wurden: Grössere Abbildungen werden verwendet, die Bewertungen werden im sichtbaren Bereich platziert und auch die "Buy-Box" wird aufgeräumt. Die verbesserte Variante des Templates wird umgesetzt und mithilfe eines A/B-Testing-Tools getestet. Im Laufe dieses kleinen Projekts kommt eine lebhafte Diskussion darüber auf, ob die Buy-Box farblich hinterlegt werden sollte oder nicht.
Es entsteht recht schnell die Idee, zwei Varianten des verbesserten Templates zu entwickeln, die sich nur durch die farbliche Hinterlegung unterscheiden - schliesslich ist ein A/B-Testing-Tool ja dazu da, solche Einflüsse für die Conversion-Optimierung zu messen. Die Resultate des A/B-Testing in unserem Beispiel ergeben: Beide Varianten haben eine signifikant geringere Conversion-Rate als die Ausgangsseite. Die Variante mit der farblichen Hinterlegung verliert dabei etwas weniger als die Variante ohne die Farbe.
Was nun? Dadurch, dass alle Veränderungen ("Faktoren") in einer Variante enthalten sind, lässt sich nun nicht mehr erkennen, welcher Faktor für das schlechte Abschneiden der beiden Varianten verantwortlich ist. Lediglich die Farbe der Box wurde als Variante "isoliert". Leider ist der Unterschied zwischen den beiden Varianten nicht signifikant, es wurde nur herausgefunden, dass die Farbe keinen Einfluss auf die Resultate hat.
Lösung: Bei der Konstruktion des A/B-Testing ist zu berücksichtigen, dass jede Variante nur einer einzelnen Hypothese folgt. Jede Änderung der eingangs genannten Schwachstellen der Seite ist eine Hypothese für sich. Der Fehler bestand darin, alle Hypothesen in einer Variante umzusetzen.
Technische Aspekte: A/B-Testing wird meist intern von hauseigenen Entwicklern umgesetzt. Am einfachsten erscheint es, die gewünschte Variante direkt als eigenständiges HTML-Template unter einer anderen URL zu veröffentlichen und dem A/B-Testing-Tool nur die URL der Variante mitzuteilen. Bei diesen sogenannten Split-URL-Tests sorgt ein Redirect dafür, dass beim gewünschten Prozentsatz an Besuchern auf die Variante gesprungen wird.
Die Herausforderung: Der Redirect benötigt mehr Ladezeit. Laut einer Studie von Walmart aus dem Jahr 2012 reduziert eine Verlängerung der Ladezeit von zwei auf vier Sekunden die Conversion-Rate um über 50 Prozent. Konkret bedeutet dies für die Split-URL-Lösung, dass eine Verzögerung von wenigen Hundert Millisekunden bereits das Resultat der Conversion-Optimierung signifikant beeinflusst.
Eine weitere technische Umsetzungsmöglichkeit der Conversion-Optimierung besteht darin, über sogenannte "Code-Injection" die HTML- oder CSS-Datei im Browser zu manipulieren. Die Veränderung wird über Java Script per Testing-Tool eingespielt. Doch auch hierbei entstehen zeitliche Verzögerungen und im schlimmsten Fall sichtbare Flackereffekte, die das Nutzererlebnis spürbar beeinflussen. Auch dadurch entstehen Verzerrungen, die nicht beabsichtigt sind.
Lösung: Alle Varianten, das heisst auch das unveränderte Original, müssen unter den gleichen Voraussetzungen getestet werden. Im Fall des Split-URL-Tests wird daher zusätzlich einfach auf eine Kopie der Originalseite verwiesen, der Effekt der Zeitverzögerung durch den Redirect kommt bei allen Varianten wie auch bei der Kontrollvariante gleichermassen zum Tragen.
Die Statistikfalle : Vielerorts werden Fallbeispiele für Fallstricke bei der Conversion-Optimierung zitiert, bei denen eine kleine Veränderung angeblich die Konversionsrate eines Online-Shops um sagenhafte 59,7 Prozent gesteigert hat - indem der Text im Warenkorb-Button geändert wurde. Erfahrene Anwender von Testing-Tools erkennen dabei schnell, dass die Stichprobe zu klein war, um Rückschlüsse zu ziehen.
Wie passiert der Fehler in der Praxis? Es wird viel Zeit in die Analyse, Konzeption und Umsetzung von A/B-Testing investiert. Dies geschieht immer im sicheren Glauben, dass die entwickelte Verbesserung auch wirklich besser ist. Für viele Conversion-Optimierer ist der Moment, in dem das A/B-Testing live geschaltet wird, daher extrem spannend: Täglich wird der Verlauf des Tests verfolgt und der Moment, in dem eine Variante tatsächlich ein signifikantes Ergebnis zeigt, ist eine Bestätigung für die eigene Arbeit.
Dabei wird vergessen, dass eine wirklich "valide", das heisst zuverlässige Aussage für die Conversion-Optimierung nur dann getroffen werden kann, wenn auch eine repräsentative Menge des Traffics im A/B-Testing berücksichtigt wurde. Das Verhalten von Konsumenten ändert sich je nach Traffic-Quelle (Adwords-Traffic versus Newsletter), Wetter (Menschen kaufen bei Regen anders als bei Sonnenschein) oder auch Zeit (am Monatsanfang wird mehr gekauft als am Monatsende). Zu guter Letzt sorgen auch eigene Kampagnen (Sales-Phasen, Gewinnspiele, etc.) für Verzerrungen.
Das "tägliche Kontrollieren" der Testergebnisse und ein verfrühtes Abschalten der verteilten Ausspielung sorgen dafür, dass der Faktor „Zufall“ und die oben erwähnten Verzerrungen durch äussere Faktoren eine viel stärkere Rolle spielen, als manch einem wirklich bewusst ist.
Lösung: Realistische Uplifts liegen im E-Commerce im einstelligen Prozentbereich. Zweistellige Uplifts sind selten zu erzielen, da das Nutzerverhalten massiv beeinflusst werden muss. Das Diagramm zeigt die benötigte Stichprobengrösse pro Variante (unabhängig von der zeitlichen Komponente) aus rein statistischer Sicht. Für einen repräsentativen Ausschnitt des Traffics sollte basierend auf den oben genannten Faktoren während einer ausreichend grossen Zeit ermittelt werden - in der Regel sind dies mindestens zwei bis vier Wochen.