Что такое аб-тест и как его правильно провести

Содержание

Возможности сервисов A/B-тестирования

Сегодня на рынке существует множество сервисов для A/B тестирования, не говоря уже о тех, которые предлагают тесты как часть комплексных услуг. Выбранное решение должно соответствовать масштабу бизнеса, отражать ваш предыдущий опыт работы с инструментами A/B тестирования и использовать имеющиеся ресурсы.

Но есть и другие факторы, которые следует учитывать. Перечислим обязательные и дополнительные функции такого ПО, а также возможные технические характеристики.

Обязательные функции

  • Возможность A/B/n тестирования. При A/B-тесте посетитель видит версию A или B определенной страницы. Тест с тремя версиями страниц можно назвать тестом A/B/C. Аббревиатура «A/B/n» используется как сокращение для теста, имеющего множество — «N» — разных версий.
  • «Умный» редактор. Некоторые инструменты A/B-тестирования имеют встроенные веб-редакторы для создания веб-страниц. Это похоже на интерфейс редактирования в CMS WordPress или Тильда. Такая опция полезна для начинающих «тестировщиков», особенно если работа с IT-отделом в компании затруднена.
  • Режим «автопилота» — если курс коэффициента конверсии внезапно изменится, нужно быстро отреагировать на это. Функция «автопилота» направляет трафик на наиболее эффективные в ходе тестирования страницы.

Дополнительные функции

  • «Многорукий бандит» — алгоритм позволяет «автопилоту» завершить тест с максимальной достоверностью, отправляя больше трафика на страницу, которая показывает наибольшую конверсию в ходе тестирования. Некоторые инструменты A/B-тестирования равномерно распределяют трафик между вариантами A и B. Это может означать направление половины трафика сайта на более «слабую» версию, что может стоить крупным компаниям огромных денег. «Многорукий бандит» позволяет этого избежать.
  • Библиотека идей для A/B тестирования. В какой-то момент идеи заканчиваются у каждого. Библиотека идей помогает найти вдохновение в опыте других.
  • Многовариантное тестирование, MultiVariate Testing, MVT. Многовариантные или мультимерные тесты позволяют выполнять тестирование одновременно на нескольких независимых элементах страницы. Существуют разные способы их проведения. Вы можете показывать пользователям все возможные комбинации элементов страницы или только их часть. Или настроить более редкое отображение «проигрышных» комбинаций.

Технические характеристики

  • На стороне клиента. Такие инструменты A/B тестирования работают, напрямую передавая параметры отображаемой страницы в браузер пользователя. Это делается путем «пометки» страницы несколькими строками кода JavaScript. Когда страница загружается, JavaScript связывается с платформой А/Б тестов, которая и «сообщает» браузеру, какой контент отображать. Платформа также отслеживает количество конверсий.
  • На стороне сервера. Такие сервисы запускаются на стороне страницы. Страница при этом компилируется сервером и представляется браузеру в готовом виде. Точно так же, как некоторые программы для ПК доступны только для Windows или Mac, некоторые серверные программы доступны только для определенных серверов — например, для PHP.

Как проводится A/B тестирование сайта

Постановка задачи

Сначала нужно определиться с целью. Поймите, чего вы хотите добиться: увеличения конверсии, времени пребывания на сайте или снизить процент отказов. Если с целями и задачами все ОК, меняйте контент или дизайн, опираясь на них. Например, можно пойти по пути всех growth-хакеров и изменить расположение и дизайн кнопки «Купить». Сейчас она висит слева внизу и вы хотите посмотреть, что будет, если поменять ее внешний вид и передвинуть кнопку выше и правее.

Техническая реализация

Здесь все просто – либо создается отдельная страница, на которой меняется только объект тестирования, либо программист применяет магию и реализует все в рамках одного документа.

Подготовка контрольных данных

Страница переделана и все готово к запуску теста. Но сперва нужно измерить исходные показатели конверсии и всех остальных параметров, которые мы будем учитывать. Исходному варианту страницы присваиваем имя «A», а новому – «B».

Тест

Теперь нужно случайным образом разделить трафик пополам. Половине пользователей показывается страница A, а остальным – B. Для этого можно воспользоваться специальными сервисами (их очень много) или сделать все руками программиста.

При этом важно, чтобы «состав» трафика был одинаковым. Эксперимент не будет объективным, если всем пользователям, пришедшим по клику на контекст будет доступен только первый вариант, а всем посетителям из социальных сетей – только второй

Анализ

Теперь нужно ждать, пока наберется достаточно статистики и сравнить результаты А/Б тестирования. Сколько именно придется ждать, зависит от популярности сайта и некоторых других параметров. Выборка должна представлять статистическую значимость. Это значит, что вероятность случайности результата должна быть не выше 5%. Пример: Допустим, на обеих страницах одинаковое количество визитов – по тысяче. При этом у страницы A 5 целевых действий, а у страницы B – 6. Результат отличается слишком незначительно, чтобы говорить о закономерности, поэтому он не годится. 

Большинство специальных сервисов сами рассчитывают, порог статистической значимости. Если делаете все руками, можете воспользоваться .  

Выработка решения

Как поступить с результатами теста – решать вам. Если новый подход сработал, можно оставить его на сайте новый вариант страницы. При этом не обязательно останавливаться на достигнутом, особенно если вы видите, что потенциал для роста показателей еще остался. В этом случае оставляйте на сайте вариант B и готовьте новое тестирование.

Это ловушка!

Если новый цвет кнопки привел к незначительному, но все же росту конверсии, это не значит, что так будет всегда. В долгосрочной перспективе цифры вряд ли изменятся, и через месяц-два вы откатитесь к изначальному показателю.

Примеры А/Б тестов

Здесь мы собрали примеры А/Б тестов, которые проводила команда внедрения Carrot quest для наших клиентов. 

Как думаете, соблазнились ли клиенты скидкой?

Конверсия первого поп-апа — 1,75%, конверсия второго меньше в 10 раз — 0,18%.

2. На сайте Театр-Театра протестировали два варианта поп-апа. 

В варианте А оффер показывает ценность, а в варианте Б — сразу подталкивает к действию:

Лидогенерация в мобильном приложении театра

Конверсия в емейл у первого поп-апа составила 1,16%, а у второго — 4%. Поп-ап с призывом к действию работает лучше, потому что пользователи сразу понимают, чего от них хотят, и легче оставляют емейл.

3. Поп-апы, которые собирают номера телефонов на сайте крупного интернет-провайдера

Как думаете, какой вариант собрал больше телефонов?

Поп-ап со счастливым семейством лучше привлекает внимание. Его конверсия в телефон составила 3,1% против 2,18% у небольшого поп-апа

4. Поп-апы на сайте клиники:

В какой из поп-апов на сайте клиники вы верите больше?

Конверсия в телефон у первого поп-апа — 0,44% против 0,25% у варианта Б. Чаще всего люди не читают мелкий текст, поэтому призыв к действию должен быть заметен.

Сколько трафика нужно для проведения A/Б-тестирования

Некоторые считают, что если у сайта большой трафик, то можно смело проводить любые А/Б-тесты —результаты будут статистически достоверными. Но это не так. Для ресурсов с высокой посещаемостью критичны малейшие изменения. Внедрив «проверенный» тестом вариант, вы можете потерять тысячи или даже миллионы рублей. Небольшая ошибка здесь обходится очень дорого, поэтому требования к статистической значимости намного выше — и это затрудняет тестирование.

Найти способ для повышения конверсий с сайта непросто. Так же, как и достичь высокой статистической значимости А/Б-тестов. Поэтому нужно заранее подумать об объеме нужного трафика, прежде чем запускать эксперимент. Посмотрите на диаграмму размера выборки для А/Б-тестирования на рисунке ниже. Она наглядно показывает, сколько посетителей понадобится, чтобы добиться статистически значимых результатов в течение 30-дневного периода.

График основан на условиях, которые отражают средние значения для сайтов электронной коммерции:

  • конверсия сайта — 2%;
  • продолжительность тестирования — 30 дней, так как тестировать дольше нельзя: удаление файлов cookie сделает результаты недостоверными;
  • 1 контрольная страница A и 1 вариант для тестирования Б;
  • уровень уверенности: 95%;
  • статистическая мощность теста — 80%.

Все сайты можно разделить на 4 основных группы в зависимости от их ежемесячной посещаемости.

1. Группа «риска»

При менее чем 10 000 посетителей в месяц результаты А/Б-тестирования будут очень ненадежными. Поскольку нужно повысить коэффициент конверсии более чем на 25%, чтобы получить «выигрышный» вариант в течение 30 дней.

2. Группа «острых ощущений»

При количестве посетителей от 10 000 до 100 000 в месяц А/Б-тестирование может стать реальной проблемой. Для обеспечения значимых результатов необходимо улучшение коэффициента конверсии не менее чем на 9%.

3. Группа «интереса»

При количестве посетителей от 100 000 до 1 000 000 в месяц мы входим в зону «интереса»: нужно повысить коэффициент конверсии на 2-9%, в зависимости от количества посетителей.

4. Безопасная группа

Если у сайта более миллиона посетителей в месяц, мы находимся в «безопасной» зоне, что позволяет проводить ряд тестов с высокой статистической значимостью.

С ростом числа пользователей для каждой группы в диаграмме видно уменьшение коэффициента конверсии, которое потребуется для получения точного результата. Большинство начинающих «тестировщиков» бывают удивлены тем, насколько большим должен быть объем трафика для получения надежных результатов. Как видно из диаграммы, значительный рост CR — например, более 10%, уменьшает размер выборки, необходимый для достижения статистической значимости.

Обработка результатов

Когда все инструменты выбраны, показатели рассчитаны, а тестирование запущено, закономерно возникает вопрос обработки полученных данных. Главное не делать поспешных выводов, воодушевившись первым успехом.
Необходимо помнить, что показатели могу меняться постоянно, причем они могут делать это неравномерно и в течение продолжительного времени. Для достижения более объективного результат следует оценивать средние значения, а для этого придется сначала накопить более продолжительную историю.

Успешность внедрение изменений определяется за счет разности между средними показателями обоих сегментов. Но одной этой разности также недостаточно. Необходима уверенность в ее достоверности, в том, что результат может быть достигнут вновь и останется неизменным.

В качестве дополнительно аналитического инструмента скрипт АБ тестирования может использовать площадь пересечения распределений. Чем это пересечение меньше, тем более значимым считается результат.
Для принятия окончательного положительного решения уровень значимости обычно должен превышать девяносто процентов, при пересечении, соответственно, ниже десяти процентов. В другом случае высока опасность сделать ошибочные выводы и получить обратную отдачу.

Необходимо обратить внимание еще и на то, что с возрастанием объема трафика в сегментах снижается разброс значений за сутки. Небольшой трафик дает обратный результат, так что требует больше времени для объективности эксперимента

Чтобы сравнить полученные величины, применяется проверка статистических гипотез или другие методики. Например, принимаются две гипотезы: нулевая и альтернативная.
Первая предполагает, что разница средних значений будет минимальна, когда вторая предполагает обратный результат. Чтобы проверить обе гипотезы используются статистические тесты, выбор которых зависит от обрабатываемого показателя.
При подсчете среднесуточных значений можно воспользоваться известным тестом Стьюдента, который хорошо подходит для оценки значимости при небольших объемах данных. Это универсальная методика, которая подходит как для общих, так и для частных измерений.

Кроме того, севрис АБ тестирования может предлагать другие утилиты, всевозможные калькуляторы и прочие программы или приложения, отличающиеся возможностями и дополнительными особенностями.

Итоги

АБ тестирование – важнейшая часть любой маркетинговой кампании. Можно выделить несколько основных рекомендаций по использованию этого инструмента.

Важно прислушиваться к результатам тестирования, даже если собственные ощущения и предпочтения утверждают обратное. В отличие от частного мнения, статистика – источник объективной информации

К тому же, при наличии сомнений всегда можно провести повторную проверку.
Желательно проводить тестирование регулярно и заранее. Не стоит пренебрегать таким полезным инструментом, как объявления в ротации Яндекс Директ тест, внедряя любые изменения, будь то незначительная модернизация сайта или глобальная смена рекламной кампании. Отсутствие своевременной и достоверной информации нередко становится причиной потери аудитории и появлению нежелательных убытков.
При разделении сегментов лучше оценивать обновления по реакции новых пользователей, ведь существующие клиенты обычно предвзяты за счет сложившихся предпочтений и привычек.
Оба сегмента обязательно должны оцениваться в одно время, чтобы избежать риска искажения результата в зависимости от сроков.
Тестирование должно занимать достаточное количество времени, ведь его преждевременное прекращение нередко приводит к ошибкам в результатах. Однако, аналогичная угроза существует и при слишком затянутой проверке. Таким образом, хотя срок может ощутимо варьироваться, он должен быть грамотно рассчитан, чтобы соответствовать конкретной задаче.
Вернувшиеся пользователи должны видеть вариант, с которым они уже сталкивались. Нежелательно показывать посетителям, видевшим один вариант сайта, принципиально другую версию, ведь это может отталкивать аудиторию. Лучше заранее обеспечить возможность показывать каждому одну и ту же страницу до конца теста.
В некоторых случаях нужно проводить тестирование на всем сайте. Например, при смене заголовка или призыва к действию, которые применяются на нескольких страницах. На каждой из них они должны тестироваться отдельно.

Залогом успеха при проведении АБ тестирования является тщательный контроль и последовательность действий. Все полученные данные должны быть максимально точными, чтобы на их основе можно были принять грамотное, взвешенное решение.

Как провести A/B-тестирование за 5 шагов

1. Анализ воронки

Прежде чем начать задумываться о том, как тестировать, нужно выяснить, что нуждается в улучшении. Инструменты веб-аналитики, например, Google Analytics или Яндекс.Метрика, в числе прочего показывают, как посетители перемещаются по вашему сайту. Проведя анализ этих данных и обнаружив слабые места в своей воронке продаж, вы сможете определить, где необходимо внести изменения.

2. Создание и расстановка приоритетов для гипотез

Существует широкий спектр сервисов, которые помогают формировать гипотезы. Они варьируются от инструментов «тепловых карт», таких как Hotjar, CrazyEgg или Вебвизор от Яндекс.Метрика, до инструментов опросов, таких как Typeform. Хороший A/B тест должен иметь четко сформулированную гипотезу, основанную на реальных данных и тесно связанную с нужными KPI. Пример: если на Вебвизоре вы видите, что люди пролистывают кнопку «Заказать», значит, имеет смысл увеличить ее видимость.

3. Настройка теста

Важно точно указать настройки теста. Перед запуском нужно определиться с целью тестирования, на какие страницы направлять трафик и как будет производиться выборка пользователей для теста

Продвинутые инструменты A/B-тестирования используют алгоритм Multi-Armed Bandit — «многорукий бандит» — для разделения посетителей между тестируемыми страницами. Подробнее о нем мы расскажем ниже.

Также необходимо определиться с уровнем достоверности, которого планируется достичь. Напоминаем, что уровень уверенности в 95% является «золотым» стандартом для проведения A/Б тестов.

4. Проведение теста

Есть одно общее правило того, как проводить А/Б тест: избегайте искажения результатов из-за особенностей трафика, который поступает на тестовые страницы. Использование платной рекламы для увеличения числа посетителей часто меняет качество потенциальных клиентов, создавая ложное представление о том, какая версия лучше. Поэтому идеально, если А/Б тест проводится на текущей аудитории сайта или же на аудитории, созданной на основе существующей. Точно так же лучше не редактировать сценарии или любые настройки теста во время его выполнения.

Одна из наиболее частых проблем, с которой сталкиваются новички, — это непонимание, когда закончить A/B тест. Короткий период тестирования может не дать достаточной статистики, — достоверность результатов может быть весьма условной. Так что минимальный срок проведения A/Б теста должен составлять 10-14 дней.

5. Интерпретация результатов

Даже если вы добьетесь впечатляющих и статистически значимых результатов, все равно будет неплохо вносить изменения на сайт не сразу, а постепенно. Это связано с тем, что перемены часто имеют неожиданные последствия. Например, версия Б может побудить посетителей совершать покупки чаще, но при этом снизится средняя сумма чека. Необходимо перепроверить статистику еще раз прежде чем считать эксперимент законченным.

Подготовка к A/B тесту

Как определить размер выборки

Вам нужно определить статистическую значимость — при каких условиях вы сможете понять, что один из вариантов — самый эффективный. Большинство оптимизаторов считают результат достоверным при статистической значимости 90-95%.

С помощью калькуляторов можно узнать, достаточно ли трафика на вашем сайте для A/B-теста с выбранной статистической значимостью. В калькулятор нужно ввести текущий показатель конверсии, желаемый уровень конверсии и процент статистической значимости.

Калькулятор размера выборки Optimizely позволяет рассчитать средний размер выборки для каждого варианта теста:

Работа калькулятора Optimizely

На русском языке тоже есть такие калькуляторы. Driveback помогает рассчитать необходимый размер выборки:

Вкладка с подсчетом выборки Driveback

Еще он поможет определить статистическую значимость после проведения теста.

Если вы поняли, то вам хватает трафика для проведения эксперимента, можно приступать к следующему шагу.

Что тестировать в первую очередь

На сайте можно проверить чуть ли не каждый элемент — заголовки, цены, кнопки, фотографии и прочее. Первый вопрос — с чего начать? Есть три подхода для начала сплит-теста:

Способ 1: протестировать страницы с высоким трафиком

Если вы улучшите конверсионность страницы, которая и так получает много трафика, вы сможете получить еще больше конверсий. Вы сможете удостовериться, что изначальный вариант работает по-максимуму, или найдете лучший.

Способ 2: протестировать страницы с самыми плохими показателями

Вы можете начать A/B тестирование на страницах с низкими показателями конверсии. Хуже им не будет, зато вы сможете улучшить их конверсионность в несколько раз.

Способ 3: оценить качественные и количественные данные

Используйте данные юзабилити-тестирований и других исследований. Если вы знаете, что пользователи не могут найти кнопку для бронирования, с помощью тестов вы подберете лучшее место для этой кнопки. Первым тестом может быть гипотеза «Поместить кнопку нужно по центру страницы».

Как сформулировать гипотезу

Когда вы поняли, с чего будете начинать, можно формулировать гипотезу. Без нее не проводят ни одного исследования, потому что иначе непонятно, что проверять и какие показатели измерять. Гипотезу всегда формируют до начала теста.

К примеру, специалист по SEO Брайан Дин решил протестировать прокрутку в его блоге Backlinko. Форма подписки появляется на первом экране:

Форма подписки в блоге

Брайан хотел проверить, будет ли больше конверсий, если показывать окно позже. При оформлении A/B теста он сформулировал гипотезу — всплывающее после скроллинга окно подписки увеличит количество подписавшихся на , при этом не будет негативно влиять на конверсию других элементов страницы.

После формулирования гипотезы можно подготавливать варианты для проверок.

С чего начать?

Сформируйте список гипотез — это предположения о том, где рекламная кампания может работать лучше. Концентрироваться стоит не только на главной цели — получении продаж, можно работать над повышением конверсионности посадочной страницы и объявлений, уменьшением показателя отказов, увеличением кликабельности и прочим.

После формирования списка оцените, какой пункт может дать наибольший эффект, если гипотеза сработает. Так получится сформировать очередность тестов, выделяя в приоритет самые потенциально результативные решения.

Где брать идеи для тестов

  1. Стандартные элементы. Под ними понимаются тексты объявлений, картинки, позиции в выдаче, стратегии управления ставками. Это прекрасный старт для внедрения процесса А/Б-тестирования. Внимательно наблюдайте за результатами, записывайте всё, что заметите, — это может стать отличной базой для следующих тестов.

  2. Рекомендованные настройки и стандарты. Подвергайте сомнениям все настройки, особенно те, что диктуются рынком и системами как правильные и проверенные. К примеру, в сети Яндекса принято не использовать минус-слова: считается, что это ограничивает охват. А что если попробовать применить общий пакет минус-слов? Возможно, станет меньше трафика, но он будет более качественным.

  3. Аналитика. Статистика может стать основным источником вашего вдохновения. На основе отчетов по рекламным кампаниям можно сформировать целый ряд гипотез о том, как улучшить каждый этап пути пользователя к покупке: от показа объявления до заказа на сайте.

  4. Отдел продаж и клиентский сервис. Ценную информацию для гипотез могут подсказать отделы, которые напрямую общаются с клиентами. Они чаще всего знают боль пользователя и причины выбора вашего продукта, удобство сайта и прочие важные мелочи. Опираясь на эти данные можно сгенерировать немало идей.

  5. Конкуренты. Идеи для тестирований можно взять из анализа конкурентов в этой или близкой тематике. Именно так у нас стал популярен вариант с расширенными уточнениями в виде коротких УТП: объявление становилось на строку больше и занимало еще больше места. Мы заметили такой формат у конкурентов бренда, протестировали, отметили рост CTR и стали внедрять для разных тематик.

Элементы эксперимента

Контрольная группа. Тестирование предусматривает наличие контрольной группы, характеристики которой определяют аналитики и специалисты по большим данным при помощи математического анализа. Группы формируют так, чтобы они дублировали поведение пользователей всех сегментов аудитории Lamoda. Для конкретного эксперимента продакт-менеджеры могут выбрать группу из заранее сформированных по определенным правилам. 

Тестовые группы. У нас есть возможность раскатить новую фичу, например, только на сотрудников и даже только на одного пользователя. Можно открыть эксперимент для разных сегментов аудитории: по странам, по платформам, по группам. Классическая схема: 50% аудитории выступают как контрольная группа, другие 50% — как тестовая.

Открывать новую фичу просто на всех пользователей без сложных схем тестирования не очень эффективно для большого бизнеса: мы не поймем, действительно ли конкретное изменение повлияло на общую выручку или конверсию в покупку, не сможем спрогнозировать дальнейшие точки роста.

Вот так выглядит внутренняя админка сайта с двумя вариантами A/B-тестов. 

Метрики. Стандартные метрики в A/B-тестировании — это срок, процент конверсии в покупку и рост выручки. Могут быть и чисто продуктовые метрики: в случае тестирования рекомендательной «полки» с товарами для пользователя нужно понять, сколько на ней должно быть карточек товара, удобно ли пользователю листать вбок.

В этом случае можно принять в качестве метрики количество карточек на полке рекомендаций. А при тестировании блока с возможностью оплаты с рассрочкой можно оценить и конверсию в покупку, и конверсию в заказ. 

В блоке про доставку добавили информацию про условия бесплатной доставки.

Срок. Срок теста определяется исходя из перспектив набора статистической значимости — необходимого объема пользователей, которые бывают в разделе расположения новой фичи. В среднем наши тесты идут три-четыре недели. В менее посещаемых разделах эксперименты длятся дольше. 

Пример эксперимента: перенос блока про доставку под кнопку «Добавить в корзину», так как исследование показало, что информация о выборе цвета и размера для пользователя важнее, чем информация о доставке.

Стандартный научный подход

Сейчас обычно используют методику тестирования, перекочевавшую в интернет-маркетинг из методики проведения научных экспериментов. Обычно ее называют стандартный научный подход проверки гипотез/теорий. Мы будем называть ее СНП.

Сама методика состоит в следующем:

  • Выбираем гипотезу “Если мы поменяем цвет кнопки на красный, то конверсия улучится с 1% до 1.1%”.
  • Выбираем нулевую гипотезу (альтернативу). “Смена цвета не улучшит конверсию (или вообще ухудшит).”
  • Считаем число кликов, которые нужно чтобы доказать нашу гипотезу или нулевую гипотезу.
  • Начинаем тест, случайным образом распределяя клики между двумя вариантами.
  • Через определенное число кликов, мы оцениваем данные.

У нас может быть три исхода A/B теста:

  • Гипотеза подтверждена – меняем цвет
  • Гипотеза опровергнута – это не значит, что красный цвет хуже, это значит, что он дает меньше чем 1.1% конверсии.
  • Ничего не понятно. Результаты не дают ни достоверного подтверждения, ни опровержения гипотезы.

Последний вариант самый интересный. Может показаться, что нужно еще подождать некоторое время, пока не станет что-то понятно. Но это не так. Нужно заново проводить тест и игнорировать старые данные.

Фундаментальная проблема СНП в том, что его цель – проверить какую-то гипотезу. Но мы проводим тесты не ради научного любопытства, а для улучшения конверсии. Это рождает целый ряд проблем:

  • Мы сравниваем не варианты, а гипотезы. Хотя нам нужно выбрать вариант с лучшей конверсией.
  • Сложность проведения, требования к подготовке экспериментатора.
  • Мы не можем остановить тест, когда уже есть очевидный победитель. В этом случае мы бы проводили тесты быстрее и быстрее бы увеличили конверсию.
  • Возможность исхода: “ничего не понятно”.
  • А главное, на такой тест нужно просто астрономическое число кликов.