ProductHub

A/B-тесты: дизайн эксперимента, размер выборки и стат-значимость

A/B-тест (сплит-тест) — это контролируемый эксперимент: вы случайно делите пользователей на варианты и сравниваете одну заранее выбранную метрику. Сила метода не в самом разбиении трафика, а в дисциплине вокруг него — заранее названной гипотезе, метрике, размере выборки и правиле остановки. Без этой дисциплины A/B-тест превращается в генератор красивых, но ложных «побед».

Что такое A/B-тест и когда он уместен

В A/B-тесте трафик случайным образом распределяется между контролем (A) и одним или несколькими вариантами (B, C…). Рандомизация — ключевая деталь: она уравнивает группы по всем факторам, которые вы не контролируете, поэтому разницу в метрике можно списать на изменение, а не на то, что в один вариант случайно попали более активные пользователи.

A/B-тест уместен, когда изменение измеримо влияет на поведение, а трафика достаточно, чтобы заметить эффект ожидаемого размера. Это инструмент оптимизации в пределах работающей модели — он отвечает на «какой из вариантов лучше», но не заменяет discovery, который отвечает на «стоит ли это вообще делать».

Сначала — гипотеза и одна метрика

Эксперимент начинается не с трафика, а с проверяемой гипотезы: «Мы верим, что [изменение] увеличит [метрика] у [сегмента], потому что [причина]. Тест успешен, если [метрика] вырастет минимум на [порог]».

Заранее назначьте одну первичную метрику (OEC — overall evaluation criterion). Если первичных метрик несколько и «выигрышем» считается улучшение любой из них, вы почти гарантированно найдёте ложный эффект. Остальные метрики держите как вторичные и как guardrail (например, выручка не должна просесть ради роста кликов).

Размер выборки и статистическая мощность

Размер выборки нужно считать до запуска, а не останавливаться, «когда появится значимость». Он зависит от трёх величин:

  • Базовая конверсия метрики в контроле.
  • Минимально значимый эффект (MDE) — наименьшее изменение, которое вам важно поймать. Чем меньше эффект вы хотите различить, тем больше нужна выборка (примерно квадратично).
  • Уровни ошибок: значимость α (обычно 5%) и мощность 1−β (обычно 80%). Мощность — это вероятность заметить эффект, если он реально есть; при низкой мощности «отсутствие значимости» не значит «разницы нет».

Из размера выборки и вашего трафика сразу следует длительность теста. Полезное правило — гонять тест целым числом недель, чтобы покрыть недельную сезонность (будни/выходные ведут себя по-разному).

Статистическая значимость и доверительный интервал

p-value отвечает на узкий вопрос: насколько вероятно увидеть такую (или большую) разницу, если на самом деле изменения нет. p < 0.05 — это конвенция, а не истина: она не говорит ни о размере эффекта, ни о вероятности того, что гипотеза верна.

Поэтому смотрите не только на «значимо/незначимо», но и на доверительный интервал эффекта. Интервал «+0.1%…+0.3%» и интервал «−2%…+8%» могут быть оба «незначимыми», но говорят о совершенно разном: в первом случае эффект мал и понятен, во втором — данных просто не хватило. Размер эффекта важнее самого факта значимости.

Частые ошибки, которые делают результат ложным

  • Подглядывание (peeking). Если останавливать тест в момент, когда «наконец стало значимо», доля ложных срабатываний резко растёт. Фиксируйте размер выборки заранее или используйте методы для последовательного анализа.
  • Множественные сравнения. Десять метрик или десять вариантов — и одно «значимое» отличие почти наверняка появится случайно. Нужна поправка (например, Бонферрони) или одна первичная метрика.
  • Нарушение рандомизации / SRM. Если доли групп не совпадают с задуманными (sample ratio mismatch), тест сломан на уровне сплита — результату нельзя верить.
  • Слишком короткий тест. Эффект новизны и недельная сезонность искажают первые дни.
  • Подмена метрики задним числом. Выбор «выигравшей» метрики после просмотра данных — это подгонка, а не проверка.

Когда A/B-тест не нужен

Сплит-тест требует трафика. На раннем продукте с десятками пользователей в день вы не наберёте мощность за разумное время — дешевле и честнее качественные методы: интервью, прототипы, fake-door. A/B-тест также не нужен для очевидных исправлений (баг, явный регресс) и для решений, которые невозможно откатить. Правило простое: эксперимент оправдан, когда цена ошибки выше цены теста, а трафика хватает, чтобы тест что-то показал.

Разберите свою задачу по этой логике — бесплатно

ProductHub Deep Dive за ~7 минут превращает вашу продуктовую задачу в план с обоснованием, опираясь на методологию и 200+ реальных проектов агентства. Без воды и коммерческих звонков.

Пройти разбор бесплатно

Частые вопросы

Сколько нужно трафика для A/B-теста?

Зависит от базовой конверсии и минимального эффекта, который вы хотите поймать: чем меньше эффект, тем больше выборка (примерно квадратично). Размер считают заранее по калькулятору мощности; из него и вашего трафика следует длительность. Если набор выборки занимает много месяцев, тест в текущем виде не имеет смысла.

Можно ли остановить тест, как только появилась значимость?

Нет, это классическая ошибка (peeking): многократные проверки раздувают долю ложных «побед». Останавливайтесь на заранее рассчитанном размере выборки или используйте методы последовательного анализа, которые корректно учитывают подглядывание.

Что важнее — p-value или размер эффекта?

Размер эффекта и его доверительный интервал. p-value лишь говорит, насколько данные совместимы с гипотезой об отсутствии разницы, но ничего не сообщает о практической величине эффекта. Значимое, но крошечное улучшение может не стоить внедрения.