Це цікаво

A/B тест — це просто

A/B тестування — це потужний маркетинговий інструмент для підвищення ефективності роботи вашого інтернет-ресурсу. За допомогою A/B тестів підвищують конверсію посадкових сторінок, підбирають оптимальні заголовки оголошень в рекламних мережах, покращують якість пошуку.

Мені часто доводиться стикатися з завданнями організації A/B тестування в різних інтернет-проектах. В цій статті хочу поділитися необхідними базовими знаннями для проведення тестів і аналізу результатів.

Навіщо потрібні А/B тести?

Отже, уявимо ситуацію, наш проект запущений в життя, на ньому збирається трафік, користувачі активно використовують ресурс. І в один прекрасний день ми вирішили щось змінити, наприклад, розмістити спливаючий віджет для зручності підписки на новини.

Наше рішення — це інтуїтивне припущення про те, що користувачам ресурсу стане простіше підписуватися на нові матеріали, ми очікуємо підвищення кількості передплатників.

Наші припущення і гіпотези будуються на основі особистого досвіду і наших поглядів, які зовсім не обов’язково збігаються з поглядами аудиторії нашого ресурсу. Іншими словами, наше припущення зовсім не означає, що після внесення змін ми отримаємо бажаний ефект. Для перевірки таких гіпотез ми і проводимо A/B тести.

Як проводимо тести?

Ідея A/B тестування дуже проста. Користувачі ресурсу випадковим чином діляться на сегменти. Один із сегментів залишається без змін — це контрольний сегмент “A”, на основі даних по цьому сегменту ми будемо оцінювати ефект від внесених змін. Користувачам з сегменту “B” показуємо змінену версію ресурсу.

Щоб отримати статистично значимий результат, дуже важливо виключити вплив сегментів один на одного, тобто користувач повинен бути віднесений строго до одного сегмента. Це можна зробити, наприклад, записавши мітку сегмента cookies браузера.

Для зниження впливу зовнішніх факторів, таких як рекламні кампанії, день тижня, погода або сезонність, виміри в сегментах важливо робити паралельно, тобто в один і той же період часу.

Крім того, дуже важливо виключити і внутрішні фактори, які також можуть істотно спотворити результати тесту. Такими факторами можуть бути дії операторів call-центру, служба підтримки, робота редакції, розробники або адміністратори ресурсу. У Google Analytics для цього можна скористатися фільтрами.

Число користувачів в сегментах не завжди вдається зробити рівним, у зв’язку з цим метрики, як правило, вибираються відносні, тобто без прив’язки до абсолютних значень аудиторії в сегменті. Нормування здійснюється або на кількість відвідувачів, або на число переглядів сторінок. Наприклад, такими метриками можуть бути середній чек або CTR посилання.

Однією з причин ділити аудиторію непропорційно може бути істотна зміна в інтерфейсі. Наприклад, повне оновлення застарілого дизайну сайту, зміна системи навігації або додавання екранної форми для збору контактної інформації. Такі зміни можуть призвести як до позитивних, так і до негативних ефектів в роботі ресурсу.

Якщо є побоювання, що зміна може мати сильний негативний вплив, наприклад, призвести до різкого відтоку аудиторії, то, на першому етапі, має сенс тестовий сегмент робити не дуже великим. У разі відсутності негативного ефекту, розмір тестового сегмента можна поступово збільшити.

Що покращуємо?

Якщо ви збираєтеся провести A/B тестування на своєму ресурсі, то напевно у вашого проекту вже сформовані основні показники, які необхідно покращити. Якщо таких показників ще немає, тоді саме час про них замислитися.

Показники насамперед визначаються цілями проекту. Нижче наведу кілька популярних метрик, що використовуються в інтернет-проектах.

Конверсія

Конверсія обчислюється як частка від загального числа відвідувачів, які вчинили яку-небудь дію. Дією може бути заповнення форми посадкової сторінці, здійснення покупки в інтернет-магазині, реєстрація, підписка на новини, клік на посилання або блок.

Економічні показники

Як правило, ці метрики застосовні для інтернет-магазинів: величина середнього чека, обсяг виручки, віднесений на число відвідувачів інтернет-магазину.

Поведінкові фактори

До поведінкових факторів відносять оцінку зацікавленості відвідувачів в ресурсі. Ключовими метриками є: глибина перегляду сторінок — число переглянутих сторінок, віднесене до числа відвідувачів на сайті, середня тривалість сесії, показник відмов — частка користувачів, які залишили сайт відразу після першого заходу, коефіцієнт утримання (можна вважати, як мінус 1 % нових користувачів).

Одного показника не завжди достатньо для оцінки ефекту від внесених змін. Наприклад, після змін на сайті інтернет-магазину середній чек може зменшитися, але загальна виручка зрости за рахунок підвищення конверсії відвідувача в покупця. У зв’язку з цим, важливо контролювати кілька ключових показників.

Аналіз результатів

Відмінно, ключові показники визначені, тест запущений і ми отримали перші дані. У цей момент, особливо якщо дані відповідають нашим очікуванням, виникає спокуса зробити поспішні висновки про результати тестування.

Поспішати не варто, значення наших ключових показників можуть змінюватися день ото дня — це означає, що ми маємо справу з випадковими величинами. Для порівняння випадкових величин оцінюють середні значення, а для оцінки середнього значення потрібен деякий час, щоб накопичити історію.

Ефект від внесення зміни визначають як різницю між середніми значеннями ключового показника у сегментах. Тут виникає наступне питання, наскільки ми впевнені в достовірності отриманого результату? Якщо ми ще раз проведемо тест, то яка ймовірність того, що ми зможемо повторити результат?

Нижче на малюнках приведені приклади розподілу значень показника в сегментах.


Графіки розподілу характеризують частоту появи того чи іншого значення випадкової величини у вибірці. В даному випадку всі значення розподілені навколо середнього.

На обох картинках середні значення показника у відповідних сегментах однакові, картинки відрізняються тільки розкидом значень.

Цей приклад добре ілюструє, що різниці середніх значень недостатньо для того, щоб вважати результат достовірним, необхідно також оцінити площа перетину розподілів.

Чим менше перетин, тим з більшою впевненістю ми можемо сказати, що ефект справді значущий. Ця “впевненість” у статистиці називається значимістю результату.

Як правило, для прийняття позитивного рішення про ефективність змін рівень значущості вибирають рівним 90%, 95% або 99%. Перетин розподілів при цьому дорівнює відповідно 10%, 5% або 1%. При невисокому рівні значущості існує небезпека зробити помилкові висновки про ефект, отриманий в результаті зміни.

Незважаючи на важливість цієї характеристики, у звітах A/B тестів, на жаль, часто забувають вказати рівень значущості, при якому був отриманий результат.

До речі, на практиці приблизно 8 з 10 A/B тестів не є статистично значущими.

Варто відзначити, що чим більше обсяг трафіку в сегментах, тим менше розкид середньодобових значень показника. При невеликому трафіку через бпрольшего розкиду значень випадкової величини буде потрібно більше часу для проведення експерименту, але в будь-якому разі це краще, ніж зовсім не проводити експеримент.

Оцінити значимість результатів

Для порівняння випадкових величин математики придумали цілий розділ під назвою перевірка статистичних гіпотез. Гіпотез всього дві: “нульова” і “альтернативна”. Нульова гіпотеза припускає, що різниця між середніми значеннями показника в сегментах незначна. Альтернативна гіпотеза передбачає наявність суттєвої різниці між середніми значеннями показника в сегментах.

Для перевірки гіпотез існує кілька статистичних тестів. Тести залежать від характеру вимірюваного показника. У загальному випадку, якщо ми вважаємо середньодобові значення, можна скористатися тестом Ст’юдента. Цей тест добре зарекомендував себе для невеликих обсягів даних, оскільки враховує розмір вибірки при оцінці значущості.

В якості прикладу наведу порівняння середньої тривалості сесії в сегментах на одному з ресурсів, для яких я проводив експеримент: studentttest.xls.

Тест Стьюдента — універсальний, його можна застосовувати як для вимірювань конверсії, так і для таких кількісних показників, як середній чек, середня глибина перегляду або час, проведений користувачем на сайті.

У разі, якщо ви вимірюєте тільки конверсію, то ви маєте справу з бінарної слуайной величиною, яка приймає тільки два значення: відвідувач “сконвертировался” і “не сконвертировался”. Для оцінки статистичної значущості у цьому випадку можна скористатися онлайн калькулятором.

Інструменти

Для організації тесту необхідний інструмент, що дозволяє розташувати аудиторію за сегментами і порахувати значення ключових показників окремо в кожному сегменті.

Якщо ваші ресурси дозволяють, то такий інструмент можна реалізувати самостійно на основі аналізу логів дій користувачів. Якщо ресурси обмежені, то варто скористатися стороннім інструментом. Наприклад, Google Analytics є можливість задавати власні сегменти.

Існує ряд сервісів, які дозволяють повністю автоматизувати процес тестування, наприклад, той самий Google Analytics Experiements, приклади інших сервісів можна знайти в огляді.

А далі?

У статті наведено базові знання, необхідні для проведення A/B тестів і аналізу результатів. Наступний крок — це продуктова аналітика. На завершення хочу поділитися посиланням на відмінну презентацію по продуктовій аналітиці з прикладами A/B тестування від Курышева Євгенія.

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *

Close