Цифровой продукт — комплексное решение, и иногда бывает сложно определить, какой именно элемент обеспечивает успех всей системы.
Как понять, что пользователей на платформе удерживают именно продуктовые особенности? Как оценить, какой процент успеха зависит от фич, а за что стоит благодарить разнообразный контент, известный бренд, убедительность отдела продаж или оперативную техподдержку? Отвечает директор по продукту онлайн-кинотеатра KION Алексей Чернов.
Что может держать пользователей
Часто команды оценивают только эффективность той или иной продуктовой фичи. Это важно, но не менее важно оценивать эффективность работы продуктовой команды в целом. Потому что зачастую сложно определить, что конкретно привлекает и удерживает пользователей в продукте: хорошая работа отдела продаж, уникальная технология, оперативный саппорт или удобное приложение.
Цифровой продукт — это комплексное решение, а опыт пользователя многогранен, состоит из самых разных элементов. Именно поэтому бывает сложно убедиться, что пользователей удерживают именно продуктовые фичи.
Оценка эффективности
Есть разные способы оценивать эффективность фичей, но наиболее точными являются все-таки а/б тесты на настоящих пользователях. Раньше мы их делали только в отдельности для каждой фичи, а теперь научились делать для совокупности.
Каждую фичу отдельно мы запускаем через а/б тест и фиксируем результаты. Но очевидно что результаты 5-6-7 а/б тестов нельзя просто взять и математически сложить, потому что они скорее всего будут наслаиваться друг на друга. Поэтому хотелось измерить именно совокупный эффект.
Вторая задача, которую мы решали — это оценить вклад в общие метрики именно продуктовой ИТ команды. Потому что общие показатели сервиса зависят от многих факторов: контент, премьеры, реклама, маркетинг, тарифы и многое другое.
Вечный эксперимент
Чтобы измерить совокупный эффект фич и их влияние на удержание пользователей, мы запустили так называемый «вечный эксперимент»: выделили из всей аудитории KION небольшую фокус-группу, 6% пользователей, которая не получала никаких продуктовых обновлений. И это позволило нам увидеть, что внедрение продуктовых фичей действительно имеет высокий эффект на аудиторию. Конечно, технические важные обновления пользователи получают: если есть критические ошибки или требования законодательства, мы обязаны вносить эти изменения для всех пользователей.
Почему именно 6%? Это математический расчет, который определяется длительностью эксперимента, объемом аудитории и желаемой статистической значимостью измерений. Группы разделены именно в % и случайным образом. Соответственно в тестовую группу попадают и новые пользователи, и старые. Новый пользователь, который попадает в тестовую группу, видит все то же, что и пользователи, которые были в ней с самого начала.
Набор фичей определяется не версией приложения, а именно конфигурацией приложения, которую пользователь получил при загрузке. Для достижения релевантных результатов пользователи определяются случайным образом.
Понятно, что некоторых пользователей мы немного «обижаем», но при этом они пользуются хорошей стабильной версией приложения — это тоже ценно! С точки зрения продукта же стоит отметить, что без такого рода тестов невозможно развиваться: непонятно, что мы делаем хорошо, а что плохо. Такие эксперименты помогают нам становиться лучше.
Планы на будущее
Результаты нас очень порадовали. Мы увидели статистически значимые изменения по всем измеряемым показателям.
Первый эксперимент продлился почти 6 месяцев. Мы запустили его в июне 2023 года и завершили в декабре, чтобы подвести итоги и докатить несчастным 6% недостающие блага. В 2024 году планируем поддержать эксперимент в течении всего года. А учитывая увеличение длительности, мы сможем уменьшить размер тестовой группы до 1%.
При этом новые фичи релизятся регулярно. Мы работаем по Scrum. Это фреймворк, методика управления проектами на основе определенного набора ценностей, принципов и практик с двухнедельными итерациями. Стараемся выкладывать новые версии приложений каждые две недели. Не всегда новая версия содержит что-то ощутимое для пользователя, это может быть просто фикс ошибок. Но стараемся, чтобы с этой периодичностью и появлялось что-то новое и интересное.
Как провести такой эксперимент?
Главное — решиться и помнить, что подобные тесты проводятся для улучшения продукта, а значит, для пользователей. Конечно, эксперимент и внутри нашей команды спровоцировал дискуссии об этичности, к тому же, мы прекрасно понимали, что такие тесты сопряжены с потерями в метриках и деньгах. Но мы пошли на это ради науки и перспективы узнать о продукте что-то совершенно новое, а затем значительно его усовершенствовать.
Да, такой эксперимент не стоит проводить тем, у кого продуктовая аналитика на ранних стадиях развития, а также тем, у кого все очень жестко завязано на монетизацию, ибо такие смелые тесты — это всегда риски.
Но если вы готовы провести подобное тестирование, вот пара советов, как получить максимально чистые и объективные результаты.
Продукт до старта эксперимента не должен кардинально меняться. Заведомое ухудшение продукта до начала эксперимента может исказить результаты, когда продукт просто вернется в изначальное состояние. Такие ухудшения могут быть, например, регуляторными.
Надо стараться, чтобы как можно меньше фичей или изменений добавлялись в тестовую группу. Это, как я писал выше, может зависеть от законов или наоборот от технологических ограничений и невозможности делить функционал на группы а/б.
Как вы оцениваете эффективность фичей в своем продукте? Расскажите в комментариях.