С ростом объёмов генерируемых данных повышаются и требования к скорости их обработки. Согласно прогнозу аналитической компании MarketsAndMarkets, объём рынка систем анализа потоковых данных, или, другими словами, систем анализа данных в режиме реального времени, составит около 30 миллиардов долларов в 2024 году и вырастет до 126 миллиардов долларов в 2029-м. Это означает, что ежегодный рост рынка составит около 34%.
Для чего нужна аналитика данных в реальном времени
Почему мы наблюдаем такой стремительный рост интереса компаний по всему миру к анализу данных в реальном времени? В современном бизнесе скорость принятия решений становится одним из ключевых факторов успеха. Компании, которые могут быстро получать ценную информацию и вовремя реагировать на изменения, получают значительное конкурентное преимущество. В этой статье мы подробно рассмотрим, когда стоит применять анализ потоковых данных и зачем он нужен компаниям из различных сфер.
Анализ потоковых данных, также известный как аналитика в режиме реального времени, представляет собой процесс сбора и обработки информации в режиме «здесь и сейчас». В отличие от традиционного анализа данных, этот подход позволяет обрабатывать большие объемы информации практически мгновенно, и дает компаниям возможность быстро принимать решения в ответ на происходящие события.
Аналитика в режиме реального используется во многих сферах бизнеса: от производства и здравоохранения до маркетинга и общественной безопасности. Она также играет ключевую роль в оптимизации бизнес-процессов, таких как поиск сырья, планирование производства, логистика и клиентский сервис.
Например, real-time-аналитика используется для анализа разговоров в контакт-центре. Она выявляет, движется ли разговор по положительному или отрицательному сценарию, и тут же даёт рекомендации, чтобы помочь сотрудникам направить общение в нужное русло. Она также используется для анализа поведения клиентов и выявления признаков того, что клиент может уйти к конкурентам. Это позволяет компаниям оперативно реагировать и исправлять проблемы, прежде чем они приведут к потере клиентов. Во всех этих случаях для анализа больших объёмов данных используются системы, способные работать в режиме реального времени.
Пример компании
Хорошим примером эффективного использования таких систем является анализ событий и логов, которые возникают при работе веб-сайта интернет-магазина. Для его бесперебойной и эффективной работы нужно анализировать поведение пользователей на страницах сайта, следить за событиями безопасности, событиями в платёжных системах, использовать системы по борьбе с мошенниками, системы защиты от атак и делать это всё в режиме реального времени.
Допустим, мы хотим запустить промоакцию на сайте по продвижению новой линейки товаров. Каталог обновлён, лендинг подготовлен, всё протестировано и готово к запуску. Мы запускаем рассылку и рекламу в соцсетях и ожидаем поток заказов, но их нет. Проблему можно обнаружить с помощью анализа логов — событий, которые при работе наш сайт регистрирует в виде журналов. Действия пользователей на определённой странице, выполнение операций, переходы от страницы к странице, выбор элементов управления — всё это может регистрироваться в журналах событий. При большом количестве пользователей и операций на нашем сайте логи могут занимать огромный объём.
Разобраться в таком объёме данных вручную сложно, необходимо использовать специализированные системы для анализа журналов событий. Для поиска и определения проблемы можно внедрить систему сбора и анализа потоковых данных. Определяем правила анализа, автоматизированные реакции системы и оповещения для сотрудников. При старте продаж система оповещает, что 99% пользователей не двигаются дальше по процессу покупки товара после нажатия кнопки «Добавить товар в корзину», так как страница с корзиной не отображается. Так мы находим ошибку, возникшую при развёртывании новой версии сайта. Администратор оперативно обращается к разработчику для исправления ошибки. Без системы анализа потоковых данных ошибка на лендинге была бы обнаружена только после массового обращения пользователей в службу поддержки или, что ещё хуже, после провала акции.
В реальном мире интернет-магазины могут проводить десятки акций одновременно, а события происходят во всех связанных с сайтом системах безопасности, логистики, отслеживания, платежей, интеграции и обмена данными. Не все эти события требуют мгновенной реакции, но есть критические события, важные для успешного бизнеса. Скорость реакции на них даёт компаниям значительное преимущество в конкурентной борьбе: они могут оперативно принимать решения, оказывать качественные услуги, снижать риски, укрепляя свою позицию на рынке.
Преимущества анализа потоковых данных
Системы для анализа потоков данных позволяют компаниям.
Быстро принимать управленческие решения. Пример: розничные продавцы могут в реальном времени корректировать уровень своих запасов, основываясь на данных о продажах. Это позволяет им всегда иметь в наличии популярные товары и минимизировать риск упущенных продаж.
Повышать эффективность бизнеса. Пример: производители могут отслеживать оборудование и производственные линии в режиме реального времени для обнаружения и решения любых эксплуатационных проблем или потребностей в техническом обслуживании, предотвращая дорогостоящие сбои в работе и обеспечивая стабильное качество продукции.
Своевременно и качественно управлять рисками. Пример: финансовые учреждения могут использовать анализ потоков данных в режиме реального времени для мгновенного обнаружения подозрительных транзакций и предотвращения мошенничества, уменьшая потенциальные финансовые потери и защищая счета клиентов.
Улучшать клиентский опыт. Пример: предприятия электронной коммерции могут использовать данные в режиме реального времени для персонализации рекомендаций по продуктам, гарантируя, что предложения соответствуют последнему поведению и предпочтениям клиентов.
Какие технологии используются
Рассмотрим базовые технологии и компоненты, которые позволяют создавать универсальные системы анализа данных в реальном времени.
Система обработки потоков событий. Ключевым компонентом всех решений для анализа потоковых данных является система обработки потоков событий. Одним из примеров таких систем может служить распределённая платформа потоковой передачи и обработки событий.
Если нужна сверхскорость — резидентные СУБД. Если же требуется обрабатывать огромное число событий или требуется гарантированная скорость отклика, то в дело вступают резидентные системы управления базами данных, такие как Picodata. Резидентная база данных (англ. in-memory database, IMDB) — это база данных, которая располагается в оперативной памяти для ускорения обработки данных. Такие базы данных могут использоваться для кэширования и предварительной обработки потоков данных перед их отправкой в постоянное хранилище.
Аналитические СУБД. Очереди сообщений и резидентные СУБД не предназначены для долгосрочного хранения больших массивов данных. В итоге мы должны поместить данные в одну из классических дисковых СУБД. При этом, если мы хотим использовать эти данные для анализа и отчётов со скоростью обработки, близкой к реальному времени, то нам не обойтись без колоночных аналитических СУБД.
Сферы использования
Среди всех сфер главными лидерами цифровой трансформации считают телеком, ритейл и финтех. Однако в последние годы гиганты из промышленного сектора тоже стремятся к качественно новому повышению эффективности за счёт внедрения современных технологий и анализа данных. Это позволяет им:
- оптимизировать производственные процессы: компании отслеживают состояние оборудования, прогнозируют сбои и предотвращают простои;
- следить за качеством: предприятия могут автоматически контролировать качество продукции, обнаруживать дефекты и предотвращать выпуск некачественных товаров;
- управлять ремонтом и обслуживанием: аналитика помогает оптимизировать расписание обслуживания техники, предупреждая о неисправностях;
- соблюдать безопасность: с помощью технологий предприятия могут вовремя обнаружить, устранить неисправности и предотвратить аварии на производстве.
Например, Data-платформа, основанная на продуктах Arenadata позволяет «Норникелю» анализировать информацию в режиме, близком к реальному времени. Она способна обрабатывать данные с датчиков оборудования, пакетные данные из реляционных систем, подключать ML-модели, исследовать данные и получать аналитическую отчётность с помощью BI-инструментов, подключенных к «Озеру данных».
Компании из финансовой сферы уделяют особое внимание безопасности и своевременному предложению услуг. В банках подобные решения используются для Ad-hoc-аналитики:
- Быстрое предложение нужных продуктов. Например, если по геолокации банк определяет, что человек находится в торговом центре и ему могут понадобиться деньги, он присылает СМС с предложением оформить кредитную карту. Если же банк видит, что на счету клиента лежит довольно большая сумма, он может мгновенно предложить ему открыть депозитный счёт.
- Предложение расширения лимитов по кредитной карте. Если банк замечает, что клиент находится за границей и его лимиты по кредитной карте близки к исчерпанию, он оперативно предлагает расширить их.
- Принятие решений о выдаче кредита. Когда клиент обращается за кредитом, обычно он направляет заявку сразу в несколько банков. И тот банк, который мгновенно предложит наиболее выгодные условия, и «выигрывает» этого клиента.
Для розничных продавцов очень важны доступность товаров и качество обслуживания клиентов. В сфере ритейла мы наблюдаем следующие сценарии применения потоковой аналитики:
- Быстрая обработка потоковых данных: накопление и передача в хранилище чеков, баллов и фишек.
- Расчёты «на лету»: начисление и списание баллов, работа с фишками, предоставление персональных скидок, обработка результатов промоакций, работа с QR-сканерами, персонализированные предложения.
- Контроль логистики: отслеживание времени и графика разгрузки, приёмка товара и взаиморасчёты, контроль за передвижением машин и грузов между складом и торговой точкой, расчёт стоимости доставки в зависимости от расстояния, объёма и массы груза.
- Формирование динамических витрин: создание привлекательных предложений на основе исторических данных и данных в реальном времени, таких как история покупок, ассортимент товаров в магазине, спрос на отдельные товары и группы товаров, специальные цены для товаров с истекающим сроком годности.
- Карточка товара/услуги в памяти: интеграция с приложениями для потребителей с информацией о товарах и услугах, поставщиках, клиентах и др.
- Мастер-хранилище профилей покупателей: способность обрабатывать до N запросов в секунду.
Анализ данных играет ключевую роль практически во всех задачах бизнеса, будь то повышение безопасности, предотвращение рисков, улучшение финансовых показателей или клиентского сервиса. Используя решения для потокового анализа данных, компании могут оптимизировать процессы, достигать лучших результатов и оставаться конкурентоспособными в условиях быстро меняющегося рынка.
Использует ли ваша компания анализ данных в режиме реального времени?