Пройдите опрос о продвижении бизнеса. В ответ делимся гайдом

Пройдите опрос о продвижении бизнеса. В ответ делимся гайдом

Участвовать
Идеи для бизнесаБизнес с нуляМаркетплейсыВопросы–ответыЖизнь вне работыСправочник
Идеи для бизнесаБизнес с нуляМаркетплейсыВопросы–ответыЖизнь вне работыСправочник

Как создавали Нейрожириновского и чем цифровые аватары могут помочь бизнесу


Разработчики проанализировали терабайты данных и научили нейросеть улыбаться, злиться и говорить как известный политик


Эту статью написал участник сообщества

Григорий Шершуков

Григорий Шершуков

Директор по продуктам компании «Наносемантика»

Редакция «Бизнес-секретов» бережно сохранила авторский стиль, орфографию и пунктуацию — наши модераторы ничего не меняли

Написать статью

Разработчики проанализировали терабайты данных и научили нейросеть улыбаться, злиться и говорить как известный политик


Эту статью написал участник сообщества

Григорий Шершуков

Григорий Шершуков

Директор по продуктам компании «Наносемантика»

Редакция «Бизнес-секретов» бережно сохранила авторский стиль, орфографию и пунктуацию — наши модераторы ничего не меняли

Написать статью

Нейросеть «Жириновский» стала третьей по популярности медиаперсоной Петербургского международного экономического форума (ПМЭФ) — 2023, уступив лишь Президенту России Владимиру Путину и мэру Москвы Сергею Собянину. Цифровой аватар похож на политика Владимира Жириновского, говорит его голосом и обучен на множестве публичных выступлений и интервью бывшего лидера ЛДПР за 30 лет. Как создаются такие проекты на примере первого в мире цифрового политика, рассказывает Григорий Шершуков, директор по продуктам компании-разработчика «Наносемантика».

Заказчик проекта — партия ЛДПР — представила нейросеть, которая называет себя «цифровым учеником Жириновского», на Петербургском экономическом форуме 15 июня 2023 года. Но с тех пор первый прототип значительно усовершенствовался — была проведена тонкая настройка, с дополнительным тестированием на большом количестве вопросов на общественно-политические темы. В августе цифровой политик получил свой телеграм-канал, где публикуются наиболее яркие ответы на вопросы пользователей.

Так выглядит цифровой Владимир Жириновский

Как цифровых аватаров могут использовать предприниматели

Основная задача цифрового аватара — привлекать внимание к бренду и делать клиентский опыт оригинальнее, интереснее. Подобные решения используются в далеких друг от друга сегментах. Например, в ретейле цифровой аватар может быть интегрирован в устройства для самообслуживания и выполнять функции консультанта, что также высвободит время персонала магазина.

Стоимость цифровых аватаров зависит от степени их «развитости». Разработка самого простого цифрового ассистента без требований к внешнему виду и соответствия чьему-то голосу, настроек эмоций может обойтись в 2—3 млн рублей без учета расходов на серверное обслуживание.

В ряде случаев хорошо обученный цифровой аватар может стать выходом для бизнеса, когда компании необходим профессионал с дополнительными навыками. Например, для гостиничного бизнеса может быть выгодно вложиться в цифрового портье, который сможет зарегистрировать гостей, используя возможность говорить на десятках иностранных языков. Найти такого сотрудника в жизни не так просто, а технологическое решение способно закрыть потребности в коммуникации и сделать клиентский опыт более запоминающимся и комфортным.

От идеи к реализации

В первую очередь идея заключалась в создании генеративной нейросети, которая сможет отвечать на вопросы пользователей в стиле Владимира Жириновского.

Изначально в работе над проектом заказчики настояли на том, что это не должна быть копия политика. Стояла задача сделать «цифрового ученика», вобравшего максимально полный объем информации о Владимире Вольфовиче. При этом нейросеть должна распознавать речь, генерировать ответ и синтезировать голос.

Кроме того, решили, что ИИ получит свой облик — цифровой аватар. В дальнейшем его можно интегрировать на сайт в виде уже привычных всплывающих окон с виртуальными помощниками или в Телеграм. Таким образом, мы параллельно занимались разработкой и обучением нескольких моделей.

Этапы проекта. Такие задачи стояли перед командой на старте разработки

Задача №1: Разработка текстовой модели

Большие лингвистические модели создаются на основе трансформеров — так называется архитектура глубоких нейронных сетей, представленная в 2017 году. Они предназначены для обработки последовательностей, в том числе текста на естественном языке. Такие модели могут понимать и обрабатывать человеческую речь. Например, архитектура трансформеров лежит в основе самой популярной языковой модели GPT.

Мы протестировали множество моделей, включая известные Alpaca, LLaMA, Vicuna, Falcon, ruGPT-3.5, LLaMA-2. Проверяли их на знание русского языка — насколько грамотно они общаются. А также оценивали качество ответа модели после обучения на специально подготовленном датасете. Опасения подтвердились: большинство моделей все же заточено под английский. Во владении грамотной русской речью ruGPT-3.5 не превзойдет ни одна другая модель.

Наша модель — это тоже большая языковая модель, которая создавалась по тем же принципам. Заказчик предоставил 18 тысяч часов аудио- и видеозаписей, а также книги и печатные интервью — в общем больше 90 терабайт данных.

Для обучения модели весь контент перевели в текст — так оттачивается стиль ответов и закладывается их содержание. Чтобы обучить модель отвечать на вопросы, нужно дать ей большое количество примеров. Поэтому мы сформировали датасет из 150 тысяч инструкций в виде вопросов и ответов на основе трудов и высказываний Владимира Жириновского.

Лингвисты, работающие с данными, устраняли возникающие противоречия и повышали точность датасета, консультируясь с политическими экспертами партии и людьми, лично знакомыми с Владимиром Жириновским, много лет с ним работавшими.

Однако у модели есть определенные ограничения: датасет содержит записи до начала 2022 года, когда политик тяжело заболел и впоследствии скончался. На вопросы о более поздних событиях нейросеть может ответить неправильно — и это совершенно нормальная ситуация для всех языковых моделей. Для более точного ответа в вопросе должен содержаться контекст — это поможет модели сгенерировать корректный ответ, опираясь на предыдущий опыт.

Задача №2: Синтез речи

Начиная работу над созданием голоса цифрового аватара, нужно учитывать несколько важных моментов.

На записях должно быть как можно меньше посторонних звуков, вибрации и шума, которые перекрывают голос.

Голос должен быть примерно одинаковым У нас были записи выступлений Владимира Жириновского за 30 лет — на них существовала возрастная разница.

Учитывая эти требования, пришлось серьезно поработать над датасетом.

Технические нюансы. Звучание голоса в большом зале со стационарным микрофоном отличается от общения в тихой комнате с микрофоном-петличкой. Для обучения модели не подойдет большое разнообразие записей — нужно выбрать более качественный и похожий по параметрам звук.

Этим детально занимался наш звукорежиссер — отбирал аудиоданные для обучения модели и очищал записи от шумов. Так, наилучшее качество записей встречалось в 2010-х годах, поэтому и голос ИИ «Жириновский» может показаться более молодым, чем в последние годы жизни политика.

Для правильного синтеза речи нужно работать над паузами и интонацией. Например, мы размечали датасет тегами эмоций: нейтральная, отрицательная, позитивная. Любопытно, что больше всего записей было с нейтральными и отрицательными эмоциями, с позитивными — значительно меньше. Но в этом проявляется узнаваемый стиль Жириновского — напористый и безапелляционный. Кстати, работая над синтезом голоса, мы реализовали и характерное покашливание политика.

Нейросеть понимает, какую эмоцию выбрать при ответе на вопрос. Этому ее обучали, кроме того, она анализирует прошлый опыт. Если ранее на похожую тему было негативное высказывание, значит, нужно сформировать ответ с такой же эмоцией и выразить его соответствующим тоном.

Нейрожириновский в действии на одной картинке

Задача №3: Создание цифрового аватара

При создании цифрового аватара важно избежать эффекта зловещей долины (Uncanny Valley), который описал японский ученый Масахиро Мори. Его суть состоит в том, что робот или виртуальный персонаж, который выглядит или действует как человек, вызывает неприязнь, так как зритель улавливает его неестественность. Этот риск намного больше, когда речь идет об аватаре реального человека — воссоздать идеально правдоподобный образ очень сложно.

В итоге на ПМЭФ-2023 зрители увидели цифровой аватар, не претендующий на воссоздание реального образа — это именно аватар, наделенный узнаваемыми чертами.

3D-аватар Владимира Вольфовича в профиль

На основе 3D-образа построили полигональную модель, которая состоит из множества плоских многоугольников (полигонов), формирующих сложную трехмерную форму. На ее основе создавали анимацию — из нескольких вариантов выбрали лучшую реализацию. Так, аватар синхронизирует голос с движением губ (липсинк), генерирует анимацию, исходя из эмоций в озвученном тексте.

Сейчас 3D-модель способна передать три вида эмоций — нейтральную, позитивную и негативную. Когда она говорит о молодежи, то улыбается, о политических конкурентах — злится. Но на большинство вопросов у «Жириновского» нейтральная реакция.

Запасайтесь мощностями

Еще одна статья расходов при создании цифровых аватаров — базовая инфраструктура для таких решений. Разработка и развитие нейросетей требуют больших вычислительных ресурсов.

Если хранить ее в публичном облаке внешнего провайдера, то аренда требуемых ресурсов обойдется в 60—200 тысяч рублей в месяц. Поэтому для долгосрочной работы больших языковых моделей выгоднее иметь собственные мощности. Однако в процессе обучения модели нужно еще больше вычислительных ресурсов — и тогда есть смысл временно подключить облачные услуги.

Для работы диалоговой платформы, которая обеспечивает доставку запросов к модели и передает команды цифровому аватару, нужно оборудование с особыми требованиями к центральному процессору (60 vCPU), оперативной памяти и жестким дискам. Также отдельные мощности нужны для модели синтеза речи и работы цифрового аватара — их параметры зависят от количества одновременных запросов пользователей.

Будущее ИИ «Жириновский»

Мы прорабатываем решение на основе компьютерного зрения, чтобы модель не просто могла различать, кто с ней говорит, и адаптировать свой ответ, а выглядела непосредственным участником разговора. Например, если с этим человеком когда-то общался Владимир Вольфович, модель сможет его узнать и будет говорить более персонализированно: продолжит ранее начатую беседу или вернется к обсуждаемой теме. Более того, она «вспомнит» и эмоции, которые вызывал этот человек.

Также обсуждается возможность добавить подвижности самому аватару. Сейчас это говорящая голова, но можно:

  • наделить его телом;
  • одеть в фирменный пиджак;
  • научить разводить руками или закладывать их за спину.

Таким образом, можно создать полноценный цифровой аватар, который в дальнейшем, к примеру, будет транслироваться на любых экранах или в виде проекции. Вообще, много возможностей для развития цифровых аватаров связано с интерфейсами — можно использовать нейросеть на сайтах, в мобильных приложениях, внутри различных устройств.

Хотите рассказать о своем бизнесе или поделиться экспертизой?

В рубрике «Блоги компаний» вы можете бесплатно публиковать статьи о своем бизнесе. Публикации помогут укрепить ваш личный бренд или привлечь внимание партнеров, клиентов, инвесторов.

О чем можно рассказать?

  • Обо всем, с чем вы столкнулись лично, например, вышли на новый рынок, нашли неочевидный канал сбыта или придумали, как увеличить продажи в несезон.
  • О работе с инструментами, сервисами или технологиями для бизнеса.

Для помощи в подготовке статьи мы сделали телеграм-бот. В нем — рекомендации по содержанию статьи и инструкции по ее оформлению. Следуйте инструкциям, пишите статьи и отправляйте готовые тексты так же в чат-бот.

После короткой проверки ваш материал выходит на сайте Бизнес-секретов, а лучшие статьи мы отправляем на главную страницу медиа.

Ждем ваших историй!


Больше по теме

Новости