Почему нейросети пока не могут заменить человека в креативной работе? Объясняет Саша Волкова из Заварили

16 февраля 2024

Редактор: Алина Соломенникова

Это вторая колонка Саши для Бизнес-секретов. В первой предпринимательница разбирала на примерах, как устроены бизнес-модели креативных агентств и как решать проблемы каждой из них. Так, если ставить производство контента на поток, это чревато для бизнеса низкой маржой. Справиться с этим отчасти помогают нейронные сети: если автоматизировать процессы, это снизит участие в них человека и повысит маржинальность проектов.

На начало 2024 года Саша ведет разработку собственной платформы, которая должна автоматизировать часть рутинных задач подкаст-студии: менеджмент аудиоисходников, поиск лишних слов, расшифровку в текст.

Мы встретились с Сашей снова и спросили, как она применяет нейросети в креативной работе над подкастами. Оказалось, не так уж они и облегчают жизнь бизнесу, сотрудникам и клиентам, как говорят из каждого утюга.

Коротко о бизнесе Саши Волковой

Бизнес	Подкаст-студия «Заварили» — российская и зарубежная студия подкастов. Выпускает свои аудиошоу и помогает это делать другим
Примеры подкастов	«Заварили бизнес» — подкаст о том, как Александра строила кофейный бизнес и подкаст-студию. Больше двух миллионов прослушиваний, международная премия Effie. «Бизнес, роботы, мечты» — подкаст о предпринимателях. Fucking English — подкаст, в котором ведущие учатся флиртовать и обсуждать секс на английском
Оборот в месяц	На российском рынке — около миллиона рублей, а на зарубежном — несколько тысяч евро
Год старта	2019 год
Соцсети	Телеграм-канал

Александра Волкова — Визуальные нейросети создают картинки исходя из самых частотных существующих образов в интернете. А мы пытаемся создать что-то оригинальное

Мidjourney коллажирует то, что уже есть в интернете, но не работает со смыслами

Мы экспериментировали, пытались делать обложки к подкастам с помощью Midjourney. Но что-то не пошло. Объясню на примере подкаста Fucking English — он о том, как флиртовать на английском. И раз про межкультурные языковые коммуникации, то нам очень важно, какой там закладываем посыл, — в этом нас нейросети и подводят.

Вот нам надо сделать обложку для выпуска. Выпуск был о том, как людям общаться свиданиях, когда они оба из разных культур. Мы пишем запрос Мidjourney: «Покажи нам парня и девушку в баре, которые не нашли общий язык». Нейросетка выдает картинку с девушкой, которая в явно неудобной одежде с открытым ртом смотрит на парня, когда он что-то ей объясняет.

Это не то.

Это прямо противоположное тому, что мы закладывали в выпуск. Наш посыл не соответствует тем двум нереалистичным и таким шаблонным образам из сексистской культуры. Такое можно использовать, только чтобы заткнуть дыру на пилотном выпуске, чтобы был не белый квадрат вместо обложки.

Дальше мы пытаемся изменить изображение с помощью запроса, но это такие тонкие смыслы, что не объяснишь нейросетям. Ты можешь сказать, какой тебе нужен цвет или какие именно персонажи, но тонкий смысл — не передашь.

В итоге для выпуска о свиданиях мы придумали обложку с инопланетянином и девушкой. По задумке инопланетянин держит в руках учебник — с помощью него он пытается понять свою собеседницу. Но вот прикол: когда мы в деталях описывали суть сюжета, нейросеть отказывалась давать книгу в руки инопланетянину — книгу всегда держала девушка, даже если мы буквально задавали запрос: «В иллюстрации должен быть инопланетянин, который сам держит в руках учебник по английскому языку». Даже когда мы меняли инопланетянина на «парня с другой планеты», книга оставалась в руках девушки.

Почему так?

Проблема в том, что нейросети создают картинки исходя из самых частотных образов, существующих в интернете. Если по задумке на картинке книга должна быть у парня, нейросеть все равно будет определять парня как женщину только потому, что накоплено огромное количество визуальных изображений, где именно женщина держит книгу. Мы же пытаемся создать какое-то новое высказывание, чего еще никогда не было в интернете. И из-за этого есть некоторое противоречие. Мы хотим сказать что-то новое, а нейросети как будто коллажируют тебе общую картинку из глянцевых журналов или из комиксов.

Эмоциональный, культурный или смысловой посыл — то, что нейросеткам ты не объяснишь.

Как создать обложку с помощью нейросети — Это промежуточный результат нашей битвы с нейронкой в попытке создать обложку. В какой-то момент мы попробовали отпустить вожжи — дали самое абстрактное задание: «Нужна иллюстрация о том, как тяжело найти общий язык на свидании, особенно если вы говорите по-английски, и английский не родной для вас язык. К тому же вы ощущаете разницу культур, к которым вы принадлежите». В итоге ничего путного не вышло

Редакция рекомендует

ChatGPT может автоматизировать холодные продажи, но для качественных лидов надо искать баланс

Один из наших рабочих инструментов для продаж — ChatGPT. Самый очевидный сценарий использования — составлять через эту нейросеть тексты холодных писем. Но самые сложное в этом деле — найти баланс между холодными рассылками и написанием очень теплых, конкретных текстов под интересы клиентов.

Давай объясню. Если ты делаешь просто холодную рассылку всем подряд по шаблонному тексту из серии «Ребята, мы делаем подкасты, пожалуйста, обратите на нас внимание», это не работает вообще. Да, времени такая работа займет мало, но и конверсия от всех усилий нулевая. Смотри.

Ребята, кто продвигает подкасты, часто мне в LinkedIn шлют однотипные сообщения. Таких я просто сразу блокирую, потому что понятно, что это не специализированный запрос: я просто попала к ним в базу и они мне шарашат этой рассылкой. Однажды у меня была пара попыток разобраться, чем они мне могут помочь. Но даже в ответ мне отвечали по-роботски, по какому-то скрипту. А я не собираюсь тратить свое время на роботов, так что я их сразу блокирую. Что мешает моим клиентам сделать то же самое, если я им раскидаю унифицированный текст из нейросетки? Ничего.

И совсем другой выхлоп выйдет, если мы зайдем на другую сторону спектра — от общих писем перейдем к персонализированным. Оцени работу:

ты полностью изучил подробности компании клиента;
ты выяснил, какой раунд инвестиций они подняли;
знаешь, какие люди работают в этой компании, — изучил их странички в соцсетях;
понял, в отпуске ли нужные тебе контакты или нет, а потом поймал их именно в онлайне;
написал им сообщение, очень таргетированное под конкретного человека, конкретную компанию.

Кажется, что при таком раскладе конверсия уже будет лучше. Но сколько времени займет такая работа с контактами? Если делать такую подготовку, ты сможешь отправлять максимум три письма в неделю. Это долго, это проблема. К тому же все равно большая часть заявок зависит не от тебя, а от того, есть ли у компании бюджет. Смотрят ли они в сторону подкастов? А человек, с которым ты связываешься, вообще в ресурсе? И в итоге из-за низкого количества отправленных писем ты не получишь результат.

Значит, нужно делать ресерч и таргетированное предложение, но быстро и много. Тут и помогает ChatGPT в связке с плагами вроде Browsing и LinkReader. Давай я объясню, как мы ее применяли, когда искали партнеров и клиентов для подкаста Fucking English:

Мы пишем базовое письмо о нашем проекте.
Выбираем, какому сегменту будем писать. Например, мы писали в компании, которые открывают офисы по всему миру и хотят решить проблему коммуникации внутри команды. Это уже достаточно таргетированный запрос, а не пространное предложение «давай сделаю тебе все и сразу».
Дальше пишем черновик письма — изменяем его под компании, которые выбрали.
Просим ChatGPT сделать подборку компаний с таким-то оборотом, таким-то количеством человек в штате, с офисами в стольких-то странах. Нейросеть выдает простыню нужных нам компаний.
Каждую из этих компаний мы отправляем обратно в ChatGPT и велим нейросетке проверить, что у них сейчас происходит. Например, собрать, какие корпоративные новости по ним есть. Нам надо найти айсбрейкер — что-то, что помогает сделать письмо потенциальному партнеру теплее: «Кажется, в вашей компании происходит то-то (или „вы на такой-то конференции говорили то-то“), возможно, поэтому вам будет интересно наше предложение».
На LinkedIn через вкладку Sales Navigator находим людей, которые подходят под наш список должностей из нужной компании и которые могут принимать решения по нашему вопросу. В нашем случае это HR. Потом через ChatGPT так же собираем новости по этому человеку — может, он недавно получил повышение и хочет показать себя. Это тоже можно использовать.
Исходя из того, что накопали, вносим персонализированные правки в черновик письма. Что-то вроде «Вижу, что ваша компания недавно открыла десять офисов в разных странах, — наверное, вы решаете HR-задачи, связанные с межкультурными коммуникациями внутри команды. Мы могли бы помочь…» И отправляем сообщение HR компании.

Получается, мы одновременно автоматизируем процесс и прицельно работаем над рассылкой. Дальше вопрос в том, насколько ты готов автоматизироваться. Ты можешь условно писать шаблонные письма всем HR компаний, подобранных под определенный профиль, а можно к каждому зайти со своим персонализированным запросом, который помогает установить связь.

Я не могу дать сейчас работающую формулу, на каком этапе работать вручную, а где подключать нейросеть. Это те эксперименты, которые я сейчас провожу, чтобы нащупать, где на шкале от бездушной, холодной рассылки до крафтового, теплого письма конкретному человеку надо поставить отметку, что вот тут баланс, который дает максимум лидов при адекватно затраченных усилиях.

Нейросети в бизнесе — Надо искать баланс между дешевым холодным письмом, полностью написанным ChatGPT, и дорогим теплым письмом конкретному человеку

Голосовые нейросети меня удивляют, но пока что они не работают с дыханием человека

Как-то раз мы ненадолго подменили одну из участниц подкаста Fucking English нейросеткой. Часть выпуска эксперт говорит на неидеальном английском, а часть выпуска — на своем языке, но в аудиодорожку мы подставили то, как ее перевел и озвучил ИИ-голос Didactist. Было слышно ее голос, но на другом языке.

Мне понравилось, что ИИ-голос звучит не как рэпер, а как живой человек. Больше всего меня удивило, что я слышу, как она слова подбирает, — нейросеть передала паузы и заминки. Но было две проблемы: одна смешная и две других, более значительных.

❌Акцент. Было забавно услышать, что девушка звучит на английском с индийским акцентом, но вообще-то она не из Индии. Например, в ее ИИ-голосе это было слышно по слову «куль» в контексте «Is very cool». Видимо, индийский акцент связан с тем, что нейросетки воспроизводят то, чего много в интернете.

Но посмотрим, все быстро меняется. Меня поражает, когда я вижу, сколько появляется новых сервисов, которые прямо на лету тебя переводят. Думаю, скоро можно будет по видеосвязи созваниваться с ребятами из Америки и настраивать, какой акцент ты себе хочешь, когда тебя будут переводить на английский.

Подписка на новое в Бизнес-секретах

Подборки материалов о том, как вести бизнес в России: советы юристов и бухгалтеров, опыт владельцев бизнеса, разборы нового в законах, приглашения на вебинары с экспертами.

Продолжая, вы принимаете политику конфиденциальности и условия передачи информации

❌ Дыхание. Более сложная проблема — у ИИ-голоса девушки не было дыхания. Приведу в пример историю, почему это важно.

Как-то раз мы вели эпизод подкаста с тремя ведущими, в котором все друг над другом подтрунивали. И один другому кинул какую-то неоднозначную шутейку, а тот не ответил, но мы быстро перешли дальше. Пока я вела подкаст, мне казалось, что все участвуют в разговоре, но только тот чувак, про которого пошутили, немножко притих. Я пытаюсь вовлечь его в разговор, но у меня не особо получается, и в какой-то момент он взрывается, начинает материться и ругать шутника. Для меня это был неожиданно — мы уже давно проехали... Как будто катаклизм случился ни с того ни с сего.

Но уже на монтаже я услышала, что у человека замерло дыхание, когда ему прилетела эта шутка. Потом он начинает медленно дышать, потом все больше и больше сопеть. И я понимаю, что все, этот человек сейчас взорвется. Но это потому, что я сейчас слышу эмоции в его дыхании. Мне это было не слышно во время записи.

Пока что нейросетка не может повторить за человеком его дыхание.

❌ Немного неточный перевод. В нашем эксперименте в подкасте был не совсем точный перевод. В подкасте это не критично, но если мы будем использовать нейросеть в переговорах, это может сыграть злую шутку с нами. Дело в том, что каждое слово на одном языке не эквивалентно другому на другом языке. А мы на переговорах обычно говорим не базовые мысли типа «Земля круглая, небо голубое», а про тонкие вещи, связанные со взаимодействиями. И если нейросеть будет буквально переводить все то, что сказано, но без учета бэкграунда, настроения, картины миры человека, это будет неуместно и помешает ходу дела.

Приведу самый простой пример. Когда я общаюсь в чатиках, я использую огонечки, сердечки и улыбающееся личико с кучей маленьких сердечек. В бизнесовых коммуникациях я спокойненько себе это позволяю, если с человеком уже пройден этап знакомства. В европейской коммуникации это будет выглядеть скорее как харассмент — это может быть просто слишком лично.

Возьмем задачу — сказать теплое спасибо. В европейской коммуникации для этого часто используют две сложенные ладони — 🙏. Вот ты скидываешь файл клиентке, и она вместо того, чтобы кинуть сердечко — что, по-моему, логично, типа лайк — она вот эти две ручки отправляет, типа «спасибо». Я бы ни за что не использовала такое «спасибо», потому что для меня это скорее какая-то мольба типа «пожалуйста».

Если именно такое «спасибо» мне прислали, у меня не возникает никакой эмоции. У меня огромный опыт взаимодействия с людьми, когда они мне отправляют сердечко, которое значит «вау, спасибо, жутко приятно, кайф». А когда присылают ручки, я умом понимаю, что это вроде бы то же самое, но вот этого бэкграунда, вот этих всех воспоминаний за этим не стоит. Получается, мне не сказали теплого спасибо.

Это был пример со смайликами. У нас есть общий универсальный язык с некими словами, изображениям, но собеседники всегда выбирают не те, что выбираем мы. И то же самое с переводом слов. Если тебе говорят немного не на том языке, если ты бы подобрала другие слова, то нейросеть тут немного рушит впечатление.

В общем, ИИ-голос можно использовать для записи подкастов. Это помогает, когда мы имеем дело со спикером, который говорит на одном языке, а подкаст звучит на другом. В кино эта проблема решается классными актерами дубляжа, а в подкастах обычно накладывают поверх его голоса синхронный перевод от другого человека. А теперь можно отправить дорожку в нейросетку, и она переведет тебе то же самое с паузами, пусть и без живого дыхания, пусть и с незначительными ошибками в переводе. В этом случае все равно слышно голос спикера — это явно лучше, чем просто синхронный перевод.

Как использовать нейросети — У нас есть общий универсальный язык с некими словами, изображениями, но собеседники всегда выбирают не те, что выбираем мы

Отказ от нейросетей — это не синоним качественной работы

В целом нейросети — это классно для всех.

Реакция клиентов. Некоторые считают, что нейросети по определению хуже работают, чем человек, когда речь идет про креативную индустрию. Когда я изучала другие подкаст-студии, которые делают контент на потоке, я видела, что кто-то себя так и позиционирует: «У нас работают только люди, без всяких роботов». Мол, так и так, мы не те, кто бездушно отправляет ваш контент на автоматическую обработку, а потом не глядя отдает вам готовое.

В Заварили мы достаточно часто используем нейросети. В основном это касается этапов обработки аудио, написания сценариев к выпускам, подготовки обложек для подкастов, а еще для маркетинга и продаж. Но в работе со своими клиентами мы не скрываем участие нейросетей, потому что глобально результат все равно завязан на наш ручной труд. Мы не можем полностью свесить часть креативной работы на нейросети — все равно на каком-то этапе придет человек, проверит и переделает результат нейросетки.

И я не вижу противоречия в факте, что креативная индустрия может задействовать нейросети и выдавать качественный результат клиентам. Взять работу звукорежиссера. Когда мы собеседуем звукорежиссеров, один из вопросов — какие плагины, включая те, что на основе нейросетей, у него уже есть. Если ты работаешь над звуком, ты не сидишь и каждую единицу звука руками не правишь. Ты набрасываешь сначала какие-то плагины, и от того, насколько они качественные, зависит конечный результат. Я вообще считаю, что одно из конкурентных преимуществ звукорежиссеров — умение работать с плагинами и нейросетями. По сути, он должен послушать аудио и понять, какие плагины и где сработают, но корректировать он по-прежнему еще будет руками.

Это как жаловаться, что бариста варит кофе не сам, а кофемашиной

Получается, жаловаться, что креативщик пользуется нейросетью, — это как жаловаться, что бариста варит кофе не сам, а кофемашиной. Причем для бариста умение работать с разными кофемашинами — это его преимущество. Так же и у нас в индустрии.

Реакция команды. Испуг открыто заявлять про нейросети клиентам тянет за собой и другой момент — как команда реагирует на внедрение нейросетей в работе. Возможно, в каких-то студиях это и правда воспринимается в штыки, но не у нас.

Каким-то образом так все сложилось, что у нас в команде нет тех людей, которые надеются бесконечно всю свою жизнь потратить на вырезание слов и за это получать деньги. Мы очень любим интересные, сложные, творческие, нарративные форматы. И только рады автоматизации рутинных действий. Ты таким образом делаешь только осмысленную часть работы, продаешь свой интеллект, а не занимаешься, условно, вырезанием повторяющихся фрагментов.

Я не понимаю страданий насчет того, что часть рутинной работы передадут роботам. Для меня нейросети — как посудомойка: она полностью заменила меня в конкретном деле с мытьем посуды, и я рада, что мне не нужно делать рутинные задачи своими руками. Вот и с сотрудниками так же: я не хочу, чтобы они сами делали все самое скучное. Я найду им применение поинтересней.

С другой стороны, у меня вызывает опасение то, что мы начали трудиться сильно больше, чем наши предки. Я не могу понять, зачем мы придумываем столько классных штук, чтобы в результате не иметь возможность поехать с багетиком в мятном фиатике и повтыкать на океан. Каждая нейросеть говорит, что вот, мы сэкономим время, мы будем более творческими, но на самом деле мы просто много работаем, сильно устаем и не успеваем порадоваться жизни. Это в целом меня беспокоит.

Нейросети и креатив — Жаловаться, что креативщик пользуется нейросетью, — это как жаловаться, что бариста варит кофе не сам, а кофемашиной

Фотограф: Никита Круглов

Предложение от Т-Банка

Индивидуальные условия для среднего и крупного бизнеса

Бесплатные переводы физлицам до 15 млн рублей в месяц
Кредиты до 200 млн рублей по специальным ставкам
Биржевой овернайт — размещайте свободные деньги на ночь на бирже, возвращайте утром с процентами

Узнать больше

АО «ТБанк», лицензия №2673

Алина Соломенникова

Бесплатно открыть ИП и счет для бизнеса

Почему нейросети пока не могут заменить человека в креативной работе? Объясняет Саша Волкова из Заварили

Коротко о бизнесе Саши Волковой

Мidjourney коллажирует то, что уже есть в интернете, но не работает со смыслами

Редакция рекомендует

ChatGPT может автоматизировать холодные продажи, но для качественных лидов надо искать баланс

Голосовые нейросети меня удивляют, но пока что они не работают с дыханием человека

Подписка на новое в Бизнес-секретах

Отказ от нейросетей — это не синоним качественной работы

Индивидуальные условия для среднего и крупного бизнеса

Как вы относитесь к использованию нейросетей в задачах бизнеса?

Больше по теме

Все события бизнеса у вас в почте

Новости

Личный опыт