Тинькофф VoiceKit: «Искусственному интеллекту не нужны лингвисты»

Время чтения: 6 минут
Денис Ерзиков
logo

В начале лета технология распознавания речи Tinkoff VoiceKit стала доступна клиентам CoMagic. Обсудили с разработчиками Тинькофф, что происходит «под капотом» их системы распознавания речи и есть ли будущее у маркетинга без речевых технологий.

Мы познакомились с ребятами из Тинькофф на конференции Intercom в прошлом ноябре, когда офлайн-event и рукопожатия еще были легальны. Спустя полгода запустили совместный проект. Технологии распознавания речи Tinkoff VoiceKit и речевая аналитика CoMagic будут работать сообща, двигать рынок речевых технологий и помогать бизнесу. Разберемся, в чем смысл такого союза и почему речевые технологии дают больше пользы бизнесу, чем традиционное прослушивание звонков.


Что есть что в речевых технологиях

Для начала разберемся в терминах. Если вы понимаете разницу между расшифровкой речи и речевой аналитикой, можете пропустить этот пункт.

Тинькофф предоставляет внешним клиентам услугу распознавания и синтеза речи — перевода звука в текст и наоборот. Технологии CoMagic позволяют эти расшифрованные данные анализировать — по ключевым словам и их сочетаниям. Основной профит для бизнеса кроется именно в этих конечных данных.

Речевые технологии — это распознавание, синтез и анализ речи при помощи машинного обучения и нейросетей.

Расшифровка речи — это перевод звука в текст.

Речевая аналитика — это количественный и качественный анализ речи через ее текстовую расшифровку.

Что предлагает Tinkoff VoiceKit:

— единую систему распознавания без разделения на тематики;

— расстановку знаков препинания и согласование окончаний для удобства чтения;

— облачное решение с доступом к актуальной версии системы без обновления оборудования.

Что позволяет CoMagic:

— находить разговоры по отдельным словам (продажа, негатив, отдельные услуги/товары);

— отслеживать скрипт по ключевым словам, например: «приветствие», «акции», «допродажа»;

— автоматически размечать звонки по заданным словам, фразам и тематикам.

С помощью речевой аналитики клиенты CoMagic контролируют работу колл-центров, отделов продаж и клиентского сервиса. Они повышают качество обслуживания, находят инсайты и в результате увеличивают продажи. Пример можно посмотреть на нашем сайте. К слову, для контроля колл-центра в Тинькофф используют тот же Tinkoff VoiceKit в связке с собственной аналитикой, которая, правда, недоступна внешним клиентам.

Но для внедрения подобных систем аналитики важно понимать, чем она отличается от «работы по старинке» — когда выделенный сотрудник прослушивает несколько звонков и пытается делать выводы о ситуации в целом. И это, пожалуй, главный отраслевой барьер, с которым сталкиваются поставщики речевых технологий.


От собственной разработки к конкурентной услуге

Денис Ерзиков, CoMagic: Если бизнес «по старинке» прослушивает 5–10 % звонков, он никогда не узнает полной картины — 90 % информации останется в серой зоне. Каким был контроль качества в Тинькофф до внедрения речевых технологий? И в какой момент их стали применять для решения этой задачи?

Вадим Купцов
Вадим Купцов, руководитель продукта, Тинькофф

Технология расшифровки речи изначально разрабатывалась для контроля качества нашего удаленного колл-центра. Мы хотели получить текстовую версию звонков и с помощью собственной речевой аналитики начать измерять этот процесс, понять, какие есть проблемы и возможности. К тому же нас интересовало все, что связано с колл-центром, продажами, телефонной коммуникацией. Началось все с расшифровки и речевой аналитики, потом был синтез речи для «Олега», позже подключились голосовые роботы.

Денис Ерзиков, CoMagic: Почему решили предложить продукт рынку? Поняли, что он готов на все 100 % и будет востребован, коммерчески успешен?

Вадим Купцов, Тинькофф: Здесь все не так однозначно. Первыми клиентами действительно стали партнеры, с которыми уже что-то тестировали, видели, что цели бизнеса достигаются. Но выход на внешний рынок, наоборот, позволил нам дополнительно расширять список тематик, дообучать и развивать систему. Если в какой-то нише точность расшифровки недостаточна, мы смотрим, хватит ли данных — записей звонков — для дообучения системы. Если да, прокачиваем весь движок — у нас нет деления на тематики. Разумеется, любой проект должен приносить прибыль, но тут все взаимосвязано.

«Если систему распознавания Tinkoff VoiceKit обучить на 10 клиентах тематики «Строительные материалы», эти «навыки» будут доступны всем клиентам. Конечно, если это интернет-магазин макраме, а звонков — 5–10 в месяц, данных для обучения недостаточно».

Про точность расшифровки для людей и для машины

Денис Ерзиков, CoMagic: Точность расшифровки записанной речи человеком — 99 %, искусственным интеллектом после обучения тематике — от 80 до 95 %. Плюс машина прослушает 100 % разговоров. По КПД человек существенно уступает машине. В чем секрет и как происходит эта «магия»?

Андрей Степанов
Андрей Степанов, руководитель отдела речевых технологий, Тинькофф

Всю эту «магию» с расшифровкой речи осуществляет нейросеть. Она получает на входе звук в каком-либо виде, например, спектрограмму или wave-форму. Допустим, это спектрограмма — картинка с частотами, показывающая, в какой момент времени какая частота присутствовала в сигнале. На выходе нейросеть выдает вероятности произнесения отдельных букв в каждый момент времени. Дальше мы подключаем языковую модель. Она учитывает тематику, если участвовала в обучении, или использует общие данные. Модель определяет, с какой вероятностью можно встретить в данном языке определенную последовательность звуков и сложенных из них слов. Нейросеть с языковой моделью соединяет алгоритм декодер, который уже выдает предложения.

Денис Ерзиков, CoMagic: Алгоритмам речевой аналитики не требуется связный текст. Они допускают погрешность в точности до 10 % и работают с отдельными словами, каждое из которых, в идеале, и вовсе бы нормализовать — привести к начальной форме. Например, «именительный падеж, единственное число» для существительных. Но качество расшифровки и стройность текста важны для клиента — удобнее читать, ссылаться на материал, находить инсайты. Какова у вас точность расшифровки?

Андрей Степанов, Тинькофф: Нельзя говорить о точности расшифровки для всей системы распознавания. Она зависит от тематики и качества звука. Если кто-то из разработчиков заявляет, что ошибка системы не выше 5 %, скорее всего, речь об аудиокнигах. Это такой маркер: хорошее качество звука и широкой лексикон. Тест на аудиокнигах показывает, насколько богатый язык распознает модель. Но в бизнес-тематиках много специфической лексики, качество речи и записи не всегда идеально. Поэтому нам и интересно партнерство с новыми клиентами — чем больше тематик, тем шире лексикон системы.

При проверке системы Tinkoff VoiceKit на аудиокнигах доля ошибок не превышает 3–4 %, в бизнес-тематиках, знакомых системе, — 10 %.

Денис Ерзиков, CoMagic: Tinkoff VoiceKit расставляет знаки препинания и согласует окончания. Опция, необязательная для алгоритмов речевой аналитики, но такая важная для того, кто будет эту расшифровку читать. Как система не путается в запятых? Ведь один только союз «как» имеет не меньше шести правил пунктуации.

Андрей Степанов, Тинькофф: Пока что модель по работе с пунктуацией не учитывает интонацию. Но, надеюсь, мы придем и к этому. На текущий момент система на основе текста выдает 5–6 возможных вариантов — какие знаки должны стоять, как человек должен был это говорить: где пауза, где восклицательный знак. Далее она определяет, где вероятность выше. Сейчас точность расставленных знаков достигает 93 %.

Пример расшифрованного звонка в CoMagic

Пример расшифрованного звонка в CoMagic

«Парадоксально, но факт: к разработке моделей как базовой расшифровки, так и расстановки пунктуации Tinkoff VoiceKit не привлекались лингвисты. Нейросети настолько продвинулись по качеству и скорости тренировки, что сами выступают в роли лингвиста и успешно обучаются под конкретный язык. И русский язык, каким бы великим и могучим он ни был, не стал исключением».

Про машинное обучение и интерфейс в речевой аналитике

Технология Tinkoff VoiceKit доступна всем клиентам CoMagic наряду с решением от прежнего партнера. Пользователи могут выбрать вариант расшифровки, который им кажется более удачным. Единственное, на что стоит обратить внимание, это алгоритм «Smart-тег» от CoMagic. Если он был обучен на массиве данных, полученных с помощью одной системы распознавания, при переходе на другую может потребоваться его дообучение.

Дарья Черникова
Дарья Черникова, data-scientist CoMagic

Smart-тег — это функция разметки разговоров на базе машинного обучения. Она кардинально отличается от обычного тегирования в нашей речевой аналитике, где принцип прост: вы задаете список слов, а алгоритмы находят в диалогах соответствующие словоформы и присваивают им определенный тег. Smart-тег сам обучается на выборке не менее 1000 размеченных заранее звонков, например: «успешная допродажа», «негатив», «заявка на сервис» / «на покупку» авто. Система определяет слова с наибольшим весом для конкретной тематики и находит в тексте соответствие. При изменении качества расшифровки, точности согласования тех же окончаний в Tinkoff VoiceKit, возможно, систему придется дообучить, но, конечно, надо тестировать и смотреть результат в конкретной тематике.

Алгоритм CoMagic «Smart-тег» сам определит, что, например, такие слова и словосочетания, как «хочу купить», «интересует автомобиль», «трейд ин», характерны для звонков в салон, а «ремонт», «сломался», «не работает» — для обращений в сервис. Эти словосочетания не нужно придумывать, подбирать вручную — это сделает сам алгоритм.

Фрагмент интерфейса по работе со «Smart-тегом» в CoMagic

Фрагмент интерфейса по работе со «Smart-тегом» в CoMagic

Клиенты CoMagic могут обучить алгоритм «Smart-тег» на основе расшифровок Tinkoff VoiceKit, использовать все опции сквозной аналитики и работать в едином интерфейсе в личном кабинете.

— В рамках речевой аналитики большую часть времени разработчиков занимает создание интерфейсов и алгоритмов для работы со всем массивом данных, — отмечает Дарья Черникова. — В два клика найти звонок с нужным словом, выгрузить отчет, добавить вручную теги, которые подтянутся в сводку. Без этого вы получите не сервис речевой аналитики, а разрозненный набор опций. Мы постоянно общаемся с клиентами: что добавить, как сделать удобнее. Так, мы неоднократно слышали, что в расшифровке не хватает знаков препинания. Мы понимаем, что они не влияют на расстановку тегов и поиск по словам, но кому-то с таким текстом работать комфортнее, — это важная обратная связь. После подключения Tinkoff VoiceKit эта проблема будет полностью решена.


Заключение

Речевую аналитику в CoMagic мы изначально разрабатывали для контроля качества колл-центров, отдела продаж и клиентского сервиса. Везде, где есть вербальная коммуникация, внедрение речевой аналитики оправданно и перспективно. А учитывая тренд на работу с большими данными, без анализа записей разговоров трудно представить маркетинг будущего — маркетинг, в котором предельно персонифицирована коммуникация, а бизнес знает о клиенте зачастую больше, чем он сам.

  • Подробнее о возможностях речевой аналитики CoMagic читайте здесь.
  • Описание продукта «Речевая аналитика» смотрите здесь.
  • Детали кейса по увеличению продаж интернет-магазина с помощью речевой аналитики читайте на нашем сайте.


(3)
5/5
Оцените статью
Поделитесь с друзьями

Читайте еще по этой теме

Даешь дашборды!

Даешь дашборды!

Время чтения: 7 минут
Содержание: