Распознавание голоса. О технологии и ее значении для маркетологов

26 Мая 2017
Распознавание голоса

Вы знали, что технологии распознавания голоса существуют уже 50 лет? Полвека эту задачу решают ученые и только в последние несколько десятилетий к ее решению подключились IT-компании. Результатом последнего года работы стал новый уровень точности распознавания и массовое использование технологии в повседневной и профессиональной жизни.

Технология в жизни

Каждый день мы пользуемся поисковыми системами. Мы ищем, где пообедать, как добраться до нужного места или пытаемся найти значение неизвестного термина. Технология распознавания голоса, которую используют, например, Google или Яндекс.Навигатор помогает нам тратить на поиск минимум времени. Это просто и удобно.

Источник:
http://www.limebridge.com.au/cartoons/technology

В профессиональной среде технология помогает упростить работу в несколько раз. Например, в медицине речь врача преобразуется в текст истории болезни и рецепт сразу на приеме. Это экономит время на занесение информации о пациенте в документы. Встроенная в бортовой компьютер автомобиля система реагирует на запросы водителя, например, помогает найти ближайшую заправку. Для людей с ограниченными возможностями актуально внедрение систем в программное обеспечение бытовых приборов для управления ими с помощью голоса.

Развитие систем распознавания голоса

Идея распознавания речи выглядела многообещающе во все времена. Но уже на этапе распознавания чисел и самых простых слов исследователи столкнулись с проблемой. Суть распознавания сводилась к построению акустической модели, когда речь представлялась как статистическая модель, которая сравнивалась с готовыми шаблонами. Если модель соответствовала шаблону, то система принимала решение о том, что команда или число распознано. Рост словарей, которые могла распознать система, требовал увеличения мощностей вычислительных систем.

Графики роста производительности компьютеров и снижения ошибки распознавания в системах распознавания голоса англоязычной речи
  Источники:
Herb Sutter. The Free Lunch Is Over: A Fundamental Turn Toward Concurrency in Software
https://minghsiehee.usc.edu/2017/04/the-machines-are-coming/

График роста производительности компьютеров          График снижения ошибки распознавания в системах распознавания голоса англоязычной речи


Сегодня алгоритмы распознавания дополнились языковыми моделями, которые описывают структуру языка, например, типичную последовательность слов. Обучение системы происходит на реальном речевом материале.

Новым этапом в развитии технологии стало применение нейронных сетей. Система распознавания устроена таким образом, что каждое новое распознавание влияет на точность распознавания в будущем. Система становится обучаемой.


Качество систем распознавания голоса

Положение дел в развитии технологии сегодня выражается целью: от распознавания речи к пониманию. Для этой цели выбран и ключевой показатель – процент ошибок в распознавании. Стоит сказать, что такой показатель применяется и в распознавании речи одного человека другим. Мы пропускаем часть слов, принимая во внимания другие факторы, например, контекст. Это позволяет нам понимать речь даже без понимания значений отдельных слов. Для человека показатель ошибки распознавания равен 5,1%.

Другими сложностями в обучении системы распознавания речи пониманию языка будут эмоции, неожиданная смена темы разговора, использование сленга и индивидуальные особенности говорящего: темп речи, тембр, произношение звуков.


Мировые игроки рынка

Несколько мировых игроков рынка платформ распознавания голоса хорошо известны. Это Apple, Google, Microsoft, IBM. Эти компании обладают достаточными ресурсами для исследований и обширной базой для обучения собственных систем. Например, Google использует для обучения миллионы поисковых запросов, которые пользователи с удовольствием задают сами. С одной стороны, это повышает точность распознавания, а с другой – накладывает ограничения: система распознает речь отрезками по 15 секунд и рассчитывает на «вопрос широкого профиля». Ошибка распознавания системы Google – 4,9 %. У IBM этот показатель равен 5,5 %, а у Microsoft – 6,3 % на конец 2016 года.

Голосовой поиск в России недавно запустил Яндекс. Учитывая число пользователей, можно рассчитывать, что в скором времени точность распознавания будет высока.

Платформу для применения в профессиональных областях разрабатывает американская компания Nuance. Среди областей применения: медицина, юриспруденция, финансы, журналистика, строительство, безопасность, автомобильная сфера.

В России Центр речевых технологий – крупнейший производитель профессиональных средств распознавания голоса и синтезирования речи. Решения компании внедрены в 67 странах мира. Основные направления работы: голосовая биометрия – идентификация по голосу; речевые системы самообслуживания – IVR, применяемые в колл-центрах; синтезаторы речи. В США российская компания работает под брендом SpeechPro и проводит исследования по распознаванию англоязычной речи. Результаты распознавания входят в ТОП-5 результатов по величине ошибки.


Ценность распознавания голоса в маркетинге

Цель маркетинга – изучение потребностей рынка и организация бизнеса в соответствии с ними для увеличения прибыльности и эффективности. Голос интересует маркетологов в двух случаях: если говорит клиент и если говорит сотрудник. Поэтому объект изучения для маркетологов и сфера применения технологии – телефонные звонки.

Сегодня аналитика телефонных переговоров развита плохо. Звонки не только нужно записывать, но и прослушивать, оценивать и только потом анализировать. Если организовать запись несложно – это может любая виртуальная АТС или сервис коллтрекинга, – то организовать прослушивание звонков сложнее. Эту задачу решает или отдельный человек в компании, или руководитель колл-центра. Прослушивание звонков также отдают на аутсорсинг. В любом случае погрешность в оценке звонков – проблема, которая ставит под сомнение результаты аналитики и принятые на их основе решения.

С помощью технологии распознавания голоса звонки будут анализироваться автоматически, и это откроет двери для массового использования.