Перспективы развития систем распознавания речи (выдержка из исследования). Два сервиса распознавания речи и перевода в текст онлайн

  • 9. Фонологические позиции. Сильные и слабые фонемы.
  • 10. Позиционные чередования гласных фонем. Количественная и качественная редукция гласных фонем.
  • 11. Позиционные чередования согласных фонем. Ассимиляция и диссимиляция по глухости/звонкости и по твердости/мягкости.
  • 12. Исторические чередования фонем.
  • 13. Падение редуцированных гласных фонем и последствия этого явления.
  • 14. Чередования, связанные с историей носовых звуков в древнерусском языке.
  • 15. Палатализация заднеязычных.
  • 17. Фонетическая транскрипция. Фонематическая транскрипция
  • 18. Слог. Слогораздел. Типы слогов.
  • 19. Фонетическое слово. Ударение
  • 20. Речевой такт. Интонация
  • 21. Ударение. Интонационные конструкции
  • 21. Фраза. Интонация
  • 22. Понятие об орфоэпии
  • 23. Основные правила русского литературного произношения.
  • 24. Произношение гласных под ударением. Произношение безударных гласных.
  • 25. Произношение отдельных согласных звуков.
  • 26. Произношение групп согласных.
  • 27. Произношение некоторых грамматических форм.
  • 28. Произношение некоторых аббревиатур. Особенности произношения иноязычных слов.
  • 29. Трудные случаи усвоения ударения в русском языке.
  • 30. Развитие русского литературного произношения.
  • 31. Грамматическое кодирование
  • 32. Семантическое кодирование. Двухаргументные (временные признаки): причинность.
  • 33. Семантическое кодирование. Двухаргументные (временные признаки): следствие, результат, цель.
  • 34. Семантическое кодирование. Двухаргументные (временные признаки): превращение, изменение
  • 35. Семантическое кодирование. Двухаргументные (временные признаки): взаимодействие, группировка, общность, объединение
  • 36. Семантическое кодирование. Двухаргументные (временные признаки): разделение, влияние, условие, вхождение.
  • 37. Семантическое кодирование. Двухаргументные (временные признаки): соответствие, управление, подчинение, зависимость.
  • 38. Семантическое кодирование. Одноаргументные (постоянные признаки):свойство, необходимость, возможность, вероятность, есть, нет.
  • 39. Семантическое кодирование. Одноаргументные (постоянные признаки): истинность, ложность.
  • Семантический код. Его цели. Предназначение. Принцип построения. Возможности.
  • Предназначение семантического кода. Термин «смысл».
  • Предназначение семантического кода. Текст. Информация. Гипертекст в освоении информации.
  • 43. Грамматический и семантический анализ при семантическом кодировании.
  • 44. Русский семантический словарь сочетаемости и ассоциативный словарь при семантическом кодировании.
  • Предназначение семантического кода. Системный изоморфизм.
  • Предназначение семантического кода. Принцип необходимого и достаточного.
  • Предназначение семантического кода. Связность классов и подклассов
  • 48. Предназначение семантического кода. Принцип иерархичности/ неиерархичности.
  • 49. Предназначение семантического кода. Системная метафоричность.
  • 50. Ситуативный (ситуационный) семантический код.
  • 51. Семантическое кодирование. Выравнивающе-толковательный код. Матрешный код.
  • 52. Основные задачи и ключевые понятия речевого интерфейса.
  • 53. Исторический обзор проблемы распознавания и синтеза речи.
  • 54. Системы автоматического синтеза речи. Практические приложения речевого интерфейса.
  • 55. Системы автоматического распознавания речи. Практические приложения речевого интерфейса.
  • 56. Лингвистические основы речевого интерфейса. Использование лингвистики в реализации речевых систем.
  • 57. Структура речевого сигнала. Анализ и синтез. Спектрально-временные характеристики речевого сигнала.
  • 58. Информационная и модуляционная структура речевого сигнала.
  • 59. Методы синтеза речевого сигнала. Обобщенные математические модели описания речевых сигналов.
  • 60. Методы синтеза речевого сигнала. Геометрическая модель речевого тракта.
  • 61. Методы синтеза речевого сигнала. Формантная модель.
  • 62. Компиляционные методы синтеза речевого сигнала.
  • 63. Методы анализа речевого сигнала.
  • 64. Метод цифровой фильтрации речевого сигнала. Спектральный анализ с использованием алгоритмов бпф. Метод цифровой фильтрации
  • Спектральный анализ с использованием алгоритмов бпф
  • 65. Спектральный анализ на основе линейного предсказания. Формантно-параметрическое описание речевого сигнала. Спектральный анализ на основе линейного предсказания
  • Формантно-параметрическое описание речевого сигнала
  • 66. Метод кепстральных коэффициентов. Особенности восприятия речи. Свойства рецептивного восприятия речи человеком. Метод кепстральных коэффициентов
  • 67. Свойства рецептивного восприятия речевых сигналов. Природа слуховых (фонетических) признаков речевого сигнала. Свойства рецептивного восприятия речевых сигналов
  • Природа слуховых (фонетических) признаков речевого сигнала
  • 68. Свойства восприятия минимальных смыслоразличительных элементов речи
  • 69. Синтез речи по тексту. Структура синтезатора речи по тексту.
  • Структура синтезатора речи по тексту Ключевые понятия:
  • 70. Лингвистический процессор. Предварительная обработка текста. Пофразовая обработка текста.
  • Предварительная обработка текста
  • Пофразовая обработка текста
  • 71. Пословная обработка теста. Пример работы лингвистического процессора. Пословная обработка текста
  • Пример работы лингвистического процессора
  • 72. Просодический процессор
  • 73.Фонетический процессор. Артикуляторно-фонетический процессор. Формантный фонетический процессор.
  • 74. Аллофонный фонетический процессор. Акустический процессор.
  • 75. Аппроксимация геометрии речевого такта. Акустический процессор, основанный на компиляционных методах синтеза речи.
  • 76. Классификация систем автоматического распознавания речи. Методы автоматического распознавания речи.
  • 77. Классификация методов распознавания речи.
  • 78. Метод динамического программирования.
  • 79. Метод скрытых марковских моделей.
  • Под системами автоматического распознавания речи (САРР) понимают системы, преобразующие входную речь (речевой сигнал) в распознанное сообщение. При этом распознанное сообщение может быть представлено как в форме текста этого сообщения, так и

    преобразовано сразу в форму, удобную для его дальнейшей обработки с целью формирования ответной реакции системы. Изначально перед системой автоматического распознавания речи ставится задача преобразования текста в речь. Поэтому в английской литературе эти системы называются Speech To Text System. Часто системы автоматического распознавания речи называют также просто системами распознавания речи (СРР).

    Упрощенная структурная схема системы автоматического распознавания речи приведена на рис.

    Под моделью анализа речевого сигнала понимают блок, в задачи которого входит анализ входного сигнала, во-первых, с целью отнесения его к числу речевых, а во-вторых, для выделения в составе полученного сигнала компонент, которые являются основными для

    распознавания полученного сообщения. К таким компонентам относятся параметры, описывающие речь, аналогичные тем, которые формируются в процессе синтеза речи. Набор указанных параметров зависит от избранного метода распознавания.

    Модель распознавания речи и принятия решения – это блок, в рамках которого осуществляется формирование распознанного сообщения на основе анализа последовательности параметров, полученных из первого блока. Например, если используется формантная модель описания речи, то на основе полученных в первом блоке частот формант строится последовательность распознанных фонем, составляющих входное сообщение. При этом осуществляется принятие решения о том, распознано ли входное сообщение правильно. При принятии решения, в частности, возможны следующие решения: сообщение распознано правильно (подтверждением этого является текст, соответствующий нормам естественного языка) либо

    сообщение не распознано или распознано не правильно (такое решение принимается в случае наличия в распознанном сообщении явных, трудно исправимых автоматически ошибок или вообще полной бессмыслицы).

    В качестве ограничений, накладываемых на САРР, можно привести следующие характеризующие их параметры:

    Вид распознаваемой речи (пословное произношение с паузами в стиле речевых команд; четкое произношение без пауз в стиле “диктант”; спонтанная речь);

    Объём словаря (ограниченный до 100, 200 и т.д. слов; неограниченный);

    Степень зависимости от диктора (дикторозависимые; дикторонезависимые);

    Синтаксические ограничения (отдельные слова; типовые фразы; искусственный язык; естественный язык);

    Условия приёма речевых сигналов (контактные микрофоны; удаленные на расстояние более 1 м микрофоны);

    Условия применения СРР (слабые или сильные помехи);

    Надежность распознавания.

    Практические приложения речевого интерфейса

    Прежде чем перейти к рассмотрению примеров практического использования речевого интерфейса, сравним его с наиболее распространенными в настоящее время средствами взаимодействия пользователя с компьютером: клавиатурой и дисплеем. Следует отметить по крайней мере три принципиальных отличия речевого интерфейса:

    1) явный недостаток клавиатуры и дисплея заключается в том, что для общения с компьютером человеку нужно пройти специальную подготовку. В то же время речь – это естественный интерфейс для любого, даже неподготовленного человека. Речь снижает в резкой степени психологическое расстояние между человеком и компьютером. Если появляется речевой интерфейс, то круг пользователей компьютером может стать неограниченным;

    2) речь сама по себе никак механически не привязана к компьютеру и может быть связана с ним через системы коммуникаций, например, телефон. Речевой интерфейс сокращает физическое расстояние между человеком и компьютером. Это дополнительно расширяет круг потенциальных пользователей компьютеров и делает речевой интерфейс идеальным средством для оздания систем массового информационного обслуживания;

    3) можно обращаться с компьютером в полной темноте, с закрытыми глазами, в условиях занятости рук рычагами управления, с завязанными руками и в другой экстремальной обстановке. Это свойство даёт оперативность и мобильность общения, освобождение рук и разгрузку зрительного канала восприятия при получении информации. Это исключительно важно, например, для диспетчера большой энергетической системы или пилота самолёта и водителя автомобиля. Кроме того, компьютерные системы становятся более доступными людям с нарушением зрения.

    В настоящее время речевые компьютерные технологии уже достаточно широко распространены и развиваются в нескольких направлениях, основные из которых представлены на рис.

  • Белоусова О. С., Панова Л.

    Омский Государственный Технический Университет

    РАСПОЗНАВАНИЕ РЕЧИ

    В настоящее время речевое распознавание находит все новые и новые области применения, начиная от приложений, осуществляющих преобразование речевой информации в текст и заканчивая бортовыми устройствами управления автомобилем.

    Выделяют несколько основных способов распознавания речи:

    1. Распознавание отдельных команд – раздельное произнесение и последующее распознавание слова или словосочетания из небольшого заранее заданного словаря. Точность распознавания ограничена объемом заданного словаря

    2. Распознавание по грамматике – распознавание фраз, соответствующих определенным правилам. Для задания грамматик используются стандартные XML-языки, обмен данными между системой распознавания и приложением осуществляется по протоколу MRCP.

    3. Поиск ключевых слов в потоке слитной речи – распознавание отдельных участков речи. Речь может быть как спонтанной, так и соответствующей определённым правилам. Произнесенная речь не полностью преобразуется в текст - в ней автоматически находятся те участки, которые содержат заданные слова или словосочетания.

    4. Распознавание слитной речи на большом словаре – все, что сказано, дословно преобразуется в текст. Достоверность распознавания достаточно высока.

    5. Распознавание речи с помощью нейронных систем. На базе нейронных сетей можно создавать обучаемые и самообучающиеся системы, что является важной предпосылкой для их применения в системах распознавания (и синтеза) речи.

    а) Представление речи в виде набора числовых параметров. После выделения информативных признаков речевого сигнала можно представить эти признаки в виде некоторого набора числовых параметров (т.е. в виде вектора в некотором числовом пространстве). Далее задача распознавания примитивов речи сводится к их классификации при помощи обучаемой нейронной сети.

    б) Нейронные ансамбли. Вкачестве модели нейронной сети, пригодной для распознавания речи и обучаемой без учителя можно выбрать самоорганизующуюся карту признаков Кохонена. В ней для множества входных сигналов формируется нейронные ансамбли, представляющие эти сигналы. Этот алгоритм обладает способностью к статистическому усреднению, что позволяет решить проблему изменчивости речи.

    в) Генетические алгоритмы. При использовании генетических алгоритмов создаются правила отбора, позволяющие определить, лучше или хуже справляется новая нейронная сеть с решением задачи. Кроме того, определяются правила модификации нейронной сети. Изменяя достаточно долго архитектуру нейронной сети и отбирая те архитектуры, которые позволяют решить задачу наилучшим образом, рано или поздно можно получить верное решение задачи.

    Общий алгоритм распознавания связной речи

    Исходный сигнал

    Начальная фильтрация и усиление полезного сигнала

    Выделение отдельных слов

    Распознавание слова

    Распознавание речи

    Реакция на распознанный сигнал

    Всё многообразие систем распознавания речи условно можно разделить на несколько групп.

    1. Программные ядра для аппаратных реализаций. TTS engine – синтез речи по тексту, и ASR engine – для распознавания речи.

    2. Наборы библиотек для разработки приложений. Существует два стандарта для интеграции речевых технологий: VoiceXML – для разработки интерактивных голосовых приложений управления медиаресурсами, и SALT – поддерживает многомодальные приложения, сочетающие распознавание речи с другими формами ввода информации.

    3. Независимые пользовательские приложения. Dragon NaturallySpeaking Preferred – распознает слитную речь; безошибочность распознавания – 95%. «Диктограф» – с функцией ввода текста в любой редактор, точностью распознавания – 30-50%.

    4. Специализированные приложения. Компания «Центр Речевых Технологий» разрабатывает и производит программы для МВД, ФСБ, МЧС: «ИКАР Лаб», «Трал», «Территория». Германский институт DFKI разработал – Verbmobil, программу способную переводить разговорную речь с немецкого на английский или японский и обратно, непосредственно произнесенную в микрофон. Точность – 90%.

    5. Устройства, выполняющие распознавание на аппаратном уровне. Компания Sensory Inc разработала интегральную схему Voice Direct™ 364 – осуществляет дикторозависимое распознавание небольшого числа команд (около 60) после предварительного обучения. Корпорация Primestar Technology Corporation разработала чип VP-2025 – осуществляет распознавание с помощью нейросетевого метода.

    Методы распознавания речи.

    1. Метод скрытых марковских моделей. Базируется на следующих предположениях: речь может быть разбита на сегменты, внутри которых речевой сигнал может рассматриваться как стационарный, переход между этими состояниями осуществляется мгновенно; вероятность символа наблюдения, порождаемого моделью, зависит только от текущего состояния модели и не зависит от предыдущих.

    2. Метод скользящего окна. Суть: определение вхождения ключевого слова с помощью алгоритма Витерби. Так как ключевое слово может начинаться и заканчиваться в любом месте сигнала, то этот метод перебирает все возможные пары начала и конца вхождения ключевого слова и находит самый вероятный путь для ключевого слова и этого отрезка, как если бы ключевое слово присутствовало в нем. Для каждого найденного вероятного пути ключевого слова применяется функция правдоподобия, основанная на срабатывании, если значение пути, рассчитанное в соответствии с применяемым методом оценки пути, больше предопределенного значения. Недостатки: большая вычислительная сложность; команды могут включать слова, которые плохо распознаются с помощью алгоритма распознавания ключевого слова.

    3. Метод моделей заполнителей. Для алгоритмов распознавания ключевого слова слово для распознавания представляется встроенным в инородную речь. На этом основании методы моделей заполнителей обрабатывают эту инородную речь с помощью явного моделирования инородной речи за счет второстепенных моделей. Для этого в словарь системы распознавания добавляются «обобщенные» слова. Роль этих слов в том, чтобы любой сегмент сигнала незнакомого слова или неречевого акустического события был распознан системой как одно слово или цепочка из обобщенных слов. Для каждого обобщенного слова создается и обучается акустическая модель на корпусе данных с соответствующими размеченными сегментами сигнала. На выходе из декодера выдается цепочка, состоящая из слов словаря (ключевых слов) и обобщенных слов. Обобщенные слова затем отбрасываются, и оставшаяся часть цепочки считается результатом распознавания. Недостатки: ключевые слова могут быть распознаны как обобщенные; сложность оптимального выбора алфавита обобщенных слов.

    Библиографический список

    1. Методы автоматического распознавания речи: В 2-х книгах. Пер. с англ./Под ред. У. Ли. – М.: Мир, 1983. – Кн. 1. 328 с., ил.

    2. Винцюк Т. К. Анализ, распознавание и интерпретация речевых сигналов. Киев: Наукова Думка, 1987.

    3. Винцюк Т.К. Сравнение ИКДП- и НММ - методов распознавания речи // Методы и средства информ. речи. Киев, 1991.

    4. http://www.mstechnology.ru

    5. http://www.comptek.ru

    Как хорошо было раньше! Позвонив в справочную, можно было побеседовать с девушкой-оператором и даже назначить ей свидание. Теперь же на том конце провода слышится приятный, но неживой женский голос, предлагающий набрать 1 для получения такой-то информации, 2 - для связи с тем-то, 3 - для выхода в меню и т.д. Все чаще доступ к информации контролируется системой, а не человеком. В этом есть своя логика: однообразная, неинтересная работа выполняется не человеком, а машиной. И для пользователя процедура получения информации упрощается: назвал определенный набор цифр - получил нужную информацию.

    ак же работает такая система? Давайте попробуем разобраться.

    Двумя основными типами программ для распознавания речи являются:

    Программы для диктовки — ввод текста и цифровых данных.

    Сразу оговоримся, что системы Text-to-speech и speech-to-text, то есть переводящие текст в устную речь и наоборот, мы рассматривать не будем. Ограничимся только системами автоматического распознавания команд, или голосовыми навигаторами.

    САРР — что это такое?

    истемы автоматического распознавания речи (САРР) - это элемент процесса обработки речи, назначение которого - обеспечить удобный диалог между пользователем и машиной. В широком понимании речь идет о системах, которые осуществляют фонемное декодирование речевого акустического сигнала при произношении речевых сообщений свободным стилем, произвольным диктором, без учета проблемной ориентации и ограничений на объем словаря. В узком смысле САРР облегчают решение частных задач, накладывая некоторые ограничения на требования к распознаванию естественно звучащей речи в классическом его понимании. Таким образом, диапазон разновидностей САРР простирается от простых автономных устройств и детских игрушек, которые способны распознавать или синтезировать раздельно произносимые слова, цифры, города, имена и т.п., до суперсложных систем распознавания естественно звучащей речи и ее синтеза для использования, например, в качестве секретаря-референта (IBM VoiceType Simply Speaking Gold).

    Являясь основной составляющей любого дружественного интерфейса между машиной и человеком, САРР может быть встроена в различные приложения, например в системы голосового контроля, голосового доступа к информационным ресурсам, обучения языку с помощью компьютера, помощи недееспособным, доступа к чему-либо через системы голосовой верификации/идентификации.

    САРР весьма полезна как средство поиска и сортировки записанных аудио- и видеоданных. Распознавание речи также используется при вводе информации, что особенно удобно, когда глаза или руки человека заняты. САРР позволяет людям, работающим в напряженной обстановке (врачи в больницах, рабочие на производстве, водители), применять компьютер для получения или ввода необходимой информации.

    Обычно САРР используется в таких системах, как телефонные приложения, встроенные системы (системы набора номера, работа с карманным компьютером, управление автомобилем и т.д.), мультимедийные приложения (системы обучения языку).

    Голосовые ключи

    олосовыми ключами иногда называют системы автоматического распознавания личности по речи. Обычно это биометрические системы либо санкционированного доступа к информации, либо физического доступа к объектам. Следует различать две разновидности таких систем: системы верификации и системы идентификации. При верификации пользователь предварительно предъявляет свой код, то есть заявляет о себе тем или иным способом, а затем вслух произносит пароль или какую-нибудь произвольную фразу. Система проверяет, соответствует ли данный голос тем эталонам, которые были вызваны из памяти компьютера по предъявленному коду.

    При идентификации предварительного заявления о пользователе не делается. В этом случае выполняется сравнение данного голоса со всеми эталонами и затем конкретно определяется, кем является опознаваемый по голосу человек. Сегодня известно множество подходов и методов для реализации таких систем, и все они, как правило, отличаются друг от друга - сколько разработчиков, столько и их разновидностей. То же самое можно сказать и о системах распознавания речи. Поэтому судить о характеристиках конкретных систем распознавания речи и распознавания личности по речи допустимо только с помощью специальных тестовых баз данных.

    Немного истории

    оединенные Штаты Америки, конец 60-х годов XX века: «Три», - сказал Валтер Кронкит (Walter Cronkite), ведущий научно-популярной программы «XXI век», во время демонстрации новейших разработок в области распознавания речи. Компьютер распознал это слово как «четыре». «Идиот», - пробормотал Валтер. «Этого слова нет в словаре», - ответил компьютер.

    Хотя первые разработки в области распознавания речи относятся еще к 1920-м годам, первая система была создана только в 1952 году компанией Bell Laboratories (сегодня она входит в состав Lucent Technologies). А первая коммерческая система была создана еще позже: в 1960 году IBM объявила о разработке такой системы, но на рынок программа так и не вышла.

    Затем, в 1970-х годах, авиакомпания Eastern Airlines в США установила дикторозависимую систему отправки багажа: оператор называл пункт назначения - и багаж отправлялся в путь. Однако из-за количества допущенных ошибок система так и не прошла испытательный срок.

    После этого разработки в данной области если и велись, то достаточно вяло. Даже в 1980-х годах реальных коммерческих приложений с использованием систем распознавания речи было довольно мало.

    Сегодня в этом направлении работают уже не десятки, а сотни исследовательских коллективов в научных и учебных заведениях, а также в крупных корпорациях. Об этом можно судить по таким международным форумам ученых и специалистов в области речевых технологий, как ICASSP, EuroSpeech, ICPHS и др. Результаты работы, на которую, как у нас образно говорят, «навалились всем миром», трудно переоценить.

    Уже в течение нескольких лет голосовые навигаторы, или системы распознавания команд, успешно применяются в различных областях деятельности. Например, call-центр OmniTouch, поставленный Ватикану компанией Alcatel, использовался для обслуживания мероприятий, проходивших в рамках празднования 2000-летия Христа. Паломник, звонивший в call-центр, излагал свой вопрос, и система автоматического распознавания речи «выслушивала» его. Если система определяла, что вопрос задан по часто встречающейся теме, например о расписании мероприятий или адресах гостиниц, то включалась предварительно сделанная запись. При необходимости уточнить вопрос предлагалось речевое меню, в котором голосом надо было указать один из пунктов. Если же система распознавания определяла, что предварительно записанного ответа на заданный вопрос нет, то происходило соединение паломника с оператором-человеком.

    В Швеции не так давно была открыта автоматическая телефонная справочная служба, использующая программу распознавания речи компании Philips. За первый месяц работы службы Autosvar, которая начала действовать без официального объявления, ее услугами воспользовались 200 тыс. клиентов. Человек должен набрать определенный номер и после ответа автоматического секретаря назвать интересующий его раздел информационного справочника.

    Новая услуга предназначена в основном для частных клиентов, которые предпочтут ее из-за значительно меньшей стоимости услуг. Служба Autosvar является первой системой такого рода в Европе (в США испытания аналогичной службы в компании AT&T были начаты в декабре прошлого года).

    Вот несколько примеров использования этой технологии в США.

    Риэлтеры часто обращаются к услугам компании Newport Wireless. Когда риэлтер проезжает на машине по улице и видит возле какого-нибудь дома табличку «Продается», он звонит в Newport Wireless и запрашивает сведения о доме с таким-то номером, находящемся на такой-то улице. Автоответчик приятным женским голосом рассказывает ему о метраже дома, дате постройки и владельцах. Вся эта информация находится в базе данных Newport Wireless. Риэлтерам остается только выдать сообщение клиенту. Абонентская плата - около 30 долл. в месяц.

    Джули, виртуальный агент компании Amtrak, обслуживает железнодорожных пассажиров с октября 2001 года. Она по телефону сообщает о расписании поездов, об их прибытии и отправлении, а также производит бронирование билетов. Джули - это продукт компании SpeechWorks Software и Intervoice Hardware. Она уже увеличила показатель удовлетворенности пассажиров на 45%; 13 из 50 клиентов получают всю нужную информацию из «уст» Джули. Раньше компания Amtrak использовала тоновую систему справки, однако показатель удовлетворенности тогда был меньше: всего 9 клиентов из 50.

    В Amtrak признаются, что свою цену (4 млн. долл.) Джули окупила за 12-18 месяцев. Она позволила не нанимать на работу целую команду служащих. А British Airways экономит 1,5 млн. долл. в год, используя технологию от Nuance Communications, которая тоже автоматизирует справочную службу.

    Недавно Sony Computer Entertainment America представила Socom - первую видеоигру, в которой игроки могут отдавать устные приказы бойцам из «Deploy grenades». В игре стоимостью 60 долл. применена технология ScanSoft. В прошлом году было продано 450 тыс. таких игр, что сделало Socom безусловным лидером продаж компании.

    В дорогих автомобилях типа Infinity и Jaguar уже несколько лет используется устный контроль за панелью управления: радио, температурный режим и навигационная система понимают голос владельца машины и беспрекословно слушаются хозяина. Но сейчас технология распознавания голоса начинает применяться и в машинах среднего класса. Так, с 2003 года Honda Accord имеет встроенный голосовой определитель от IBM. Он называется ViaVoice и является частью навигационной системы за 2000 долл. По сообщению компании-поставщика, одна пятая часть покупателей Honda Accord сделала выбор в пользу модели с голосовой системой навигации.

    Даже в медицине технология распознавания голоса нашла свое место. Уже разработаны аппараты осмотра желудка, послушные голосу врача. Правда, эти аппараты, по словам специалистов, пока еще несовершенны: у них замедленная реакция на приказы врача. Но все еще впереди. В Мемфисе VA Medical Center вложил 277 тыс. долл. в программу Dragon, позволяющую врачам и медсестрам надиктовывать информацию в базу данных компьютера. Вероятно, скоро не нужно будет мучиться, чтобы разобрать в медицинской карте почерк врача.

    Уже сотни крупных компаний используют технологию распознавания голоса в своей продукции или в услугах; в их числе - AOL, FedEx, Honda, Sony, Sprint, T. Rowe Price, United Airlines и Verizo. По оценкам экспертов, рынок голосовой технологии достиг в 2002 году порядка 695 млн. долл., что на 10% выше, чем в 2001 году.

    Авиакомпания United Airways внедрила автоматическую справочную службу еще в 1999 году. Автоматические системы обработки телефонных звонков эксплуатируются такими компаниями, как инвестиционный банк Charles Schwab & Co, розничная сеть Sears, сеть супермаркетов Roebuck. Американские операторы беспроводной связи (AT&T Wireless и Sprint PCS) уже больше года используют подобные программы и предоставляют услуги голосового набора. И хотя сейчас лидером по количеству call-центров такого типа является Америка, в последнее время выгоду от систем распознавания речи начали осознавать и в Европе. Например, швейцарская служба железных дорог уже предоставляет своим немецкоязычным пассажирам услуги, аналогичные тем, что предлагает United Airways.

    Прогнозы аналитиков

    егодня технологии распознавания речи считаются одними из наиболее перспективных в мире. Так, по прогнозам американской исследовательской компании Cahners In-Stat, мировой рынок ПО распознавания речи к 2005 году увеличится с 200 млн. до 2,7 млрд. долл. По мнению же фирмы Datamonitor, объем рынка голосовых технологий будет расти в среднем на 43% в год: с 650 млн. долл. в 2000 году до 5,6 млрд. долл. в 2006-м (рис. 1). Эксперты, сотрудничающие с медиакорпорацией CNN, отнесли распознавание речи к одной из восьми наиболее перспективных технологий нынешнего года. А аналитики из IDC заявляют, что к 2005 году распознавание речи вообще вытеснит с рынка все остальные речевые технологии (рис. 2).

    Основные сложности

    лавная проблема, возникающая при разработке САРР, заключается в вариативном произношении одного и того же слова как разными людьми, так и одним и тем же человеком в различных ситуациях. Человека это не смутит, а вот компьютер - может. Кроме того, на входящий сигнал влияют многочисленные факторы, такие как окружающий шум, отражение, эхо и помехи в канале. Осложняется это и тем, что шум и искажения заранее неизвестны, то есть система не может быть подстроена под них до начала работы.

    Однако более чем полувековая работа над различными САРР дала свои плоды. Практически любая современная система может работать в нескольких режимах. Во-первых, она может быть зависимой или независимой от диктора. Зависимая от диктора система требует специального обучения под конкретного пользователя, чтобы точно распознавать то, что он говорит. Для обучения системы пользователю надо произнести несколько определенных слов или фраз, которые система проанализирует и запомнит результаты. Этот режим обычно используется в системах диктовки, когда с системой работает один пользователь.

    Дикторонезависимая система может быть использована любым пользователем без обучающей процедуры. Этот режим обычно применяется там, где процедура обучения невозможна, например в телефонных приложениях. Очевидно, что точность распознавания дикторозависимой системы выше, чем у дикторонезависимой. Однако независимая от диктора система удобнее в использовании, например она может работать с неограниченным кругом пользователей и не требует обучения.

    Во-вторых, системы делятся на работающие только с изолированными командами и на способные распознавать связную речь. Распознавание речи является значительно более сложной задачей, чем распознавание отдельно произносимых слов. Например, при переходе от распознавания изолированных слов к распознаванию речи при словаре в 1000 слов процент ошибок увеличивается с 3,1 до 8,7, кроме того, для обработки речи требуется в три раза больше времени.

    Режим изолированного произнесения команд наиболее простой и наименее ресурсоемкий. При работе в этом режиме после каждого слова пользователь делает паузу, то есть четко обозначает границы слов. Системе не требуется самой искать начало и конец слова в фразе. Затем система сравнивает распознанное слово с образцами в словаре, и наиболее вероятная модель принимается системой. Этот тип распознавания широко используется в телефонии вместо обычных DTMF-методов .

    Дополнительные вариации в речи возникают также из-за произвольных интонаций, ударений, нестрогой структуры фраз, пауз, повторов и т.д.

    На стыке слитного и раздельного произнесения слов возник режим поиска ключевых слов. В этом режиме САРР находит заранее определенное слово или группу слов в общем потоке речи. Где это может быть использовано? Например, в подслушивающих устройствах, которые включаются и начинают запись при появлении в речи определенных слов, или в электронных справочных. Получив запрос в произвольной форме, система выделяет смысловые слова и, распознав их, выдает необходимую информацию.

    Размер используемого словаря - важная составляющая САРР. Очевидно, что чем больше словарь, тем выше вероятность того, что система ошибется. Во многих современных системах есть возможность или дополнять словари по мере необходимости новыми словами, или подгружать новые словари. Обычный уровень ошибок для дикторонезависимой системы с изолированным произнесением команд - около 1% для словаря в 100 слов, 3% - для словаря в 600 слов и 10% - для словаря в 8000 слов.

    Предложения современного рынка САРР

    а рынке сегодня представлены CАРР различных компаний. Рассмотрим некоторые из них.

    Aculab

    Точность узнавания 97%.

    Дикторонезависимая система. Разработчики системы проанализировали различные базы данных для многих языков, чтобы учесть все вариации речи, возникающие в зависимости от возраста, голоса, пола и акцента. Собственные алгоритмы обеспечивают распознавание речи независимо от особенностей оборудования (наушников, микрофона) и характеристик канала.

    Система поддерживает возможность создания дополнительных словарей, учитывающих особенности произношения и акцентов. Это особенно полезно в тех случаях, когда системой пользуются люди, произношение которых сильно отличается от общепринятого.

    Система поддерживает наиболее распространенные языки, такие как британский и американский английский, французский, немецкий, итальянский, североамериканский испанский. Словарь может быть настроен на любой из этих языков, но невозможно одновременно использовать несколько языков в составе одного словаря.

    Продукт доступен на базе Windows NT/2000, Linux и Sun SPARC Solaris.

    Babear SDK Version 3.0

    Дикторонезависимая система, не требующая обучения под конкретного пользователя. Адаптация под пользователя происходит во время работы и обеспечивает наилучший результат распознавания. Автоматическая подстройка на голосовую активность позволяет распознавать речь в сильно зашумленной среде, например в салоне автомобиля. Система не определяет слова, не занесенные в словарь. Предусмотрена возможность поиска ключевых слов. Система может быть настроена на работу как с маленьким словарем (изолированное произнесение команд), так и с большим по объему словарем (речь).

    Система поддерживает следующие языки: британский и американский английский, испанский немецкий, французский, датский, шведский, турецкий, греческий, исландский и арабский.

    Система работает на базе Windows 98 (SE)/NT 4.0/2000/CE, Mac OS X и Linux.

    Loquendo ASR

    Дикторонезависимая система, оптимизированная для использования в телефонии. Предусмотрена возможность распознавания отдельных слов и речи, поиска ключевых слов (словарь до 500 слов). Позволяет создавать дружественные пользователю приложения за счет большого объема словаря и гибкости системы.

    Поддерживает 12 языков, включая наиболее распространенные европейские языки (итальянский, испанский, британский и американский английский, французский, немецкий, греческий, шведский и др.).

    Входит в состав продукта Loquendo Speech Suite вместе с системой text-to-speech и программой Loquendo VoiceXML Interpreter, поддерживающей использование различных голосов и языков.

    Система работает на базе MS Windows NT/2000, UNIX и Linux.

    LumenVox

    Дикторонезависимая система, не требующая обучения, но после адаптации под конкретного пользователя результаты распознавания становятся гораздо лучше: точность распознавания превышает 90%.

    Поддерживает различные форматы аудиофайлов: (u-law 8 кГц, РСМ 8 кГц, РСМ 16 кГц). Не имеет жестких требований к аппаратным ресурсам. Работает на базе Windows NT/2000/XP и Linux.

    Требования к системе (на базе Windows):

    Windows NT 4.0 c Service Pack 6a, Windows 2000 или Windows XP Pro;

    Минимальный размер памяти 512 Mбайт.

    Требования к системе (на базе Red Hat Linux):

    Red Hat Linux 7.2;

    Intel Pentium III 800 MГц или выше;

    Объем памяти 256 Mбайт;

    Размер диска 17 Mбайт (после декомпрессии).

    Nuance

    По словам производителей, система оптимизирована для наименьшего потребления памяти и других системных ресурсов. Точность распознавания - до 96%, причем остается высокой даже в зашумленном помещении.

    Есть возможность самообучения системы и ее подстройки под каждого пользователя.

    Работает на базе Windows 2000 и Linux.

    SPIRIT

    Язык может быть любой (словарь составляется под конкретные требования клиента и включает те слова и на том языке, которые клиент указал в требованиях к настройкам системы. В словарь могут быть включены слова из разных языков, то есть, не меняя настроек, система может распознавать слова, например, как на китайском, так и на финском языке, если они были заранее внесены в словарь). Таким образом, эта система может работать с любым языком, тогда как другие системы - лишь с определенным их набором.

    Это автоматическая система распознавания речи, обеспечивающая высокое качество распознавания даже в сильно зашумленной среде. Система может быть легко настроена на работу в одном из двух режимов: распознавание фраз с фиксированным числом команд (произнесение отдельных команд, режим PIN-кода) и распознавание фраз с произвольным числом команд (слитное произнесение команд, «режим связной речи»). Есть возможность поиска ключевых слов. Данное решение работает в условиях аддитивного нестационарного шума. Требуемое соотношение «сигнал/шум» до 0 дБ в «режиме PIN-кода» и до +15 дБ в режиме связной речи.

    Задержка распознавания — 0,2 с. Параметры акустического канала: полоса пропускания в пределах 300-3500 Гц. Адаптация к акустической среде производится по фрагментам шума суммарной длиной не менее 3 с.

    Для «режима PIN-кода»:

    Словарь — 50 команд;

    Вероятность правильного распознавания - 95-99% при SNR = 0…6 дБ;

    Требуемые акустические условия: аддитивный широкополосный статичный шум с SNR (отношение «сигнал/шум») >= 15 дБ.

    Для режима распознавания связной речи:

    Словарь — 12 слов /цифр;

    Вероятность правильного распознавания цепочки слов - 98-99%.

    Специфика: адаптация к произвольным шумам.

    Автоматическая система распознавания речи от SPIRIT доступна в форме приложения для PC под MS Windows или ассемблерного кода. По запросу клиентов решение может быть портировано на любую DSP- или RISC-платформу.

    VoiceWare

    Система может работать как в дикторозависимом, так и в дикторонезависимом режиме, поэтому специального обучения системы для работы с конкретным пользователем не требуется.

    Обеспечивается высокая точность распознавания и работа в реальном времени, даже в зашумленной среде.

    Система распознает связную речь и последовательный перечень цифр.

    Слова, не занесенные в словарь, и посторонний шум не воспринимаются ею, а ничего не значащие слова, такие как «а», «ну» и пр., отбрасываются.

    Новые слова могут быть добавлены в словарь.

    Система автоматически подстраивается под тон, произношение и другие речевые особенности пользователя.

    VoiceWare поддерживает американский английский и корейский языки; китайский и японский - в разработке.

    Система работает на базе Windows 95/98/NT 4.0, UNIX и Linux.

    В представленной работе преимущественно разбирались по частям компании с Северной Америки и Европы. Рынок Азии представлен в исследовании слабо. Но все эти детали пожалуй оставим пока у себя. Однако очень интересно описаны тренды и текущая характеристика отрасли, что само по себе очень интересно - тем более ее можно изложить в различных вариациях не теряя общей сути. Не будем томить - пожалуй начнем описывать самые интересные моменты, куда движется все-таки отрасль распознавания речи и что нас ждет в ближайшем будущем (2012 - 2016 гг.) - как уверяют исследователи.

    Введение

    Системы распознавания голоса – это вычислительные системы, которые могут определять речь говорящего из общего потока. Эта технология связана с технологией распознавания речи, которая преобразует произнесенные слова в цифровые текстовые сигналы, путем проведения процесса распознавания речи машинами. Обе эти технологии используются параллельно: с одной стороны для идентификации голоса конкретного пользователя с другой стороны для идентификация голосовых команд посредством распознавания речи. Распознавание голоса используется в биометрических целях безопасности, чтобы определить голос конкретного человека. Эта технология стала очень популярной в мобильном банкинге, который требует идентификации подлинности пользователей, а также для других голосовых команд, чтобы помочь им совершать сделки.

    Мировой рынок распознавания речи является одним из самых быстрорастущих рынков в голосовой индустрии. Большая часть роста на рынке приходит из Америки, а затем из Европы, Ближнего Востока и Африки (EMEA) и Азиатско-Тихоокеанского региона (АТР). Большая часть роста на рынке происходит от здравоохранения, финансовых услуг, и государственного сектора. Однако в других сегментах, таких как телекоммуникации и транспорт ожидается значительное увеличение роста в ближайшие несколько лет. Прогноз рынка, дальнейшее увеличение со среднегодовым темпом роста в 22,07 процента в период 2012-2016 гг. (показатели динамики роста текущих компаний).

    Драйверы роста рынка

    Рост мирового рынка распознавания голоса зависит от множества факторов. Одним из основных факторов является увеличение спроса на услуги голосовой биометрии. С увеличением сложности и частоты нарушений безопасности, безопасность продолжает оставаться одним из основных требований для предприятий, а также государственных организаций. Высокий спрос голосовой биометрии, которая является уникальной для любого человека, имеет решающее значение в установлении личности человека. Другим ключевым фактором для рынка является более широкое использование идентификации диктора для судебно-медицинских целей.

    Некоторые из основных факторов мирового рынка распознавания речи:
    Увеличение спроса на услуги голосовой биометрии
    Более широкое использование идентификации диктора для судебно-медицинских целей
    Спрос на распознавания речи в военных целях
    Высокий спрос для распознавания голоса в сфере здравоохранения

    Изначально, слово «биометрия» встречалось только в медицинской теории. Тем не менее, стали возрастать потребности в безопасности с использованием биометрических технологий среди предприятий и государственных учреждений. Использование биометрических технологий – один из ключевых факторов на мировом рынке распознавания речи. Распознавание голоса используется проверки подлинности человека, так как голос каждого человека индивидуален. Это обеспечит высокий уровень точности и безопасности. Распознавание голоса имеет большое значение в финансовых институтах, таких как банк, а так же на предприятиях в сфере здравоохранения. В настоящее время сегмент распознавания речи составляет 3,5% от доли технологий биометрии на мировом рынке, но это доля имеет постоянный рост. Также низкая стоимость биометрических устройств увеличивает спрос со стороны малого и среднего бизнеса.

    Более широкое использование идентификации диктора для судебно-медицинских целей

    Использование технологии идентификации диктора для судебно-медицинских целей является одной из главных движущих сил на мировом рынке распознавания голоса. Происходит сложный процесс определения, соответствует ли голос лица, подозреваемого в совершении преступления, голосу из судебно-медицинских образцов. Данная технология позволяет правоохранительным органам выявлять преступников по одной из самых уникальных характеристик человека, его голосу, тем самым предлагая относительно высокий уровень точности. Судебно-медицинские эксперты проводят анализ соответствия голоса подозреваемого образцам до тех пор, пока не будет найден преступник. В последнее время эта технология используется, чтобы помочь решать некоторые уголовные дела.

    Спрос на распознавание речи в военных целях

    Военные ведомства в большинстве стран используют крайне ограниченные зоны для того, чтобы предотвратить проникновение злоумышленников. Для обеспечения секретности и безопасности в этой зоне, военные используют системы распознавания голоса. Эти системы помогают военным учреждениям выявлять наличие несанкционированных проникновений в защищенную зону. Система содержит базу данных голосов военнослужащих и государственных чиновников, которые имеют допуск к защищенной территории. Эти люди идентифицируются системой распознавания голоса, тем самым предотвращается допуск людей, чьих голосов нет в базе данных системы. В дополнение можно сказать, что ВВС США используют голосовые команды для управления самолетом. Кроме того, военные ведомства используют распознавание речи и систему Voice-to-text для коммуникации с гражданами в других странах. Например, американские военные активно используют системы распознавания речи в их операциях в Ираке и Афганистане. Таким образом, существует высокий спрос на распознавание речи и голоса для военных целей.

    Биометрические технологии, такие как сосудистое распознавание, распознавание голоса и сканирование сетчатки глаза широко внедряются в сферу здравоохранения. Распознавание голоса, как ожидается, станет одним из основных режимов идентификации в медицинских учреждениях. Многие компании здравоохранения в США, обращаясь к стандартам Health Insurance Portability and Accountability Act (HIPAA), также применяют биометрические технологии, такие как распознавание голоса, распознавание отпечатков пальцев для более безопасной и эффективной регистрации пациента, накопления информации пациента, защиты медицинских записей пациента. Также учреждения клинических испытаний внедряют распознавания голоса для выявления лиц, набранных для клинических испытаний. Таким образом, голосовая биометрия является одним из основных режимов для идентификации клиента в сфере здравоохранения в Азиатско-Тихоокеанском регионе.

    Требования рынка



    Влияние основных четырёх трендов и проблем на мировой рынок распознавания показано на рисунке

    Ключ
    Влияние проблем и трендов оценивается на основе интенсивности и длительности их воздействия на текущий рынок. Классификация величины воздействия:
    Низкий – незначительное или нулевое влияние на рынок
    Средний – средний уровень влияния на рынок
    Умеренно высокий– значительное влияние на рынок
    Высокий – очень сильное воздействие с радикальным влиянием на рост рынка

    Несмотря на рост трендов мировой рынок распознавания голоса продолжает сталкиваться с некоторыми серьезными тормозами роста. Одна из важных проблем – трудность подавления окружающего шума. Хотя рынок распознавания речи стал свидетелем нескольких технологических достижений, неспособность подавлять окружающий шум все еще остается препятствием на пути к признанию приложений распознавания голоса. Еще одной проблемой для этого рынка является высокая стоимость приложений распознавания голоса.

    Некоторые из основных задач, стоящих перед мировым рынком распознавания голоса:
    Невозможность подавления внешних шумов
    Высокая стоимость приложения распознавание голоса
    Проблемы с точностью распознавания
    Низкий уровень безопасности в верификации диктора

    Невозможность подавления внешних шумов

    Несмотря на технический прогресс в сфере распознавания голоса, шумы продолжает оставаться одной из основных проблем на мировом рынке распознавания голоса. Кроме того, голосовая биометрия отличается особенной чувствительностью по сравнению с другими видами биометрии. Приложения распознавания голоса, голосовой биометрии и распознавания речи оказываются очень чувствительными к шуму окружающей среды. В результате, любое шумовое нарушение препятствует точности распознавания. Также нарушается автоматизированный ответ на голосовую команду. Неспособность подавить окружающий шум является единственным фактором, который не дает системам распознавания голоса достичь высоких результатов и занять высокий процент доли на мировом рынке биометрических технологий.

    Высокая стоимость приложений распознавания голоса

    Одной из основных проблем, препятствующих развитию технологий распознавания речи, является потребность в больших инвестиционных вложениях, требуемых для разработки и реализации. Крупномасштабное развертывание технологии распознавания голоса на предприятии является трудоемким процессом и требует огромных инвестиций. Экономия на бюджете приводит к ограничению тестирования технологии, следовательно, любой сбой может привести к большим потерям на предприятии. Поэтому альтернативные распознаванию голоса варианты, такие как swipe card и keypad по-прежнему активно используются во многих компаниях, особенно среди малого и среднего бизнеса, в силу их экономической эффективности. Таким образом, приложения распознавания голоса требуют больших материальных вложений, включая стоимость интеграционной системы, дополнительного оборудования и другие затраты.

    Проблемы с точностью распознавания

    На мировом рынке распознавания голоса единой проблемой является невысокие показатели точности распознавания, не смотря на то, что в настоящее время системы распознавания голоса способны распознавать различные языки и определять подлинность голоса. Так как система включает в себя сложный процесс согласования баз данных с произносимыми командами и интегрированной технологией распознавания речи и голосовой верификации, даже незначительная ошибка в любой часть процесса может привести к неверному результату. Погрешность в распознавании речи является одним из основных ограничений в приложениях распознавания голоса. Однако некоторые производители начали разработку систем с очень низким уровнем погрешности в распознавании голоса. Они разработали системы с менее чем 4% неточных результатов (например, измерения голосовой биометрии неверно идентифицируют и отвергают голос человека, у которого есть доступ).

    Низкий уровень безопасности в верификации диктора

    Высокий уровень неточности в верификации диктора приводит к низкому уровню безопасности. В настоящее время системы распознавания голоса имеют высокий процент неточного результата. Чем выше скорость принятия неправильных решений, тем выше вероятность того, что, например, разрешение на въезд получит посторонний человек. Поскольку системы распознавания голоса очень чувствительны, они улавливают все, включая проблемы с горлом, кашель, простуду, изменение голоса в связи с болезнью, то существует высокая вероятность того, что посторонний человек сможет получить доступ к закрытой территории, причиной этому является низкий уровень безопасности в распознавании человека на основе голоса.

    Тенденции рынка

    Эффект от проблем стоящих перед рынком, как ожидается, должен свести на нет наличие различных тенденций, которые появляются на рынке. Одной из таких тенденция является увеличение спроса на распознавание речи на мобильных устройствах. Осознавая огромный потенциал мобильных устройств, производители на мировом рынке распознавания голоса развивают инновационные приложения, специфичные для работы на мобильных устройствах. Это один из будущих движущих факторов. Возрастающий спрос на голосовую аутентификацию мобильного банкинга является еще одной позитивной тенденцией на рынке распознавания голоса.

    Некоторые из основных тенденций на мировом рынке распознавания голоса:
    Увеличение спроса на распознавание речи на мобильных устройствах
    Рост спроса на услуги голосовой аутентификации для мобильного банкинга
    Интеграция голосовой верификации и распознавания речи
    Увеличение слияний и поглощений

    Увеличение спроса на распознавание речи на мобильных устройствах

    Растущее число правил дорожного движения, запрещающих использование мобильных устройств во время вождения автомобиля, увеличило спрос на приложения распознавания речи. Страны, в которых были наложены строгие ограничения: Австралия, Филиппины, США, Великобритания, Индия и Чили. В США более чем в 13 штатах, не смотря на введение Положение об использовании мобильных устройств, разрешено использовать громкую связь во время вождения. Следовательно, покупатели все чаще выбирают мобильные устройства, оснащенные приложениями распознавания речи, которые смогут помочь им получить доступ к устройству без необходимости отвлекаться на само устройство. В целях удовлетворения растущего спроса на приложения распознавания речи в мобильных устройствах, производители увеличили количество научно-исследовательских и опытно-конструкторских работ для того, чтобы развить речевые команды опций для мобильного устройства. В результате, большое количество приложений распознавания речи были включены в мобильное устройство, например, управление музыкальным плей листом, считывание адреса, считывание имени абонента, голосовые СМС сообщения и т.д.

    Необходимость в усилении проверки приводит к всеобщей интеграции голосовой аутентификации в мобильном банкинге. В таких регионах, как Северная Америка и Западная Европа, большое количество банковских клиентов используют средства банковского обслуживания по телефону. Большое количество таких финансовых институтов принимают голосовые решения аутентификации от пользователя о принятии или отклонении мобильных транзакций. Кроме того, включение голосовой аутентификации в мобильных устройствах является экономически эффективным и в то же время обеспечивает более высокий уровень безопасности. Таким образом, тенденция к интеграции голосовой аутентификации для мобильного банкинга будет расти дальше на протяжении многих лет. Действительно, банковские учреждения использующие телефоны сотрудничают с поставщиками решений голосовой аутентификации и инкорпорациями голосовой биометрии, что является ключевым конкурентным преимуществом.

    Некоторые производители работают в направлении интеграции голосовой верификации и технологии распознавания речи. Вместо того, чтобы предлагать голосовую верификацию в виде отдельного продукта, производители предлагают интегрировать функционал верификации голоса и распознавания речи. Голосовая верификация помогает определить, кто говорит, и одновременно, который человек говорит. Большинство производителей начали или в процессе запуска приложений распознавания речи, которые связаны с интеграцией описанных выше двух технологий.

    Увеличение слияний и поглощений

    На мировом рынке распознавания голоса наблюдаются серьезные тенденции слияния и поглощения. Доминирующий лидер рынка Nuance Communications Inc ., который держит более чем 50% доли на рынке, приобрел большое количество маленьких компаний на рынке распознавания речи. Из этого следует, что приобретение – это новый подход к росту компании, в результате чего у Nuance шесть приобретений в 2007 году. Эта тенденция, как ожидается, сохранится и в ближайшие несколько лет в связи с наличием многочисленных мелких игроков, которые могут быть приобретены более крупными компаниями как Nuance . Поскольку рынок является технологически ориентированным, то небольшие компании разрабатывают инновационные решения. Но из-за нехватки ресурсов эти компании не в состоянии увеличить масштабы своего бизнеса. Таким образом, крупные компании, такие как Nuance , используют процесс поглощения в качестве основной стратегии для выхода на новые рынки и отрасли. Например, Nuance приобрела Loquendo Inc . Для того, чтобы войти в регион EMEA.

    Заключение

    Есть 2 ветки развития систем распознавания речи (объем рынка с $1.09 по $2.42 миллиарда с 2012 по 2016 гг., темп роста +22.07%)
    Преобразование речи в текст (объем рынка с $860млн. (2012г.) до $1727млн. (2016г.) - общая доля 79%-71% с 2012 по 2016 гг.)
    Верификация и идентификация голоса человека (объем рынка с $229млн. (2012г.) до $697млн. - общая доля 21%-28,8% с 2012 по 2016 гг.)

    В конкурентной борьбе будут более активно развиваться компании, которые существуют на грани эти двух направлений - с одной стороны улучшая точность программ распознавания речи и перевода его в текста, с другой стороны решая эту задачу посредставом идентификации диктора и верификации его речи, используя дополнительный канал (например видео) в качестве источника информации.

    Согласно исследованию Technavio - основная проблема существующих программ распознавания речи - это их подверженность в подавлении окружающего шума;
    - Основная тенденция - распространение речевых технологий за счет увеличения количества и качества мобильных устройств и развития решений мобильного банкинга;
    - Большую погоду в развитии технологий распознавания речи на данный момент играет государственные организации, военная сфера, медицина и финансовый сектор. Однако наметился большой спрос на такого рода технологии в виде мобильных приложений и задач голосовой навигации, а также биометрии;
    - Основной рынок систем распознавания речи находится в США, однако самая быстрая и платежеспособная аудитория проживает в странах юго-восточной Азии, особенно в Японии (за счет полной голосовой автоматизации работы call-центров). Предполагается, что именно в данном регионе должен появиться сильный игрок, который станет серьезным подспорьем для мирового могущества Nuance Communications (текущая доля общемирового рынка - 70%);
    - Наиболее распространенная политика на рынке систем распознавания речи - это слияния и поглощения (M&A) - компании -лидеры рынка часто скупают небольшие технологические лаборатории или фирмы по всему миру, чтобы сохранить гегемонию.
    - Стоимость приложений стремительно падает, точность растет, фильтрация посторонних шумов улучшается, безопасность возрастает - предполагаемая дата реализации сверхточной технологии распознавания речи - 2014 гг.

    Таким образом, по прогнозам Technavio в период 2012-2016 гг. ожидается увеличение рынка систем распознавания речи более чем в 2,5 раза. Большую долю на одном из самых динамичных и быстрых рынков IT технологии получат игроки, которые смогут в своем продукте решить 2 задачи одновременно: научиться качественно распознавать речь и переводить ее в текст, а также хорошо уметь идентифицировать голос диктора, верифицировать его из общего потока. Большим преимуществом в конкурентной борьбе можно назвать демпинг (искусственное снижение стоимости подобных технологий), создание программ с дружелюбным интерфейсом и быстрым процессом адаптации - при высоком качестве работы. Предполагается, что в течение ближайших 5 лет - появятся новые игроки на рынке, которые могут поставить под сомнение менее поворотливых крупных корпораций типа Nuance Communications распознавание речи

  • исследование рынка
  • прогноз развития
  • nuance
  • Добавить метки

    Для того, чтобы распознать речь и перевести её из аудио или видео в текст , существуют программы и расширения (плагины) для браузеров. Однако зачем всё это, если есть онлайн сервисы? Программы надо устанавливать на компьютер, более того, большинство программ распознавания речи далеко не бесплатны.


    Большое число установленных в браузере плагинов сильно тормозит его работу и скорость серфинга в интернет. А сервисы, о которых сегодня пойдет речь, полностью бесплатны и не требуют установки – зашел, попользовался и ушел!

    В этой статье мы рассмотрим два сервиса перевода речи в текст онлайн . Оба они работают по схожему принципу: Вы запускаете запись (разрешаете браузеру доступ к микрофону на время пользования сервисом), говорите в микрофон (диктуете), а на выходе получаете текст, который можно скопировать в любой документ на компьютере.

    Speechpad.ru

    Русскоязычный онлайн сервис распознавания речи. Имеет подробную инструкцию по работе на русском языке.

    • поддержку 7 языков (русский, украинский, английский, немецкий, французский, испанский, итальянский)
    • загрузку для транскрибации аудио или видео файла (поддерживаются ролики с YouTube)
    • синхронный перевод на другой язык
    • поддержку голосового ввода знаков препинания и перевода строки
    • панель кнопок (смена регистра, перевод на новую строку, кавычки, скобки и т.п.)
    • наличие персонального кабинета с историей записей (опция доступна после регистрации)
    • наличие плагина к Google Chrome для ввода текста голосом в текстовом поле сайтов (называется «Голосовой ввод текста — Speechpad.ru»)

    Dictation.io

    Второй онлайн сервис перевода речи в текст. Иностранный сервис, который между тем, прекрасно работает с русским языком, что крайне удивительно. По качеству распознавания речи не уступает Speechpad, но об этом чуть позже.

    Основной функционал сервиса:

    • поддержка 30 языков, среди которых присутствуют даже венгерский, турецкий, арабский, китайский, малайский и пр.
    • автораспознавание произношения знаков препинания, перевода строки и пр.
    • возможность интеграции со страницами любого сайта
    • наличие плагина для Google Chrome (называется «VoiceRecognition»)

    В деле распознавания речи самое важное значение имеет именно качество перевода речи в текст. Приятные «плюшки» и вохможности – не более чем хороший плюс. Так чем же могут похвастаться в этом плане оба сервиса?

    Сравнительный тест сервисов

    Для теста выберем два непростых для распознавания фрагмента, которые содержат нечасто употребляемые в нынешней речи слова и речевые обороты. Для начала читаем фрагмент поэмы «Крестьянские дети» Н. Некрасова.

    Ниже представлен результат перевода речи в текст каждым сервисом (ошибки обозначены красным цветом):

    Как видим, оба сервиса практически с одинаковыми ошибками справились с распознаванием речи. Результат весьма неплохой!

    Теперь для теста возьмем отрывок из письма красноармейца Сухова (к/ф «Белое солнце пустыни»):

    Отличный результат!

    Как видим, оба сервиса весьма достойно справляются с распознаванием речи – выбирайте любой! Похоже что они даже используют один и тот же движок — уж слижком схожие у них оказались допущенные ошибки по результатам тестов). Но если Вам необходимы дополнительные функции типа подгрузки аудио / видео файла и перевода его в текст (транскрибация) или синхронного перевода озвученного текста на другой язык, то Speechpad будет лучшим выбором!


    Кстати вот как он выполнил синхронный перевод фрагмента поэмы Некрасова на английский язык:

    Ну а это краткая видео инструкция по работе со Speechpad, записанная самим автором проекта:

    Друзья, понравился ли Вам данный сервис? Знаете ли Вы более качественные аналоги? Делитесь своими впечатлениями в комментариях.

    Поделиться