Голосовая биометрия. Краткий обзор технологии


Каждый из нас способен узнать своих родных и знакомых по походке, силуэту, прическе, иногда почерку, но в первую очередь, конечно, по голосу и лицу. Это никого не удивляет и кажется абсолютно естественным. В то же время большинство почему-то с недоверием относится к различным системам, которые обещают идентифицировать человека по характерным лишь для него признакам. Ведь мы же путаем иногда голоса по телефону, принимая незнакомца за кого-то из близких, так почему «машина» не может ошибиться? И как ей в таком случае доверять?

Прародительницей биометрических технологий считается биология: представители науки всегда пытались систематизировать и объяснить различные признаки и свойства особей, проявляющиеся во время экспериментов. В конце XIX в. ученые Фрэнсис Гальтон и Карл Пирсон, выявляя закономерности в наследственности людей, применили методы вариационной статистики при анализе их наследственных признаков, чем положили начало науке биометрии.

До 2001 г. возможности биометрии применялись преимущественно спецслужбами для выявления преступников, защиты государственной тайны и сверхважной коммерческой информации.

Но после чреды террористических актов биометрические технологии, что называется, шагнули в массы. Уже никого не удивляет функция доступа к данным по отпечатку пальца, предлагаемая во многих моделях ноутбуков. Однако до сих пор специалисты по биометрии приводят примеры из фантастических фильмов, чтобы объяснить, каким образом можно использовать подобные технологии.

Между тем возможности биометрии многогранны: решения, созданные на ее основе, применяются в системах контроля и управления доступом, для организации доступа к личным кабинетам в веб, а также к персональной информации и мобильным терминалам.

В качестве идентификатора могут выступать лицо, ладонь, отпечаток пальца, радужная оболочка глаза или голос - все то, что ни один человек не может оставить дома или передать кому-то.

Речь - основное средство коммуникации для людей. Каждый человек использует голос для общения, причем как непосредственного, так и с помощью различных каналов связи (GSM, PSTN, VoIP). Запись же речи несет в себе массу информации не только о содержании сообщения, но и о личности говорящего. Именно поэтому речь, а точнее, фонетические ее образцы как биометрические характеристики эффективно используются в качестве улики в криминалистике с середины прошлого века.

Метод идентификации по голосу основывается на том, что у каждого индивидуума свой неповторимый голосовой рисунок, который зависит от его пола, физических особенностей строения голосовых связок и полости носа, формы рта, а также от таких характеристик, как частота и амплитуда. Точность биометрической идентификации по голосу соответствует 97 %.

При их внедрении нет необходимости в установке дополнительного оборудования как для передачи, так и для фиксации речи;

Характеризуются высокой скоростью поиска фонетического образца голоса в архиве образцов речи в режиме реального времени.

Разработанные компанией «Центр речевых технологий» (ЦРТ) программные решения для создания и ведения фоноучетов, а также осуществления автоматической идентификации по голосу основываются на таких методах исследования голоса и речи, для которых не имеют значение язык, акцент, используемый диалект, а также само содержание речи.

Процедура поиска (идентификации) интересующего «диктора» заключается в автоматическом попарном сравнении «голосовых моделей», в которых закодированы индивидуальные биометрические характеристики голоса и речи «дикторов». По результатам сравнения выводится ранжированный список фонограмм, содержащих с указанной вероятностью речь интересующих «дикторов».

Система автоматически выделяет биометрические признаки голоса и речи «дикторов» тремя независимыми методами и в соответствии с этим строит «модели голоса»:

При применении спектрально-формантного метода на основе различных спектральных характеристик речевого сигнала, анализа поведения первых трех и/или четырех формант, биометрической информации о строении речевого тракта (см. рис);

В случае использования метода основного тона на основе различных спектральных характеристик речевого сигнала, отражающих вибрации голоса, а также множества статистических и динамических параметров интонационного контура;

При применении метода с использованием смесей гауссовых распределений производится выделение дикторозависимых биометрических признаков из речевого сигнала, их последующее моделирование и классификация по методу опорных векторов. Сравнение голосовых моделей может производиться двумя способами:

С единственным шаблоном, соответствующим проверяемой личности - такая процедура называется верификацией или сравнением «один к одному». Результатом в этом случае обычно является число, отражающее вероятность того, что сравниваемые шаблоны принадлежат одному лицу;

Со всеми зарегистрированными шаблонами (без предварительного выбора шаблона и ввода номера или кода). В качестве результата возвращается список нескольких наиболее похожих шаблонов (с наибольшими вероятностями, полученными при сравнении).

Система биометрического распознавания речи встраивается в требуемые бизнес-процессы и за считанные секунды идентифицирует и верифицирует голос человека, информируя оператора о положительном или отрицательном результате сравнения.

Идентификация по голосу является бесконтактным, этически корректным методом получения биометрической информации. Взаимодействие с системой идентификации по голосу не вызывают у человека раздражения при снятии «образца» и в ходе дальнейшей процедуры. Кроме того, голос является единственно доступной биометрической характеристикой для распознавания личности по телефону.

Мультимодальная биометрия

В случае использования одного биометрического признака (одной биометрической модальности) для идентификации личности существует вероятность ошибки системы. Это связано с целым рядом причин:

Качеством образца. Не все люди имеют определенные биометрические признаки. По различным данным, до 5 % населения не обладают отчетливыми отпечатками пальцев. В частности, пожилые люди имеют деформированные и стер-тые рисунки пальцев, а дети - несформировавшиеся. Все это также увеличивает вероятность получения ложного отказа при регистрации биометрических образцов в системе.

Неправильным взаимодействием пользователя с биометрической системой в процессе регистрации. Выбор неправильной позы, выражение сильных эмоций на лице при фотографировании для образца повышают возможность возникновения ложного отказа при идентификации.

Схожестью отдельных биометрических признаков (например, голосов или лиц) у различных людей, что приводит к увеличению межклассовой схожести. Это, в свою очередь, способствует появлению ошибок при идентификации личности.

Погодными условиями.

Мультимодальные биометрические системы могут устранить многие ограничения унимодальных систем, поскольку при их использовании одни биометрические признаки компенсируют недостатки, присущие другим.

Мультимодальная система идентификации личности, разработанная ЦРТ, объединила голосовую и лицевую биометрию. В 2011 г. дочерняя компания «ЦРТ-Инновации» стала участником кластера информационных технологий инновационного центра «Сколково», где ведет работу над созданием мультимодальных биометрических систем, предназначенных для использования в сфере государственной и корпоративной безопасности, а также в области телекоммуникаций.

Совмещение голосовой и лицевой биометрии является естественным ходом развития биометрических технологий из-за широкого распространения соответствующих «бимодальных» устройств: сотовых телефонов, коммуникаторов, цифровых фото- и видеокамер, ноутбуков. Наличие таких бимодальных устройств значительно упрощает процесс получения биометрических образцов, процесс регистрации личности в биометрической системе, понижает стоимость самой системы и т. д.

Метод идентификации по лицу представляется также одним из наиболее социально допустимых биометрических методов. Эта технология достаточно легко интегрируется в другие существующие системы, так как фотографии являются основным идентификационным форматом для водительских прав, паспортов и иных удостоверений личности. Фото- или видеосъемка лица не представляется раздражающим процессом, потому что люди привыкли к постоянному присутствию видеокамер в офисах, торговых центрах и других общественных местах. Техника сканирования лица в биометрической индустрии занимает второе место после отпечатков пальцев

Коммерческое применение биометрических технологий в системах доступа

Современный человек вынужден помнить пароли от почтовых ящиков, интернет-магазинов, рабочего места (в среднем на каждого обывателя приходится четыре часто используемых символьных пароля, которые время от времени приходится менять, записывать где-то, снижая при этом надежность доступа к своим аккаунтам). Вход в офис, спортивный клуб, въезд на парковку ограничиваются картой/брелоком доступа. Это те артефакты и та информация, которые крайне нежелательно забыть или потерять.

Система автоматической биометрической аутентификации по голосу и/или лицу заменяет и дополняет традиционные системы доступа по карточкам, секретным словам и паролям в контакт-центрах, электронных банкингах, интеренет-магазинах и других отраслях бизнеса, где необходимо общение с клиентом как личное, так и с использованием каналов связи. Кроме того, система применима в офисах и на рабочих местах в целях снижения риска утечки и ограничения доступа к коммерческой информации.

Разработанная в ЦРТ система доступа на основе технологии автоматической идентификации личностей по голосу (см. табл.) и дополненная идентификацией по лицу может служить как самостоятельное решение, так и совместно с другими биометрическими модальностями и традиционными системами доступа.

Уникальность голосовой биометрии состоит в том, что это единственная биометрическая модальность, которая позволяет идентифицировать человека по телефону, что важно, например, при удаленном доступе к различным услугам, криминалистической идентификации, где единственным доказательством является запись телефонного разговора подозреваемого. Кроме того, голосовая идентификация не требует применения специализированного дорогостоящего оборудования, нужен только микрофон. При этом по уровню надежности голосовая биометрия не уступает, а по некоторым параметрам превосходит другие системы биометрической идентификации.

Биометрические системы доступа нашли применение в самых различных сферах деятельности:

Правоохранительной и судебной (экспертиза);

Таможенной;

Правительственной и военной;

Финансовой;

Туристической.

Основными задачами, которые решают биометрические системы доступа, являются:

Контроль доступа в системах информационной безопасности (государственные и правительственные учреждения, телебанкинг и автоматические call-центры);

Контроль физического доступа (в основном государственные и правительственные учреждения);

Усиление безопасности применения банковских карт (АТМ-киоски).

Использование технологий биометрической идентификации в системе доступа является важным аспектом для обеспечения безопасности на всех уровнях: в каналах связи, сети Интернет, при физическом доступе на объекты и в помещения. Биометрические решения оперируют неотъемлемыми характеристиками человека, существенно снижая угрозы осуществления мошеннических операций в финансовых компаниях, несанкционированного доступа в стратегически важные помещения, а также организации беспорядков на объектах массового скопления людей.

С развитием средств общения с клиентом открываются новые возможности для бизнеса, но в равной степени возрастает и риск мошенничества со стороны потребителей услуг и персонала. В случае создания базы голосов злоумышленников при автоматической аутентификации речи легко выявляются и пресекаются преступные намерения со стороны недобросовестных клиентов. Допустим, контактцентр банка или оператора связи в качестве идентификационной информации использует фамилию, имя, отчество, дату рождения и паспортные данные клиента - сведения, которые можно купить и найти в Интернете. Воспользовавшись полученными данными, любой может навредить клиенту компании - блокировать номер телефона, узнать баланс, подключить дополнительные услуги. Для пресечения подобных действий зачастую применяют секретное слово, которое также можно передать другому или узнать незаконно. В то время как использование технологий голосовой биометрии позволит не только определить, что голос не принадлежит пользователю услуг, но и сформировать базу голосов злоумышленников в целях пресечения повторения аналогичных действий с их стороны.

Решения с использованием голосовой биометрии особенно эффективны при внедрении в организациях с развитой сетью филиалов. Общая база биометрических данных сотрудников и пользователей услуг обеспечивает надежную защиту от действий мошенников, кражи пропусков и паролей и выполнения операций от чужого имени вне зависимости от того, обслуживаются ли клиенты в филиале организации, по телефону или через Интернет.

Применение биометрических технологий во внутренних и внешних процессах коммерческих компаний не только позволяет увеличить безопасность, сократив случаи мошенничества, повысить удобство общения с различными электронными автоматическими системами персонала и клиентов, но и сократить ТСО на обслуживание систем управления доступом.

Понятие «аутентификация» характеризует проверку на подлинность, например: является ли Вася Пупкин действительно Васей или же это, возможно, Петя какой-нибудь? Является ли он тем, за кого себя выдает? Процесс аутентификации может быть выполнен одним из трех возможных способов:

  • основан на том, что Вам известно, например, кодовая комбинация (пароль);
  • основан на том, что у Вас есть: ключ, магнитная карта, брелок;
  • то, что есть Вы: папиллярные узоры, геометрия лица, строение глаза.

Именно третий пункт заключает в себе биометрическую аутентификацию, которая с развитием технологий становится все более актуальной. Как она работает, какие существуют достоинства, недостатки и насколько это безопасно, давайте рассмотрим подробнее...


Краткая история биометрии

Упуская множество фактов, исторических событий и деталей, применение биометрических параметров человека началось еще задолго до появления технических средств. Еще 100 г. до н. э. некий китайский император ставил свой отпечаток пальца, как печать на особо-важных доисторических артефактах. В 1800-х годах, Альфонс Бертильон, разработал систему распознавания преступников по их анатомическим характеристикам.

С течением времени, полиция Великобритании, Франции, США, начали отслеживать злоумышленников и подозреваемых в преступлениях по их отпечаткам пальцев. В дальнейшем, технология нашла свое применение в ФБР. Отпечатки пальцев стали первой полноценной системой распознавания человека.

В нынешнее время, биометрия стала более обширной и являются средством дополнительной защиты для технических средств или же элементом безопасности, который применяется в , для пропуска на охраняемую территорию, помещения и т.д.


Разновидности биометрической аутентификации

В настоящее время широко используются: пальцы человека, лицо и его глаза, а также голос - это «три кита» на которых держится современная биометрическая проверка подлинности пользователей:

Существует их довольно много, однако, сегодня используются три основных типа сканеров отпечатков пальцев:

  • емкостные - измеряют электрические сигналы, поступающие от наших пальцев. Анализируют емкостную разницу между приподнятой частью отпечатка и его впадиной, после чего формируется «карта» отпечатка и сравнивается с исходной;
  • ультразвуковые - сканируют поверхность пальца путем звуковых волн, которые посылаются на палец, отражаются и обрабатываются;
  • оптические - фотографируют отпечаток пальца и выполняют сравнивание на соответствие.

Трудности при сканировании могут возникнуть, если мокрые или грязные руки, если травма (порезы, ожоги), если человек является инвалидом (отсутствуют руки, кисти, пальцы).

  1. Аутентификация по радужной оболочки глаза

Другая и довольно распространенная биометрическая форма аутентификации - сканеры радужной оболочки. Узоры в наших глазах является уникальным и не меняется в течении жизни человека, что позволяет выполнить проверку подлинности того или иного человека. Процесс проверки является довольно сложным, так как анализируется большое количество точек, по сравнению со сканерами отпечатков пальцев, что свидетельствует о надежности системы.

Однако, в этом случае, могут возникнуть трудности у людей с очками или контактными линзами - их нужно будет снимать для корректной работы сканера.

  1. Аутентификация по сетчатке глаза

Альтернативный способ использовать человеческий глаз для биометрической аутентификации - сканирование сетчатки. Сканер светит в глазное яблоко и отображает структуру кровеносных сосудов, которые так же, как и оболочка - являются уникальными у каждого из нас.

Биометрическая проверка подлинности по голосу внедряется в потребительские технологии и также имеет большие перспективы. Распознавание голоса сейчас реализовано у Google Assistant на устройствах Android или у Siri на устройствах iOS, или у Alexa на Amazon Echo. В основном сейчас, это реализовано так:

Т.е. никакой проверки на подлинность пользователя не осуществляется, однако, с развитием технологий - кушать пойдет только подлинный пользователь устройства. Тем не менее, технология аутентификации по голосу существует и в процессе проверки подлинности анализируется интонация, тембр, модуляция и другие биометрические параметры человека.

Трудности здесь могут возникать из-за фоновых шумов, настроения человека, возраста, здоровья, что, как следствие, снижает качество метода, из-за этого он не имеет столь широкого распространения.

  1. Аутентификация по геометрии лица человека

Последней в данной статье и одна из распространенных форм биометрической аутентификации - распознавание лица. Технология довольно простая: фотографируется лицо человека и сравнивается с исходным изображением лица пользователя, имеющего доступ к устройству или на охраняемую территорию. Подобную технологию, именуемой, как «FaceID» мы можем наблюдать реализованной в iPhone от Apple.

Мы немного похожи на маму, папу или более раннего поколения родственников, а кто-то и на соседа... Как бы там ни было - каждый из нас имеет уникальные черты лица, за исключением близнецов (хотя и у них могут быть родинки в разных местах).

Несмотря на то, что технология простая по своей сути, она довольно сложная в процессе обработки изображения, поскольку осуществляется построение трехмерной модели головы, выделяются контуры, рассчитывается расстояние между элементами лица: глазами, губами, бровями и др.

Метод активно развивается, поскольку его можно использовать не только для биометрической аутентификации пользователей или сотрудников, но и для поимки преступников и злоумышленников. Ряд из камер, в общественных местах (вокзалах, аэропортах, площадях, людных улицах и т.д.) устанавливают в сочетании с данной технологией, где сканер имеет довольно высокую скорость работы и точность распознавания.


Как злоумышленник может обмануть биометрическую аутентификацию?

Нужно понимать, что при сканировании определенных параметров возможно возникновение ошибок в алгоритме распознавания. И в то же время, имея определенные знания, навыки и ресурсы, злоумышленник, может уклониться от тех или иных методов проверки подлинности.

В случае со сканером отпечатков пальцев, некоторые из них можно обмануть путем:

  • изготовления трехмерной модели пальца из специального материала (выбирается исходя из принципа работы сканера);
  • использования пальцев спящего человека, без сознания или мертвого;

Сканеры радужной оболочки и сетчатки глаза можно, с легкостью, обмануть качественной фотографией человека распечатанной на цветной бумаге. Однако, большинство современных сканеров умеет распознавать 2D модель и отличать ее от 3D, в таком случае, на снимок необходимо положить контактную линзу, что сымитирует блик (отражение света). Посмотрите наглядный видеоролик демонстрирующий процесс обхода сканера глаза на устройстве Samsung Galaxy S8:

Голосовые сканеры также имеют свои слабые места, которые возникают вследствие существования искусственного интеллекта и нейронных сетей способных имитировать голоса людей - такие системы имеют возможность скопировать любой человеческий голос и воспроизвести его за считанные секунды.

Сканеры лица человека не уступают по степени уязвимости, поскольку некоторые из таких систем, злоумышленник может обмануть использованием фотографии человека, как, например, в случае с Samsung Galaxy Note 8:

Получить доступ через сканер лица, не составит трудностей и у близнецов, на примере Face ID в iPhone - это выглядит вот так:


Основное достоинство и недостаток биометрической аутентификации

Явное преимущество системы - удобство, по причине того, что у Вас отсутствует необходимость запоминать кодовую комбинацию (пароль) или последовательность графического ключа, думать о том,

Явный недостаток - безопасность, в силу того, что существует масса уязвимостей и система распознавания не является надежной на все 100%. В то же время биометрические параметры (отпечаток пальца или рисунок радужной оболочки) нельзя изменить, в отличие от пароля или ПИН-кода. Это существенный недостаток, поскольку, если единожды данные попадут к злоумышленнику мы подвергаем себя серьезным рискам.

Учитывая, насколько сейчас распространена биометрическая технология распознавания в современных смартфонах, есть несколько рекомендаций, позволяющих в некоторой степени повысить уровень защиты:

  • большинство отпечатков, которые мы оставляем на поверхности - это большого пальца и указательного, поэтому для Вашей аутентификации на смартфоне лучше всего использовать другие пальцы;
  • несмотря на наличие биометрической проверки, применения или ПИН-кода - обязательное условие для полноценной безопасности.

Всем привет.
Недавно я написал вот такую про распознавание слитной речи, а сейчас хотел бы написать про голосовую биометрию, т.е. подтверждение личности человека по голосу и узнавание человека по голосу.

Опять же, т.к. моя работа связана с контактными центрами (КЦ), то говорить я буду о них. Это еще связано с тем, что сейчас именно они активно интересуются голосовой биометрией, что не удивительно, т.к. телефонный канал – это идеальное ее применение.
- вы не видите абонента на другом конце провода;
- вы не можете использовать другие модальности для подтверждения личности: по лицу, по сетчатке глаза, по отпечатку пальца.
- не нужны дополнительные сканирующие устройства, типа тех, куда надо приложить свой палец или кому показать свой глаз.
- это самый дешевый способ биометрии, хоть и слегка уступает по надежности другим способам. Но так как другие модальности технически не применимы по телефону в массовом использовании, то выбора по факту нет.
Вы, конечно, можете возразить про вариант подтверждения личности абонента «основанном на знаниях» - это пароли, секретные слова, TPIN коды (банки), паспортные данные и т.д. – но все это не надежно с точки зрения безопасности и требует запоминания информации у абонента или всегда держать информацию под рукой, что не очень удобно для абонента и не эффективно (затратно) для КЦ.

Для начала определимся с понятиями, что входит в понятие голосовой биометрии:
- Это идентификация , т.е. установление личности человека по голосу. Это когда вам звонит старый приятель по телефону с неизвестного номера и говорит: «Угадай кто это?» и вы пытаетесь в голове среди всех известных (знакомых) голосов найти наилучшее совпадение. Когда сканирование памяти закончилось и вы нашли более менее подходящее совпадение, то вы можете уже сказать: «Ага, это мой одноклассник Серега с которым я не говорил 10 лет». Но гарантии в том, что это именно он, у вас нет, и тут приходит время верификации.
- Верификация – это подтверждение личности по голосу, т.е. однозначное удостоверение личности. Для этого мы можем попросить доказать, что Серега именно тот, за кого себя выдает. Мы можем спросить у него: «Скажи, где мы были в 6 утра на выпускном» - эта информация позволит нам подтвердить личность Сереги, т.к. только он может являться носителем этой информации (аналогично паролю о котором я писал выше).

Если хотите более умное определение, то:
Идентификация - Проверяет совпадение одного образца голоса со многими из базы голосов. В качестве результата идентификации система показывает список личностей с похожими голосами в процентном отношении. 100% совпадение означает, что образец голоса полностью совпадает с голосом из базы данных и личность установлена достоверно.
Верификация - Производит сличение двух образцов голоса: голос человека, чью личность необходимо подтвердить, с голосом, который храниться в базе данных системы и чья личность уже достоверно установлена. В качестве результата верификации система показывает степень совпадения одного голоса с другим в процентном отношении.
Есть еще такое понятие как аутентификация . Однозначно сказать, чем она отличается от верификации сказать трудно. У некоторых наших сотрудников есть мнение, что это некий процесс подтверждения биологической (!) личности, когда трудно отделить процесс идентификации от верификации, т.е. это обобщенный процесс.

Какая бывает верификация?

- Текстонезависимая
Когда подтверждение личности происходит по спонтанной речи абонента, т.е. нам не важно, что говорит человек. Это самый долгий метод подтверждения – чистой речи абонента должно накопиться минимум 6-8 сек. Обычно этот способ применяется непосредственно во время общения абонента с оператором КЦ, когда последнему нужно однозначно удостовериться, что абонент именно тот, за кого себя выдает. Самое интересное, что данный способ верификации можно применять скрытно от самого абонента. На рабочем месте оператора КЦ виден вот такой рабочий инструмент.

Рис 1. Часть интерфейса рабочего места оператора КЦ для проведения верификации клиента.

- Текстозависимая по статической парольной фразе
Когда подтверждение личности происходит по парольной фразе, которую на момент регистрации придумал абонент. Длительность парольной фразы должна быть не менее 3 сек. Обычно мы предлагаем говорить свое ФИО и название компании. Парольная фраза всегда одинаковая.
- Текстозависимая по динамической парольной фразе
Когда подтверждение личности происходит по парольной фразе, которую предлагает сама система в момент звонка для верификации, т.е. каждый раз парольная фраза разная! Обычно мы предлагаем динамическую парольную фразу из последовательности цифр. Абонент повторяет за системой числа до тех пор, пока она не примет однозначного решения «свой/чужой». Это может быть и одно число типа «32» или целый набор «32 58 64 25». Интересно то, то произнесение разных цифр дает разный объем информации для сличения: самая «полезная» цифра «восемь» – она больше всего содержит полезной речевой информации, самая бесполезная «два».

Шаг 1.
Что бы мы могли провести верификацию по голосу, нам нужно в своей базе уже иметь образец голоса (слепок голоса), хозяин которого достоверно известен. Поэтому первый шаг – это накопление базы слепками голосов, для этого мы просим абонентов (клиентов) пройти процесс регистрации в системе.
Регистрация в системе абонента означает, что он добровольно оставляет свой слепок голоса, который потом мы будем использовать для верификации. Обычно мы просим оставить подряд 3 слепка голоса, что бы была вариативность – три раза произнести свой пароль. Затем, когда верификация будет успешно пройдена, мы заменим наиболее старый слепок голоса новым, таким образом, происходит постоянное обновление слепков, если абонент часто пользуется системой. Так мы решаем проблему старения голоса.
Если мы применяем верификацию по динамической парольной фразе, то мы просим произнести абонента цифры от 0 до 9 три раза. В результате у нас будет 30 образцов голоса.

Желательно, что бы клиент оставлял свой слепок голоса (регистрировался) по тому каналу связи, по которому потом будет верифицироваться, иначе вероятность ошибок возрастает. Бывают случаи, когда проходят регистрацию с гарнитуры в скайпе, а потом верифицируются по домашнему телефону – здесь фактор канала связи будет играть большую роль в надежности сервиса. При построении сервиса можно учитывать, что каналы связи могут быть разные - это отрабатывается и тестируется отдельно под конкретный случай и нивелировать влияния канала связи можно практически полностью. Но не подумав об этом сразу и с наскока внедрить - будут сложности.

Важно, что бы клиент самостоятельно и осознано прошел регистрацию (знал зачем это нужно и как это ему потом поможет), т.к. пройти потом верификацию может только лояльный абонент, которому нужен результат и который принимает «правила игры».
Если клиента вынуждать проходить верификацию к месту и не к месту, то он может подсознательно изменять голос, дурачиться (быть не дружелюбным к сервису) - это будет приводить к ошибкам и лояльность клиента будет падать, хотя он сам в этом косвенно будет виноват.

Как проходит регистрация абонента в системе? (статическая парольная фраза)

Рис 2. Схема регистрации человека в биометрической системе.

1.Абонент звонит в биометрическую систему, которая предлагает ему придумать и произнести парольную фразу. Произнести 3 раза.
2.Голос обрабатывается сервером биометрии и на выход мы получаем 3 модели голоса. По одной на каждый произнесенный пароль.
3.На сервере мы заводим карточку клиента (Юрий Гагарин) к которой прицепляем полученные 3 модели голоса.

Что такое модель голоса?
- это уникальные характеристики голоса человека отраженные в матрице цифр, т.е. это файл размером 18Кбайт (для статической п.ф.). Это как отпечаток пальца. Именно эти модели голоса мы потом и сравниваем. В общей сложности модель голоса фиксирует 74 (!) разных параметра голоса.

Как получают модели голоса?
Мы используем 4 независимых метода:
- анализ статистики основного тона;
- метод смеси гауссовых распределений и SVM;
- спектрально-формантный;
- метод полной изменчивости.
Описывать их подробно я здесь не возьмусь – это сложно даже для меня и в курс «для чайников» точно не входит. Этому всему мы учим на нашей кафедре РИС в ИТМО (Санкт-Петербург).

Шаг 2.
Это непосредственно сама верификация. То есть у нас есть абонент на том конце провода, который утверждает, что он Юрий Гагарин. А у нас в базе, соответственно, есть карточка клиента Юрия Гагарина, где хранятся слепки его голоса, поэтому, все, что нам нужно сделать – это сравнить голос человека, который утверждает, что он Юрий Гагарин с голосом настоящего Юрия Гагарина.

Как проходит верификация абонента в системе? (статическая парольная фраза)

Рис 3. Схема верификации человека в биометрической системе.

1.Сначала мы поступаем как при регистрации, т.е. у нас есть произнесенный клиентом пароль, который мы отправляем в сервер биометрии и строим модель голоса «якобы» Юрия Гагарина.
2.Затем мы берем 3 модели голоса настоящего Юрия Гагарина, делаем хитрым способом усредненную модель и тоже отправляем ее в сервер биометрии.
3.Просто сравниваем 2 разные модели. На выходе мы получаем процент соответствия одной модели к другой.
4.Дальше нам нужно что-то делать с этим числом (на рисунке 92%). Много это или мало, можем мы однозначно сказать, что это Юрий Гагарин или это обманщик?

Рис 4. Порог доверия «свой/чужой».

В системе у нас есть такой параметр как «порог доверия» - это некий процент соответствия. Допустим, мы его сами задали в 60%. Таким образом, если процент соответствия модели голоса «якобы» Юрия Гагарина не доходит до «порога доверия», то нам позвонил обманщик. Если больше «порога доверия», то нам позвонил настоящий Юрий Гагарин. «Порог доверия» мы можем задавать сами, обычно это от 50 до 70% в зависимости от задачи верификации.

Здесь мне нужно было бы вам рассказать про ошибки первого (FR) и второго рода (FA), а также обобщенной ошибки (EER), но я это делать не буду – это сильно усложнит и увеличит текст. Если интересно, то я попробую уговорить, кого ни будь из научного отдела это популярно описать и размещу здесь отдельно.

Скажу просто, что в зависимости от задачи верификации, нам бывает полезней с большей долей вероятности пропустить «своего», чем не пропустить «чужого». И наоборот, иногда бывает важнее не пропустить «чужого», чем пропустить «своего».
Уверен, что с первого раза эти 2 предложения из вас никто не понял, и вам пришлось еще раз вдумчиво их прочитать, что бы осознать смысл.

Интеграция сервера биометрии в контактный центр.

Рис 5. Блок-схема продукта VoiceKey.

Честно говоря, здесь все очень просто: на вход мы подаем голос в формате wave или PCM по http, на выходе получаем результат сравнения. Больше подробнее на этом останавливаться не хочу.

Процесс верификации занимает в среднем 0.8 сек. Есть возможность работать одновременно со многими потоками.

У нас на сайте все подробно описано, а главное есть проработанные сценарии использования для контактных центров. За последние годы я достаточно много общался с различными крупными КЦ в России, в первую очередь это финансовый сектор и понимание целей и задач у меня сформировалось.

Теперь затронем такой вопрос: насколько вообще технология голосовой биометрии пригодна к массовому использованию? Надежна ли она?

Если кратко, то ДА, она реально круто работает. У нас в компании есть телефонные демонстрационные стенды. Если интересно, то каждый из вас может позвонить и лично попробовать, как и что работает. Телефонный номер и инструкцию по тестированию даю по запросу с этой страницы. Просто для статистики интереса к этой теме и оценки нагрузки на сервер.

Для справки: разработки Российских ученых в области голосовой биометрии занимают если не первое место в мире, то точно делят его с другими. Это подтверждено независимыми исследованиями, например NIST (Национальный Институт Стандартов и Технологий, США), где наша компания попала в тройку лучших по всем пяти тестам среди коммерческих компаний. Или то, что наш продукт «VoiceKey» победил в номинации «Лучший продукт года для КЦ» в 2013 году в международном конкурсе «Хрустальная гарнитура ».
Также можно отметить, что нашей компании принадлежит реализация самого крупного в мире на сегодняшний день проекта по голосовой биометрии в телефонном канале.

Вкратце, вот такой ликбез. Готов отвечать на вопросы в комментах.

Всем привет.
Недавно я написал вот такую про распознавание слитной речи, а сейчас хотел бы написать про голосовую биометрию, т.е. подтверждение личности человека по голосу и узнавание человека по голосу.

Опять же, т.к. моя работа связана с контактными центрами (КЦ), то говорить я буду о них. Это еще связано с тем, что сейчас именно они активно интересуются голосовой биометрией, что не удивительно, т.к. телефонный канал – это идеальное ее применение.
- вы не видите абонента на другом конце провода;
- вы не можете использовать другие модальности для подтверждения личности: по лицу, по сетчатке глаза, по отпечатку пальца.
- не нужны дополнительные сканирующие устройства, типа тех, куда надо приложить свой палец или кому показать свой глаз.
- это самый дешевый способ биометрии, хоть и слегка уступает по надежности другим способам. Но так как другие модальности технически не применимы по телефону в массовом использовании, то выбора по факту нет.
Вы, конечно, можете возразить про вариант подтверждения личности абонента «основанном на знаниях» - это пароли, секретные слова, TPIN коды (банки), паспортные данные и т.д. – но все это не надежно с точки зрения безопасности и требует запоминания информации у абонента или всегда держать информацию под рукой, что не очень удобно для абонента и не эффективно (затратно) для КЦ.

Для начала определимся с понятиями, что входит в понятие голосовой биометрии:
- Это идентификация , т.е. установление личности человека по голосу. Это когда вам звонит старый приятель по телефону с неизвестного номера и говорит: «Угадай кто это?» и вы пытаетесь в голове среди всех известных (знакомых) голосов найти наилучшее совпадение. Когда сканирование памяти закончилось и вы нашли более менее подходящее совпадение, то вы можете уже сказать: «Ага, это мой одноклассник Серега с которым я не говорил 10 лет». Но гарантии в том, что это именно он, у вас нет, и тут приходит время верификации.
- Верификация – это подтверждение личности по голосу, т.е. однозначное удостоверение личности. Для этого мы можем попросить доказать, что Серега именно тот, за кого себя выдает. Мы можем спросить у него: «Скажи, где мы были в 6 утра на выпускном» - эта информация позволит нам подтвердить личность Сереги, т.к. только он может являться носителем этой информации (аналогично паролю о котором я писал выше).

Если хотите более умное определение, то:
Идентификация - Проверяет совпадение одного образца голоса со многими из базы голосов. В качестве результата идентификации система показывает список личностей с похожими голосами в процентном отношении. 100% совпадение означает, что образец голоса полностью совпадает с голосом из базы данных и личность установлена достоверно.
Верификация - Производит сличение двух образцов голоса: голос человека, чью личность необходимо подтвердить, с голосом, который храниться в базе данных системы и чья личность уже достоверно установлена. В качестве результата верификации система показывает степень совпадения одного голоса с другим в процентном отношении.
Есть еще такое понятие как аутентификация . Однозначно сказать, чем она отличается от верификации сказать трудно. У некоторых наших сотрудников есть мнение, что это некий процесс подтверждения биологической (!) личности, когда трудно отделить процесс идентификации от верификации, т.е. это обобщенный процесс.

Какая бывает верификация?

- Текстонезависимая
Когда подтверждение личности происходит по спонтанной речи абонента, т.е. нам не важно, что говорит человек. Это самый долгий метод подтверждения – чистой речи абонента должно накопиться минимум 6-8 сек. Обычно этот способ применяется непосредственно во время общения абонента с оператором КЦ, когда последнему нужно однозначно удостовериться, что абонент именно тот, за кого себя выдает. Самое интересное, что данный способ верификации можно применять скрытно от самого абонента. На рабочем месте оператора КЦ виден вот такой рабочий инструмент.

Рис 1. Часть интерфейса рабочего места оператора КЦ для проведения верификации клиента.

- Текстозависимая по статической парольной фразе
Когда подтверждение личности происходит по парольной фразе, которую на момент регистрации придумал абонент. Длительность парольной фразы должна быть не менее 3 сек. Обычно мы предлагаем говорить свое ФИО и название компании. Парольная фраза всегда одинаковая.
- Текстозависимая по динамической парольной фразе
Когда подтверждение личности происходит по парольной фразе, которую предлагает сама система в момент звонка для верификации, т.е. каждый раз парольная фраза разная! Обычно мы предлагаем динамическую парольную фразу из последовательности цифр. Абонент повторяет за системой числа до тех пор, пока она не примет однозначного решения «свой/чужой». Это может быть и одно число типа «32» или целый набор «32 58 64 25». Интересно то, то произнесение разных цифр дает разный объем информации для сличения: самая «полезная» цифра «восемь» – она больше всего содержит полезной речевой информации, самая бесполезная «два».

Шаг 1.
Что бы мы могли провести верификацию по голосу, нам нужно в своей базе уже иметь образец голоса (слепок голоса), хозяин которого достоверно известен. Поэтому первый шаг – это накопление базы слепками голосов, для этого мы просим абонентов (клиентов) пройти процесс регистрации в системе.
Регистрация в системе абонента означает, что он добровольно оставляет свой слепок голоса, который потом мы будем использовать для верификации. Обычно мы просим оставить подряд 3 слепка голоса, что бы была вариативность – три раза произнести свой пароль. Затем, когда верификация будет успешно пройдена, мы заменим наиболее старый слепок голоса новым, таким образом, происходит постоянное обновление слепков, если абонент часто пользуется системой. Так мы решаем проблему старения голоса.
Если мы применяем верификацию по динамической парольной фразе, то мы просим произнести абонента цифры от 0 до 9 три раза. В результате у нас будет 30 образцов голоса.

Желательно, что бы клиент оставлял свой слепок голоса (регистрировался) по тому каналу связи, по которому потом будет верифицироваться, иначе вероятность ошибок возрастает. Бывают случаи, когда проходят регистрацию с гарнитуры в скайпе, а потом верифицируются по домашнему телефону – здесь фактор канала связи будет играть большую роль в надежности сервиса. При построении сервиса можно учитывать, что каналы связи могут быть разные - это отрабатывается и тестируется отдельно под конкретный случай и нивелировать влияния канала связи можно практически полностью. Но не подумав об этом сразу и с наскока внедрить - будут сложности.

Важно, что бы клиент самостоятельно и осознано прошел регистрацию (знал зачем это нужно и как это ему потом поможет), т.к. пройти потом верификацию может только лояльный абонент, которому нужен результат и который принимает «правила игры».
Если клиента вынуждать проходить верификацию к месту и не к месту, то он может подсознательно изменять голос, дурачиться (быть не дружелюбным к сервису) - это будет приводить к ошибкам и лояльность клиента будет падать, хотя он сам в этом косвенно будет виноват.

Как проходит регистрация абонента в системе? (статическая парольная фраза)

Рис 2. Схема регистрации человека в биометрической системе.

1.Абонент звонит в биометрическую систему, которая предлагает ему придумать и произнести парольную фразу. Произнести 3 раза.
2.Голос обрабатывается сервером биометрии и на выход мы получаем 3 модели голоса. По одной на каждый произнесенный пароль.
3.На сервере мы заводим карточку клиента (Юрий Гагарин) к которой прицепляем полученные 3 модели голоса.

Что такое модель голоса?
- это уникальные характеристики голоса человека отраженные в матрице цифр, т.е. это файл размером 18Кбайт (для статической п.ф.). Это как отпечаток пальца. Именно эти модели голоса мы потом и сравниваем. В общей сложности модель голоса фиксирует 74 (!) разных параметра голоса.

Как получают модели голоса?
Мы используем 4 независимых метода:
- анализ статистики основного тона;
- метод смеси гауссовых распределений и SVM;
- спектрально-формантный;
- метод полной изменчивости.
Описывать их подробно я здесь не возьмусь – это сложно даже для меня и в курс «для чайников» точно не входит. Этому всему мы учим на нашей кафедре РИС в ИТМО (Санкт-Петербург).

Шаг 2.
Это непосредственно сама верификация. То есть у нас есть абонент на том конце провода, который утверждает, что он Юрий Гагарин. А у нас в базе, соответственно, есть карточка клиента Юрия Гагарина, где хранятся слепки его голоса, поэтому, все, что нам нужно сделать – это сравнить голос человека, который утверждает, что он Юрий Гагарин с голосом настоящего Юрия Гагарина.

Как проходит верификация абонента в системе? (статическая парольная фраза)

Рис 3. Схема верификации человека в биометрической системе.

1.Сначала мы поступаем как при регистрации, т.е. у нас есть произнесенный клиентом пароль, который мы отправляем в сервер биометрии и строим модель голоса «якобы» Юрия Гагарина.
2.Затем мы берем 3 модели голоса настоящего Юрия Гагарина, делаем хитрым способом усредненную модель и тоже отправляем ее в сервер биометрии.
3.Просто сравниваем 2 разные модели. На выходе мы получаем процент соответствия одной модели к другой.
4.Дальше нам нужно что-то делать с этим числом (на рисунке 92%). Много это или мало, можем мы однозначно сказать, что это Юрий Гагарин или это обманщик?

Рис 4. Порог доверия «свой/чужой».

В системе у нас есть такой параметр как «порог доверия» - это некий процент соответствия. Допустим, мы его сами задали в 60%. Таким образом, если процент соответствия модели голоса «якобы» Юрия Гагарина не доходит до «порога доверия», то нам позвонил обманщик. Если больше «порога доверия», то нам позвонил настоящий Юрий Гагарин. «Порог доверия» мы можем задавать сами, обычно это от 50 до 70% в зависимости от задачи верификации.

Здесь мне нужно было бы вам рассказать про ошибки первого (FR) и второго рода (FA), а также обобщенной ошибки (EER), но я это делать не буду – это сильно усложнит и увеличит текст. Если интересно, то я попробую уговорить, кого ни будь из научного отдела это популярно описать и размещу здесь отдельно.

Скажу просто, что в зависимости от задачи верификации, нам бывает полезней с большей долей вероятности пропустить «своего», чем не пропустить «чужого». И наоборот, иногда бывает важнее не пропустить «чужого», чем пропустить «своего».
Уверен, что с первого раза эти 2 предложения из вас никто не понял, и вам пришлось еще раз вдумчиво их прочитать, что бы осознать смысл.

Интеграция сервера биометрии в контактный центр.

Рис 5. Блок-схема продукта VoiceKey.

Честно говоря, здесь все очень просто: на вход мы подаем голос в формате wave или PCM по http, на выходе получаем результат сравнения. Больше подробнее на этом останавливаться не хочу.

Процесс верификации занимает в среднем 0.8 сек. Есть возможность работать одновременно со многими потоками.

У нас на сайте все подробно описано, а главное есть проработанные сценарии использования для контактных центров. За последние годы я достаточно много общался с различными крупными КЦ в России, в первую очередь это финансовый сектор и понимание целей и задач у меня сформировалось.

Теперь затронем такой вопрос: насколько вообще технология голосовой биометрии пригодна к массовому использованию? Надежна ли она?

Если кратко, то ДА, она реально круто работает. У нас в компании есть телефонные демонстрационные стенды. Если интересно, то каждый из вас может позвонить и лично попробовать, как и что работает. Телефонный номер и инструкцию по тестированию даю по запросу с этой страницы. Просто для статистики интереса к этой теме и оценки нагрузки на сервер.

Для справки: разработки Российских ученых в области голосовой биометрии занимают если не первое место в мире, то точно делят его с другими. Это подтверждено независимыми исследованиями, например NIST (Национальный Институт Стандартов и Технологий, США), где наша компания попала в тройку лучших по всем пяти тестам среди коммерческих компаний. Или то, что наш продукт «VoiceKey» победил в номинации «Лучший продукт года для КЦ» в 2013 году в международном конкурсе «Хрустальная гарнитура ».
Также можно отметить, что нашей компании принадлежит реализация самого крупного в мире на сегодняшний день проекта по голосовой биометрии в телефонном канале.

Вкратце, вот такой ликбез. Готов отвечать на вопросы в комментах.

Поделиться