Голосовые отпечатки: скорее всего, вы уже успели «наследить»Если в колл-центрах, куда вы иногда звоните, есть система создания голосовых отпечатков, вас могут легко опознать. Если такой системы ещё нет, ваши отпечатки можно создать в один клик по ранее сделанным записям.
Работает это так: каждый раз, когда вы звоните, например, в банк, где есть система определения клиента по голосу, ваш разговор записывается. Скажем, 1-2 минут вашей беседы с оператором достаточно для того, чтобы создать достаточно точный профиль вашего голоса. В дальнейшем вас будут определять по первой фразе.
Процесс создания голосового отпечатка и его проверки несимметричный. Для создания используется больше данных (больше времени разговора), для проверки – меньше примерно на порядок. Максимум, который я видел в условиях сильно зашумлённой линии – 15 секунд на проверку.
Что такое голосовой отпечаток?
Голосовой отпечаток – это некая уникальная для человека запись, что-то вроде отпечатка пальца. Она не привязывается к самой речи человека (конкретным словам или определённой фразе), а характеризует голос в целом. Технологии создания голосовых отпечатков закрыты, но если совсем коротко – речь может идти об анализе опорных точек в речи, например, характерных для переходов между звуками.
Система реагирует на различные физические характеристики: помимо высоты, скорости разговора конкретного человека, к сведению принимаются даже физиологические особенности его звукового тракта, горла, глотки, даже носа. Всего учитывается около 50 показателей вроде акцентированных звуков, особенностей произношения, темпа речи, типа произношения слов и звуков, физических характеристик голоса.
Как используется такой отпечаток?
Итак, вы наговорили на целую минуту или даже больше (считается только время вашей речи). Этого достаточно, чтобы получить ваши голосовые «отпечатки пальцев».
Теперь представим, что компания, куда вы звоните, имеет голосовые отпечатки потенциальных мошенников (или ещё какой-то список людей под особым контролем). За примерно 10 секунд вашей речи происходит сравнение с базой до 1000 записей, и если вы уже успели засветиться в такой базе – оператор получает алерт. Плюс срабатывают любые другие нотификации, например, для отдела безопасности.
Второй случай — это когда мы делаем валидацию, что клиент, который нам сейчас позвонил, действительно является тем самым клиентом, который хочет получить доступ к своему счету. То есть когда вы обращаетесь в банк и хотите сделать какую-то операцию или получить важную информацию, они у вас спрашивают помимо номера вашего счета спрашивают пароль, имя вашей собачки, в какой деревне ваша бабушка отмечала первую свадьбу, и так далее.
Здесь проблема состоит в том, что у нас очень много доступной информации в соцсетях. Cоответственно, если мошенники хотят подобрать доступ к вашему счету, они будут тратить достаточно много усилий, и иногда успешно, на то, чтобы эту информацию собрать. Возможно, они просто прочитают вашу страницу «Вконтакте», и всю необходимую информацию соберут за раз. Иногда они будут отзваниваться 99 раз в контактный центр и пытаться «брутфорсить». Если использовать эту атаку довольно медленно, то через несколько месяцев возможен успех. И здесь помогает отпечаток настоящего клиента (составленный в разговорах, где клиент правильно верифицировался).
В итоге, когда клиент звонит и говорит: «Здравствуйте, вот я такой-то, я хочу по своему счету сделать, например, перевод, номер счета у меня такой-то», система проводит верификацию.
Как тестировалось?
Учитывая, что создание голосовых отпечатков – закрытые алгоритмы, возникает вполне логичный вопрос о точности. Могу рассказать про тесты. Для начала мы просто кричали в трубку «Не верьте ему» и другую чушь параллельно с разговором человека с контактным центром. В этом случае время проверки незначительно вырастает – отпечаток создаётся на пару секунд дольше. При сильном ветре на улице система также берёт больше времени.
Также мы переключались с телефонной трубки на общую связь в комнате, в которой одновременно говорит несколько человек, просто при этом человек, который реально разговаривает с оператором, он сидит ближе всех к трубе. И даже в этом случае система определяла его.
Для каждого клиента или ситуации может выставляться разный уровень порога верификации. Например, если система «уверена на 80%» — это подходящий вариант для запроса баланса у сотового оператора, а «уверена на 100%» — это хороший вариант для банка перед тем, как задавать вопросы о секретных словах.
Техническая среда контактного центра оказывает влияние на систему голосовой верификации, приходится калибровать порог ложных срабатываний на каждой отдельной инсталляции. Да, ещё иногда под одного клиента нужно несколько отпечатков. Например, клиент звонит с сотового телефона из-за границы, и все время у него там качество записи плохое, качество канала само по себе плохое. К учётной записи клиента привязано несколько профилей: система будет проверять, подходит ли каждый из них под ситуацию.
На создание голосового отпечатка в некоторой степени влияют шумы в линии. Если окружение максимально приближено к тому, откуда делался первый звонок со снятием отпечатка, то система даёт точность около 100%. Грубо говоря, звонок по шумной линии даст только 80% точности.
Привет, параноики!
Да, вы правильно поняли. Можно создать ваш голосовой отпечаток и найти ваши переговоры, прямо как в «Бетмэне». Правда, пока это не очень реально – на большой выборке будет много ложных срабатываний. Поэтому пока что основной профиль использования отпечатков – именно сравнение с базой мошенников или аутентификация клиента для доступа к некритичным данным. Разумеется, голосовая идентификация, не сработавшая на 100% (то есть выполненная не в тех же условиях технической среды, что делался исходный звонок) не может использоваться как единственный порог безопасности, но она создаёт огромное удобство для многих случаях в контактных центрах.
Источник:
http://habrahabr.ru/company/croc/blog/184980/P.S.: Думается, что большинство людей на планете Земля, хоть раз, да засветили свой голос по телефону (дикие племена не в счёт, хотя...).
Возможно, уже существуют голосовые отпечатки на каждого жителя Земли где-то в базе(ах).