Машинный слух. Как работает идентификация человека по голосу

S

SSHMAN

Original poster
Ты, возможно, уже сталкивался с идентификацией по голосу. Она используется в банках для идентификации по телефону, для подтверждения личности на пунктах контроля и в бытовых голосовых ассистентах, которые могут узнавать хозяина. Знаешь ли ты, как это работает? Я решил разобраться в подробностях и сделать свою реализацию.

Характеристики голоса
В первую очередь голос определяется его высотой. Высота — это основная частота звука, вокруг которой строятся все движения голосовых связок. Эту частоту легко почувствовать на слух: у кого-то голос выше, звонче, а у кого-то ниже, басовитее.

Другой важный параметр голоса — это его сила, количество энергии, которую человек вкладывает в произношение. От силы голоса зависит его громкость, насыщенность.

Еще одна характеристика — то, как голос переходит от одного звука к другому. Этот параметр наиболее сложный для понимания и для восприятия на слух, хотя и самый точный — как и отпечаток пальца.

Предобработка звука
Человеческий голос — это не одинокая волна, это сумма множества отдельных частот, создаваемых голосовыми связками, а также их

Авторизируйтесь или Зарегистрируйтесь что бы просматривать ссылки.

. Из-за этого в обработке сырых данных волны тяжело найти закономерности голоса.

Нам на помощь придет

Авторизируйтесь или Зарегистрируйтесь что бы просматривать ссылки.

— математический способ описать одну сложную звуковую волну спектрограммой, то есть набором множества частот и амплитуд. Эта спектрограмма содержит всю ключевую информацию о звуке: так мы узнаем, какие в исходном голосе содержатся частоты.

Но преобразование Фурье — математическая функция, которая нацелена на идеальный, неменяющийся звуковой сигнал, поэтому она требует практической адаптации. Так что, вместо того чтобы выделять частоты из всей записи сразу, эту запись мы поделим на небольшие отрезки, в течение которых звук не будет меняться. И применим преобразование к каждому из кусочков.

bird.gif

Спектрограмма пения птицы
Выбрать длительность блока несложно: в среднем один слог человек произносит за 70–80 мс, а интонационно выделенный вдвое дольше — 100–150 мс. Подробнее об этом можно почитать в

Авторизируйтесь или Зарегистрируйтесь что бы просматривать ссылки.

.
Следующий шаг — посчитать спектрограмму второго порядка, то есть спектрограмму от спектрограммы. Это нужно сделать, поскольку спектрограмма, помимо основных частот, также содержит гармоники, которые не очень удобны для анализа: они дублируют информацию. Расположены эти гармоники на равном друг от друга расстоянии, единственное их различие — уменьшение амплитуды.

Давай посмотрим, как выглядит спектр монотонного звука. Начнем с волны — синусоиды, которую издает, например, проводной телефон при наборе номера.

sinus_fourier.png

Видно, что, кроме основного пика, на самом деле представляющего сигнал, есть меньшие пики, гармоники, которые полезной информации не несут. Именно поэтому, прежде чем получать спектрограмму второго порядка, первую спектрограмму логарифмируют, чем получают пики схожего размера.

sinus_log.png

Логарифм спектрограммы синуса
Теперь, если мы будем искать спектрограмму второго порядка, или, как она была названа, «кепстр» (анаграмма слова «спектр»), мы получим во много раз более приличную картинку, которая полностью, одним пиком, отображает нашу изначальную монотонную волну.

cepstrum.png

Кепстр
Одна из самых полезных особенностей нашего слуха — его нелинейная природа по отношению к восприятию частот. Путем долгих экспериментов ученые выяснили, что эту закономерность можно не только легко вывести, но и легко использовать.

mel.png

Зависимость мела от герца
Эту новую величину назвали

Авторизируйтесь или Зарегистрируйтесь что бы просматривать ссылки.

, и она отлично отражает способность человека распознавать разные частоты — чем выше частота звука, тем сложнее ее различить.

mel_graph.png

График перевода герца в мелы
Теперь попробуем применить все это на практике.

Идентификация с использованием MFCC
Мы можем взять длительную запись голоса человека, посчитать кепстр для каждого маленького участка и получить уникальный отпечаток голоса в каждый момент времени. Но этот отпечаток слишком большой для хранения и анализа — он зависит от выбранной длины блока и может доходить до двух тысяч чисел на каждые 100 мс. Поэтому из такого многообразия необходимо извлечь определенное количество признаков. С этим нам поможет мел-шкала.

Мы можем выбрать определенные «участки слышимости», на которых просуммируем все сигналы, причем количество этих участков равно количеству необходимых признаков, а длины и границы участков зависят от мел-шкалы.

mfcc.png

Вычисление мел-частотных кепстральных коэффициентов
Вот мы и познакомились с мел-частотными кепстральными коэффициентами (MFCC). Количество признаков может быть произвольным, но чаще всего варьируется от 20 до 40.

Эти коэффициенты отлично отражают каждый «частотный блок» голоса в каждый момент времени, а значит, если обобщить время, просуммировав коэффициенты всех блоков, мы сможем получить голосовой отпечаток человека.

Тестирование метода
Давай скачаем несколько записей видео с YouTube, из которых извлечем голос для наших экспериментов. Нам нужен чистый звук без шумов. Я выбрал канал

Авторизируйтесь или Зарегистрируйтесь что бы просматривать ссылки.

.

Скачаем несколько видеозаписей любым удобным способом, например с помощью утилиты

Авторизируйтесь или Зарегистрируйтесь что бы просматривать ссылки.

. Она доступна через pip или через официальный репозиторий Ubuntu или Debian. Я скачал три видеозаписи выступлений: двух женщин и одного мужчины.

Затем преобразуем видео в аудио, создаем несколько кусков разной длины без музыки или аплодисментов.

$ ffmpeg -ss 00:00:27.0 -i man1.webm -t 200 -vn man1.1.wav

Теперь разберемся с программой на Python 3. Нам понадобятся библиотеки numpy для вычислений и librosa для обработки звука, которые можно установить с помощью pip. Для твоего удобства все сложные вычисления коэффициентов упаковали в одну функцию librosa.feature.mfcc. Загрузим звуковую дорожку и извлечем характеристики голоса.

afb1ee4f539bc81d20677.png

Результат:

same 0.08918786797751492

same 0.04016324022920391

diff 0.8353932676024817

diff 0.5290006939899561

diff 0.5996234966734799

diff 0.9143384850090941

48ed4e8d1c2bd4bc4360a.png

Протестируем новую программу.

same 0.07287868313339689

same 0.07599075249316399

diff 1.1107063027198296

diff 0.9556985491806391

diff 0.9212706723328299

diff 1.019240307344966

Мы посчитали значения различных признаков.

2woman_mfcc.png

Эти графики показывают, как наша программа сравнивает значения разных признаков. Красным и зеленым цветами обозначены коэффициенты, которые были получены из голосов двух женщин: по две записи на каждую. Линии одинакового цвета находятся близко друг к другу — голос одного и того же человека. Линии разных цветов расположены дальше друг от друга, поскольку это голоса разных людей.

Теперь сравним мужской и женский голоса.

same 0.07287868313339689

same 0.1312549383658766

diff 1.4336642787341562

diff 1.5398833283440216

diff 1.9443562070029585

diff 1.6660100959317368

manwoman_mfcc.png

Графики коэффициентов для мужчины и женщины
Здесь различия более выражены, это видно и на графике. Голос мужчины более низкий: пики больше в начале графика и меньше в конце.

Этот алгоритм действительно работает, и работает хорошо. Главный его недостаток — зависимость точности результата от шумов и длительности записи. Если запись короче десяти секунд, точность стремительно убывает.

Идентификация голоса с помощью нейронных сетей
Мы можем улучшить наш алгоритм с помощью нейронных сетей, которые на таких задачах показывают невероятную эффективность. Используем библиотеку

Авторизируйтесь или Зарегистрируйтесь что бы просматривать ссылки.

для создания модели нейронной сети.

68655d43cf65ad82e6d6d.png

9ac6d1c5b4d19d8e2a146.png


В этой модели используется два слоя долгой краткосрочной памяти (Long Short-Term Memory), которые позволяют нейронной сети анализировать не только сам голос, его высоту и силу, но и его динамические параметры, например переходы между звуками голоса.

Тестирование метода
Давай обучим модель и посмотрим на ее результаты.

Epoch 1/20

5177/5177 [====================] - loss: 0.4099 - acc: 0.8134 - val_loss: 0.2545 - val_acc: 0.8973

...

Epoch 20/20

5177/5177 [====================] - loss: 0.0360 - acc: 0.9944 - val_loss: 0.2077 - val_acc: 0.9807

[0.18412712604838924, 0.9819283065512979]

Отлично! 98% точности — хороший результат. Посмотрим статистику точности по каждому отдельному человеку.

woman1: 98.4%

woman2: 99.0% - цель

man1: 98.4%

Нейронная сеть справляется прекрасно, преодолевая большинство помех: шумы и ограничения по длине записи (нейронная сеть анализирует всего по одной секунде записи за раз). Такой способ идентификации человека наиболее перспективен и эффективен.

Выводы
Технологии распознавания человека по его голосу находятся только лишь на стадии научных исследований и разработок, и поэтому в открытом доступе хороших и популярных решений нет. Однако в коммерческом секторе такие программные продукты уже распространяются, чем облегчают работу сотрудников кол-центров, разработчиков умных домов. Теперь и ты можешь использовать этот прием на работе или для своих проектов.
 
Название темы
Автор Заголовок Раздел Ответы Дата
Emilio_Gaviriya Статья Metadata Cleaner: Как эффективно защитить свою приватность при обмене файлами. Анонимность и приватность 0
Emilio_Gaviriya Как вычислить местоположение по IP-адресу? Статьи 0
Emilio_Gaviriya Статья Как работает JSON Web Token. Анонимность и приватность 0
Emilio_Gaviriya Статья Как происходит ICMP атака. Уязвимости и взлом 0
Emilio_Gaviriya Статья Как ловить хакеров на живца. Уязвимости и взлом 0
Emilio_Gaviriya Как работать с Search4Faces. Статьи 0
Emilio_Gaviriya Статья Как найти Wi-Fi точки. WiFi/Wardriving/Bluejacking 0
Emilio_Gaviriya Статья Как распространяются вирусы? Вирусология 0
Emilio_Gaviriya Статья Как найти человека? Полезные статьи 4
Emilio_Gaviriya Статья Как обнаружить 10 популярных техник пентестеров. Уязвимости и взлом 0
Emilio_Gaviriya Статья Как работает Анти-DDoS. Уязвимости и взлом 0
Emilio_Gaviriya Статья Как получают привязанный к Telegram мобильный номер. Анонимность и приватность 0
Emilio_Gaviriya Статья Как заразить компьютер с помощью обычного ярлыка. Полезные статьи 0
Emilio_Gaviriya Статья Защита конфиденциальности: Как сбросить данные на Android в экстренных ситуациях. Полезные статьи 0
Emilio_Gaviriya Статья Безопасность в сети: Как избежать угроз при использовании коротких ссылок. Уязвимости и взлом 0
Emilio_Gaviriya Статья Как вас деанонимизируют силовики. Анонимность и приватность 0
Emilio_Gaviriya Статья Как следит провайдер? Анонимность и приватность 1
Emilio_Gaviriya Статья Как вычисляют мобильник? Анонимность и приватность 0
Support81 Как хакеры взломали мир: 14 самых громких взломов 2023 года Новости в сети 1
DELTABEK Как зарабатывать 100.000 рублей в день на арбитраже криптовалют? Способы заработка 5
Support81 Как минимум 7 друзей ShadowSyndicate: компании всего мира под прицелом киберальянса Новости в сети 0
Support81 Как взломать сайт за 5 минут: уязвимость в плагине Ultimate Member дает полный доступ к WordPress Новости в сети 0
Traven Как создать свою криптовалюту без знаний и зарабатывать 40000$ в месяц (паста) Способы заработка 0
yaNaSvyazi [Wealth Whispers] [Udemy] Как использовать ChatGPT для YouTube (2023) Способы заработка 0
yaNaSvyazi [Виталий Бруновский] [Udemy] Как заработать с помощью ChatGPT? (2023) Способы заработка 0
yaNaSvyazi [Катерина Яшина] Как заработать на нейросетях первым (2023) Способы заработка 0
alexgoldboy Как вернуть убытки на Pocket Option? Ищу работу. Предлагаю свои услуги. 1
Gorsilov Подскажите что с етими базами делать? и Как? Вопросы и интересы 0
D Как поставить лайк? или убрать хайд? может ли не показываться кнопка лайка? Вопросы и интересы 7
yaNaSvyazi Как заработать на продаже курсов подготовки к ЕГЭ Способы заработка 0
S Как отменить отправленную транзакцию Bitcoin Свободное общение и флейм 0
A Как взломать аккаунт в инстограме Вопросы и интересы 1
I Как слать Zelle с Chase Полезные статьи 0
L Как отменить отправленную транзакцию BTC Корзина 0
D Как найти клон страницы ВК Вопросы и интересы 1
N Как подключится к видеокамерам сервера зная пароль отт маршрутизатора? Вопросы и интересы 5
M Закрыто Обучение Google ADS. Как лить на любые фейки без суспенда. + Продам логи без соседей + гугл разбаны ручной фарм Корзина 2
semsvm Интересно Как можно заработать на кошельке Payeer. Способы заработка 1
S Как сейчас купить доллары в РФ? Свободное общение и флейм 3
AHAHAC Интересно Как просто начать скрытый майнинг Способы заработка 1
Alldied Как заработать около $1000 на американской бирже. Способы заработка 1
Dolphin Anty Как выбрать антидетект браузер ❓ Продажа софта 0
F Промокоды OZON. Как покупать с максимальной выгодой, руководство. Другое 0
W Слив [Blackhatworld] Как Зарабатывать Деньги С Youtube И Content Locker (2021) Способы заработка 0
D Как из обычного шнура сделать шнур juice jacking? Уязвимости и взлом 7
D Как взломать телефон с помощью зарядки juice jacking? Уязвимости и взлом 2
S ⏩ Как запустить свой товарный бизнес и начать зарабатывать, кейс. Способы заработка 0
W [Алексей Лунин] Как зарабатывать 30000-45000 на продажах партнерских товаров в яндекс директе (2021) Способы заработка 0
M Как получить кредит с США? Вопросы и интересы 1
S Интересно Как зарабатывать на Mobile Rewards. Фея с подарками. Способы заработка 0

Название темы