«Эффект коктейльной вечеринки»: теперь искусственный интеллект легко узнает ваш голос даже в самой шумной толпе

Устройства с голосовым интерфейсом работают, когда в зоне слышимости их микрофона говорит один человек; если примешивается речь второго, у систем распознавания возникают проблемы. В кембриджской лаборатории компании Mitsubishi нашли решение этой проблемы. Технологию, позволяющую распознавать речь от двух до пяти одновременно говорящих человек, представили на этой неделе на техношоу Combined Exhibition of Advanced Technologies в Токио.

Технология, разработанная исследователями Лаборатории Mitsubishi Electric в Кембридже, штат Массачусетс, впервые была продемонстрирована на выставке Comined Exhibition of Advanced Technologies в Токио. Она работает на основе машинного обучения. Система способна «распутывать» несколько голосов, различая уникальные «голосовые отпечатки» нескольких спикеров, и затем восстанавливать речь того или иного человека.

Разработка была протестирована на 100 английских спикерах, однако она может отличать голоса даже если говорящий является носителем другого языка. Когда в микрофон одновременно говорили два человека, система определяла кому принадлежат голоса с точностью до 90%. Если нужно было «распутать» речь трех говорящих, точность результата составляла 80%. Ни с одним их ораторов система ранее не была «знакома».

Решение проблемы под названием «эффект коктейльной вечеринки», которая не один год преследовала исследования в сфере ИИ, поможет умным голосовым помощникам улучшить свою работу. Кроме того, она позволит правоохранительным органам восстановить важные для расследований записи разговоров, которые было сложно разобрать из-за шумовых помех.

На предварительных тестах система смогла распознать голоса пяти человек, говорящих одновременно. В настоящее время Mitsubishi разрабатывает технологию распознавания голоса в лифтах, кондиционерах и рядом с другими объектами, которые являются источниками шума.

Авторы разработки говорят о двух потенциальных сферах применения технологии: первая — устройства с голосовым интерфейсом (компьютеры беспилотных автомобилей, персональных помощников), вторая — расшифровка аудиозаписей. Второй возможностью могут заинтересоваться спецслужбы, полиция и военные, считают в Mitsubishi.

Комментарии 0

Оставить комментарий

Ваш email не будет опубликован.