Сегодня 05 июля 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

В Санкт-Петербурге разработали нейросеть, которая распознаёт речь по губам

В Санкт-Петербургском Федеральном исследовательском центре РАН (СПб ФИЦ РАН) создали приложение для смартфона, с помощью которого можно считывать речь пользователя в шумных местах по губам, что позволит повысить точность распознавания слов голосовыми помощниками в сложных условиях, пишет ТАСС.

 Источник изображения: Pixabay

Источник изображения: Pixabay

В пресс-службе СПб ФИЦ РАН отметили, что приложение можно будет использовать в широком перечне отраслей с применением голосовых команд — от сферы услуг до тяжёлой промышленности.

Как сообщается, в основе приложения лежит нейросетевая модель, способная распознавать по аудиовизуальным сигналам (видеозаписям, сопровождающимися звуком) несколько сотен наиболее распространённых команд и автоматически определять, какой вид данных обеспечивает максимальную точность — видео или звук, или оба сразу.

«Исследователи Санкт-Петербургского Федерального исследовательского центра РАН научились при помощи алгоритмов искусственного интеллекта и компьютерного зрения распознавать речь человека по губам. Разработка поможет повысить точность работы голосовых помощников в шумных условиях, например, в людных местах или при управлении тяжёлой техникой», — рассказали в пресс-службе корреспонденту ТАСС.

Программа прошла тестирование в одной из логистических компаний в России. Для этого приложение было установлено на смартфоны водителей шумных большегрузных автомобилей. Тестирование подтвердило тот факт, что совмещение двух видов считывания информации повышает эффективность работы алгоритмов — если при чтении по губам точность распознавания команд составила 60–80 %, то в сочетании со звуковым сигналом точность распознавания превышает 90 %.

«Мы предполагаем, что в будущем наше приложение может найти применение у пилотов самолётов и тяжёлой промышленной техники или для использования в интерактивных информационных киосках в торговых центрах и других местах массового скопления людей», — сообщил старший научный сотрудник лаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН Денис Иванько.

Также следует отметить, что на проведение разработки был выделен грант Российского научного фонда.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме
Прежде чем оставить комментарий, пожалуйста, ознакомьтесь с правилами комментирования. Оставляя комментарий, вы подтверждаете ваше согласие с данными правилами и осознаете возможную ответственность за их нарушение.
Все комментарии премодерируются.
Комментарии загружаются...

window-new
Soft
Hard
Тренды 🔥
Моддер потратил сотни часов на восстановление вырезанного контента Skyrim — локаций, диалогов, NPC и предметов 3 мин.
Эмулятор shadPS4 впервые позволил по-настоящему запустить Bloodborne на ПК 23 мин.
В сети опубликована крупнейшая база паролей с 10 млрд уникальных записей 32 мин.
За первое полугодие хакеры похитили криптовалюту на $1,38 млрд 2 ч.
В сентябре ЦБ расширит тестирование цифрового рубля 2 ч.
Exoprimal отправится по пути динозавров — Capcom забросила контентную поддержку игры менее чем через год после релиза 2 ч.
Epic Games обвинила Apple в волоките с одобрением её магазина мобильных игр в Европе 3 ч.
В «Нейро» от «Яндекса» появился голосовой ввод и улучшилась точность ответов 3 ч.
YouTube научился удалять из видео защищённую авторским правом музыку с сохранением остального звука 4 ч.
Разработчики Factorio раскрыли дату выхода космического дополнения Space Age, которое будет стоить как сама игра 5 ч.