Сегодня 06 октября 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → распознавание речи

Google начала тестирование нового способа поиска песен на YouTube: их достаточно напеть

Google тестирует новый способ поиска песен на YouTube — просто напевая их голосом. Этот инновационный шаг, уже доступный ограниченному числу пользователей Android, может кардинально изменить то, как мы находим музыкальные композиции в интернете.

 Источник изображения: SAM-RIZ44 / Pixabay

Источник изображения: SAM-RIZ44 / Pixabay

В мире смартфонов поиск песни по звуку используется уже давно. Сервисы вроде Google Assistant и SoundHound позволяют добавлять треки в плейлист Spotify или воспроизводить клипы на YouTube. Однако новый способ поиска песни кажется более удобным, если вы не помните её название или другие детали.

Google объявила о том, что экспериментирует с поиском песен на YouTube по напеву голосом. Кроме этого, пользователи могут использовать функцию определения песни, записав её фрагмент, который играет фоном, например, в кафе или на радио.

Для активации функции необходимо переключиться из голосового поиска YouTube на поиск песен. После этого пользователь должен напеть или записать фрагмент песни в течение минимум 3 секунд. Затем система перенаправит его к соответствующему контенту на YouTube — официальному клипу, пользовательскому видео или короткому ролику Shorts.

На этапе тестирования новый поиск доступен только ограниченному числу пользователей YouTube на Android. Перед тем, как он окажется в широком доступе, его характеристики могут измениться. Многие надеются, что компания добавит его и в YouTube Music.

Кроме этого, Google тестирует ещё одну функцию для YouTube — «Полка канала» (Channel Shelf) в ленте подписок. Она позволит объединять несколько свежих публикаций одного автора на одной «полке». Таким образом, подписчикам не придётся переходить на YouTube-канал, чтобы увидеть недавние публикации. Google утверждает, что это нововведение снизит давление на авторов контента в плане частоты его публикаций.

Microsoft регистрирует через Роспатент товарный знак Dragon, связанный с ПО для распознавания речи

Стало известно, что американская компания Microsoft через свой головной офис, находящийся в Вашингтоне, подала в Роспатент заявку на регистрацию товарного знака Dragon. В материалах Роспатента указано, что товарный знак связан с технологиями распознавания речи.

 Источник изображения: Pixabay

Источник изображения: Pixabay

Согласно имеющимся данным, заявка Microsoft была подана 31 января. Софтверный гигант намерен зарегистрировать знак по двум классам по международной классификации товаров и услуг. В первом случае речь идёт о компьютерном программном обеспечении для использования в приложениях и системах распознавания речи, во втором — о ПО для обработки речи. Кроме того, Microsoft сможет использовать товарный знак для предоставления онлайн незагружаемого ПО для использования в приложениях и системах распознавания речи и диктовке, для оказания консультаций в сфере автоматизированной обработки транскрипций и в области систем распознавания речи.

Напомним, в 2021 году Microsoft купила компанию Nuance Communications за $19,7 млрд. В арсенале разработчиков имеется технология распознавания речи Dragon, которую Microsoft намерена интегрировать в свои продукты, например, в текстовый редактор Word. Отметим также, что в прошлом году Microsoft объявила о постепенном сворачивании деятельности в России и сокращении своего присутствия до минимума или даже полного ухода с рынка.

Технология EarCommand позволит беззвучно отдавать команды гаджетам, проговаривая их про себя

Хотя управлять устройствами с помощью голосовых команд довольно удобно, громкие отчётливые фразы могут беспокоить окружающих. Система EarCommand, разработанная учёными из университета штата Нью-Йорк, позволяет «считывать» команды, проговариваемые пользователем про себя, причём для этого не потребуется считывать мозговую активность.

 Источник изображения: Caley Vanular/unsplash.com

Источник изображения: Caley Vanular/unsplash.com

В норме голосовые команды могут быть услышаны другими, их распознаванию гаджетами может помешать окружающий шум, кроме того, устройствам может быть сложно отличать один голос от другого, что приведёт к ошибкам в работе.

Технология EarCommand, разрабатываемая командой исследователей из Университета штата Нью-Йорк в Буффало, основана на том, что даже проговаривание каких-либо слов про себя сопровождается активностью мышц и некоторым смещением костей, в результате чего по-разному деформируется ушной канал. Другими словами, разные «шаблоны» деформаций характерны для определённых слов.

Аппаратная составляющая EarCommand включает похожее на наушник устройство, транслирующее близкие к ультразвуку сигналы в ушной канал. Отражающиеся от внутренней поверхности канала сигналы принимаются внутренним микрофоном наушника, а связанный с устройством компьютер анализирует эти эхо, используя специальный алгоритм для того, чтобы оценить деформацию канала и определить, какое слово произнесено.

В проводимых экспериментах пользователи проговаривали 32 команды длиной в одно слово и 25 команд, состоящих из целых предложений. На уровне слов доля ошибок составила 10,2 %, а на уровне предложений — 12,3 %. Ожидается, что по мере развития технологии уровень ошибок будет снижаться. Кроме того, аппаратура работает даже тогда, когда пользователь носит маску или находится в шумном окружении и, в отличие от некоторых систем, считывающих произносимые про себя слова, для использования технологии не требуется камера.

Примечательно, что похожая технология EarHealth тестируется коллегами из того же университета в медицинских целях — аналогичные сигналы и считывание эха от них используются для выявления проблем со слухом, например — диагностики повреждённых барабанных перепонок или отита, который является весьма распространённым заболеванием.


window-new
Soft
Hard
Тренды 🔥
Чтобы разблокировать соцсеть X в Бразилии, Маск заплатил штраф $5 млн, но не туда 5 ч.
Google установит противоугонную систему на все Android-смартфоны — развёртывание началось 6 ч.
Новая статья: Gamesblender № 694: глобальный сбой в PSN, релиз Unreal Engine 5.5 и новый шутер по StarCraft 8 ч.
СМИ сообщают о грядущей ликвидации одной из российских альтернатив «Википедии» 10 ч.
В обновлённом Telegram появились подарки, подтверждение телефонов, улучшенные жалобы и RTMP-трансляции 13 ч.
Accenture сформировала подразделение NVIDIA Business Group и обучит 30 тысяч сотрудников полному стеку ИИ-технологий NVIDIA 16 ч.
Linux-вирус Perfctl заразил с 2021 года тысячи серверов и скрытно майнит на них криптовалюту 17 ч.
Обновление Samsung привело к поломке смартфонов Galaxy S10 и Note 10 по всему миру 05-10 06:59
Минцифры опубликовало правила регистрации блогеров-десятитысячников в реестре Роскомнадзора 05-10 01:00
Telegram объяснил недавние сбои событиями на Ближнем Востоке 05-10 00:23