Сегодня 02 июля 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → язык

«Google Переводчик» получит поддержку более 110 новых языков, включая бурятский и чеченский

Служба «Google Переводчик» получит поддержку 110 новых языков, сообщили в компании. До настоящего времени служба работала со 133 языками, поэтому последнее обновление, которое в Google назвали самым значительным за всю историю, знаменует собой крупный скачок.

 Источник изображения: blog.google

Источник изображения: blog.google

«Выучить» новые языки «Переводчику» помогла большая языковая модель Google PaLM 2 — особенно хорошо она справилась с близкими друг к другу языками, например, с «близкими к Хинди, такими как авадхи и марвади, а также французскими креольскими языками, такими как сейшельский креольский и маврикийский креольский», рассказали в компании.

На 13 языках из списка добавленных в «Переводчик» говорят в России: это аварский, башкирский, бурятский, чеченский, чувашский, осетинский, удмуртский, чукотский, тувинский, якутский, крымско-татарский, коми и луговомарийский языки.

Список новых поддерживаемых языков «Google Переводчика» включает в себя кантонский диалект китайского — он «долгое время был одним из самых востребованных» на платформе. Найти данные для обучения модели было непросто, поскольку он в значительной степени пересекается с мандаринским на письме. Ещё около четверти новых языков происходят из Африки. На большинстве из новых языков говорят по меньше мере миллион человек, а в некоторых случаях речь идёт о сотнях миллионов.

Microsoft добавила поддержку русского и ещё 15 языков в Copilot для Microsoft 365

Компания Microsoft сообщила, что значительно расширила список языков, поддерживаемых ИИ-помощником Copilot в составе пакета офисных приложений Microsoft 365.

 Источник изображения: Microsoft

Источник изображения: Microsoft

«С сегодняшнего дня мы начинаем выпуск обновления Copilot для Microsoft 365 с поддержкой 16 дополнительных языков. К растущему списку уже поддерживаемых языков, который включает упрощённый китайский, английский (американский, британский, австралийский, канадский, индийский), французский (включая канадский французский), немецкий, итальянский, японский, португальский (Бразилия) и испанский (испанский и мексиканский) добавились арабский, чешский, голландский, финский, иврит, венгерский, корейский, норвежский (букмол), польский, португальский (Португалия), русский, шведский, тайский, турецкий и украинский», — отмечает представитель Microsoft в официальном блоге.

В сообщении также отдельно упоминается китайский (традиционный), который ранее был доступен в бесплатной версии Copilot. Теперь он доступен (для пользовательского интерфейса), но не поддерживается для запросов Copilot для Microsoft 365. Компания обещает скоро добавить полноценную поддержку и этого языка.

«Copilot для Microsoft 365 может не понимать все разговорные выражения или лингвистические конвенции в указанном языке. Мы постоянно совершенствуем языковые возможности Copilot и призываем пользователей предоставлять нам конструктивную обратную связь. Мы также продолжаем расширять список поддерживаемых языков и сообщим больше новостей в ближайшие месяцы».

Компания также опубликовала инструкцию, в которой описывается, как можно поменять язык в той или иной программе, входящей в пакет Microsoft 365.

Microsoft интегрировала поддержку языка программирования Python в Excel

Microsoft добавила поддержку языка программирования Python в Excel. Сегодня стала доступна предварительная версия этой функции, которая позволяет пользователям табличного процессора управлять данными и анализировать их с помощью инструкций Python и Power Query, надстройки Excel, обеспечивающей обнаружение, доступ и совместное использование данных для бизнес-аналитики.

 Источник изображения: unsplash.com

Источник изображения: unsplash.com

«Вы можете исследовать данные в Excel с помощью библиотек Python, а затем использовать формулы, диаграммы и сводные таблицы для дальнейшего уточнения своих идей, — пояснил генеральный менеджер отдела современной работы Microsoft Стефан Киннестранд (Stefan Kinnestrand). — Теперь вы можете выполнять расширенный анализ данных в знакомой среде Excel, получая доступ к Python прямо из интерфейса Excel».

Microsoft также добавила новую функцию PY, которая позволяет отображать данные Python в ячейках электронной таблицы Excel. Благодаря партнёрству с Anaconda, корпоративным репозиторием Python, популярные библиотеки Python, такие как Pandas, Statsmodels, Seaborn и Matplotlib, будут доступны в Excel. Расчёты Python выполняются в Microsoft Cloud, а результаты возвращаются в таблицу Excel. Пользователи Excel смогут создавать формулы, сводные таблицы и диаграммы на основе данных Python для визуализации тепловых карт, роевых диаграмм и скрипичных графиков.

 Источник изображения: Microsoft

Источник изображения: Microsoft

«Я рад, что интеграция Python и Excel увидела свет, — говорит создатель Python, а ныне заслуженный инженер Microsoft Гвидо Ван Россум (Guido van Rossum), — Я ожидаю, что оба сообщества найдут новые интересные применения в этом сотрудничестве, расширив возможности каждого партнёра. Когда я присоединился к Microsoft три года назад, я и представить себе не мог, что такое возможно».

В настоящий момент Python в Excel развёртывается в качестве общедоступной версии для участников программы предварительной оценки Microsoft 365 в бета-канале. Сначала он будет ограничен Windows, а затем станет доступен для других платформ.

Meta✴ сделала открытой ИИ-модель с поддержкой 4000 языков

Компания Meta выложила в открытый доступ модель искусственного интеллекта Massively Multilingual Speech (MMS), которая распознаёт разговорную речь на 4000 языках и воспроизводит её, то есть преобразует текст в речь более чем на 1100 языках.

 Источник изображения: Gerd Altmann / pixabay.com

Источник изображения: Gerd Altmann / pixabay.com

Модели распознавания речи и преобразования текста в речь обычно предполагают обучение на нескольких тысяч часов аудиозаписей с текстовой расшифровкой и разметкой. Но задача сильно усложняется для языков, которые в индустриальном мире не используются — для них исходных данных в традиционном формате просто не существует, рассказали в Meta. Поэтому в компании прибегли к нестандартному подходу и обратились к религиозным текстам — Библия и другие основополагающие книги переведены на большое количество языков, и существует множество общедоступных аудиозаписей, на которых эти тексты зачитываются. Обучение модели усложнилось из-за того, что аудиозаписи не имели точной текстовой разметки, но в итоге число поддерживаемых языков превысило 4000.

Авторы проекта подчеркнули, что, несмотря на содержание обучающих материалов, у обученной на этих текстах модели не появилось уклона в сторону религиозного мировоззрения; не возникло и гендерного перекоса, хотя большинство взятых за образец аудиозаписей зачитывали мужчины. Проблему с отсутствием текстовой разметки у аудиозаписей удалось преодолеть за счёт wav2vec 2.0 — ещё одной ИИ-модели Meta, предназначенной для «обучения представлению речи с самоконтролем». В компании предупредили, что результат может быть не идеальным — есть риск, что модель преобразования речи в текст могла неверно интерпретировать некоторые слова и фразы, и в некоторых контекстах такие ошибки порой носят оскорбительный характер. Но на практике, утверждают разработчики, MMS демонстрирует вдвое меньше ошибок, чем существующие аналоги, включая модель OpenAI Whisper, и поддерживает в 11 раз больше языков.

На практике проект откроет носителям редких языков доступ к информации и технологическим продуктам — большинство сервисов современных технологических гигантов ограничено набором в 100 языков, и такое положение вещей в Meta считают неприемлемым.

Россию атаковали вирусы-вымогатели, которые не трогают компьютеры на персидском

В России активизировались вирусы-вымогатели LokiLocker и BlackBit, сообщает РБК со ссылкой на информацию от экспертов Лаборатории цифровой криминалистики компании F.A.C.C.T. (бывшая Group-IB). Эти вирусы не наносят ущерба компьютерам с интерфейсом на персидском языке (фарси).

 Источник изображения: Pixabay

Источник изображения: Pixabay

Первые атаки вируса LokiLocker были отмечены в странах Ближнего Востока, но происхождение вредоноса до сих пор остаётся неизвестным. В России параллельно с LokiLocker развернул деятельность его «близнец» BlackBit. Оба вируса шифруют файлы на машине и требуют выкуп в размере от $10 тыс. до $100 тыс. — киберпреступники предлагают выйти на связь через электронную почту или Telegram. Если через 30 дней выкуп не выплачивается, вымогатель удаляет с компьютера все файлы. При этом шифрование файлов не производится, если основным языком интерфейса на компьютере жертвы выбран фарси — персидский язык.

Вирусы LokiLocker и BlackBit с апреля 2022 года атаковали ресурсы не менее 62 компаний по всему миру, и 21 из них оказалась в России. Больше всех пострадали представители малого и среднего бизнеса, работающие в сферах строительства, туризма и розничной торговли. Эксперты расходятся во мнениях относительно происхождения вирусов: одни предполагают, что атаки осуществляются «под чужим флагом», чтобы запутать следы; другие же склонны считать, что кампанию организовали международные группировки киберпреступников, хотя первые версии вирусов и были созданы носителями персидского языка.

«Яндекс» обучит «Алису» говорить на других языках

«Яндекс» начал работу по дополнительному обучению новым языкам своего голосового помощника «Алиса». Ранее проект пришлось приостановить из-за пандемии, однако теперь компания начала набирать специалистов для обучения «Алисы» новым языкам, передаёт «Коммерсант».

 Источник изображения: yandex.ru/alice

Источник изображения: yandex.ru/alice

На странице вакансий «Яндекса» появилась позиция «Разработчик в команду международного движка "Алисы"». Речь идёт о добавлении голосовому помощнику поддержки новых языков с учётом культурной специфики. Сейчас «Алиса» говорит только по-русски, но уже ведётся работа над тем, чтобы ассистент заговорил и на других языках, подтвердили в «Яндексе», но отметили, что все подробности будут оглашены позже.

Поддержка других языков в «Алисе» пока ограничена функциями перевода и поиска, хотя ещё в 2018 году, до дебюта умных колонок серии «Станция», компания планировала добавить полноценную поддержку украинского, белорусского и казахского языков. К сожалению, тогда их реализации помешала пандемия. Помимо России, умные колонки «Яндекса» продаются в Беларуси, Израиле, Казахстане и Узбекистане — в апреле 2023 года к ним добавились смарт-телевизоры с «Алисой». За всё время существования проекта было продано 6 млн устройств, и только в I квартале 2023 года доход от сегмента составил 6,1 млрд руб. с ростом на 172 %. Разрабатывающие собственных голосовых помощников VK, SberDevices и МТС о планах добавить поддержку отличных от русского языков пока не сообщали.

Устройства от «Яндекса» могли бы стать популярнее с поддержкой национальных языков в странах продаж, поэтому её отсутствие является сдерживающим фактором, а поддержка, например, испанского помогла бы компании выйти на рынки Южной Америки, где у компании уже есть некоторое присутствие, считают опрошенные «Коммерсантом» эксперты. Кроме того, в дополнительном обучении голосового помощника должны принимать участие носители соответствующих языков, знакомые с зарубежными культурами, и, возможно, придётся внести некоторые коррективы в игривый характер «Алисы» — в некоторых странах он может показаться неуместным.

У «Яндекса» появилась нейросеть-полиглот, распознающая десять языков одновременно

Облачное подразделение компании «Яндекс» (Yandex Cloud) сообщило о разработке новой системы на базе машинного обучения, которая способна распознавать более 10 иностранных языков одновременно.

 Источник изображений: «Яндекс»

Источник изображений: «Яндекс»

В основе модели лежат сервис синтеза и распознавания Yandex SpeechKit и специализированная архитектура под названием Transformer. Алгоритмы обрабатывают входные слова параллельно и независимо друг от друга, благодаря чему быстро обучаются.

Система распознаёт речь на любую тему и в разных форматах: это могут быть короткие и длинные фразы, имена, адреса, даты и пр. Модель способна распознавать язык автоматически в одном потоке: нейросеть может в любой момент переключаться между различными языками. При этом есть возможность давать ей «подсказки» — это повышает качество распознавания.

Для обучения модели использовались огромные массивы данных (десятки терабайт) из профессиональных источников, а также из сервисов и приложений самого «Яндекса». Нейросеть-полиглот может работать и с популярными языками, такими как английский и французский, и с более редкими — датским, финским, турецким и другими.


window-new
Soft
Hard
Тренды 🔥
Игрок запустил петицию с требованием к Ubisoft отменить Assassin's Creed Shadows — её подписали уже 30 тысяч человек 21 мин.
Rockstar добавила в GTA Online частичку GTA VI 3 ч.
Neon White, The Case of the Golden Idol, новая игра от создателя Hohokum и не только: Microsoft раскрыла первую волну июльских новинок в Game Pass 4 ч.
Meta изменила подход к маркировке изображений, над которыми поработал ИИ 5 ч.
Еженедельный чарт Steam: Forza Horizon 4 ворвалась в тройку лучших после объявления о снятии с продажи 5 ч.
Чтобы смотреть Netflix без рекламы, подписчикам придётся платить больше 5 ч.
XIX ежегодная конференция «СПО в высшей школе»: чему учить студентов ИТ-специальностей и как сэкономить на виртуализации 7 ч.
В России стали чаще обнаруживать и блокировать фишинговые сайты 10 ч.
«Яндекс Переводчик» получит поддержку более 20 языков народов России 10 ч.
Coffee Stain предупредила о скором подорожании Satisfactory и объяснила причину повышения цены 10 ч.