Сегодня 05 июля 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → язык

«Google Переводчик» получит поддержку более 110 новых языков, включая бурятский и чеченский

Служба «Google Переводчик» получит поддержку 110 новых языков, сообщили в компании. До настоящего времени служба работала со 133 языками, поэтому последнее обновление, которое в Google назвали самым значительным за всю историю, знаменует собой крупный скачок.

 Источник изображения: blog.google

Источник изображения: blog.google

«Выучить» новые языки «Переводчику» помогла большая языковая модель Google PaLM 2 — особенно хорошо она справилась с близкими друг к другу языками, например, с «близкими к Хинди, такими как авадхи и марвади, а также французскими креольскими языками, такими как сейшельский креольский и маврикийский креольский», рассказали в компании.

На 13 языках из списка добавленных в «Переводчик» говорят в России: это аварский, башкирский, бурятский, чеченский, чувашский, осетинский, удмуртский, чукотский, тувинский, якутский, крымско-татарский, коми и луговомарийский языки.

Список новых поддерживаемых языков «Google Переводчика» включает в себя кантонский диалект китайского — он «долгое время был одним из самых востребованных» на платформе. Найти данные для обучения модели было непросто, поскольку он в значительной степени пересекается с мандаринским на письме. Ещё около четверти новых языков происходят из Африки. На большинстве из новых языков говорят по меньше мере миллион человек, а в некоторых случаях речь идёт о сотнях миллионов.

Microsoft добавила поддержку русского и ещё 15 языков в Copilot для Microsoft 365

Компания Microsoft сообщила, что значительно расширила список языков, поддерживаемых ИИ-помощником Copilot в составе пакета офисных приложений Microsoft 365.

 Источник изображения: Microsoft

Источник изображения: Microsoft

«С сегодняшнего дня мы начинаем выпуск обновления Copilot для Microsoft 365 с поддержкой 16 дополнительных языков. К растущему списку уже поддерживаемых языков, который включает упрощённый китайский, английский (американский, британский, австралийский, канадский, индийский), французский (включая канадский французский), немецкий, итальянский, японский, португальский (Бразилия) и испанский (испанский и мексиканский) добавились арабский, чешский, голландский, финский, иврит, венгерский, корейский, норвежский (букмол), польский, португальский (Португалия), русский, шведский, тайский, турецкий и украинский», — отмечает представитель Microsoft в официальном блоге.

В сообщении также отдельно упоминается китайский (традиционный), который ранее был доступен в бесплатной версии Copilot. Теперь он доступен (для пользовательского интерфейса), но не поддерживается для запросов Copilot для Microsoft 365. Компания обещает скоро добавить полноценную поддержку и этого языка.

«Copilot для Microsoft 365 может не понимать все разговорные выражения или лингвистические конвенции в указанном языке. Мы постоянно совершенствуем языковые возможности Copilot и призываем пользователей предоставлять нам конструктивную обратную связь. Мы также продолжаем расширять список поддерживаемых языков и сообщим больше новостей в ближайшие месяцы».

Компания также опубликовала инструкцию, в которой описывается, как можно поменять язык в той или иной программе, входящей в пакет Microsoft 365.

Microsoft интегрировала поддержку языка программирования Python в Excel

Microsoft добавила поддержку языка программирования Python в Excel. Сегодня стала доступна предварительная версия этой функции, которая позволяет пользователям табличного процессора управлять данными и анализировать их с помощью инструкций Python и Power Query, надстройки Excel, обеспечивающей обнаружение, доступ и совместное использование данных для бизнес-аналитики.

 Источник изображения: unsplash.com

Источник изображения: unsplash.com

«Вы можете исследовать данные в Excel с помощью библиотек Python, а затем использовать формулы, диаграммы и сводные таблицы для дальнейшего уточнения своих идей, — пояснил генеральный менеджер отдела современной работы Microsoft Стефан Киннестранд (Stefan Kinnestrand). — Теперь вы можете выполнять расширенный анализ данных в знакомой среде Excel, получая доступ к Python прямо из интерфейса Excel».

Microsoft также добавила новую функцию PY, которая позволяет отображать данные Python в ячейках электронной таблицы Excel. Благодаря партнёрству с Anaconda, корпоративным репозиторием Python, популярные библиотеки Python, такие как Pandas, Statsmodels, Seaborn и Matplotlib, будут доступны в Excel. Расчёты Python выполняются в Microsoft Cloud, а результаты возвращаются в таблицу Excel. Пользователи Excel смогут создавать формулы, сводные таблицы и диаграммы на основе данных Python для визуализации тепловых карт, роевых диаграмм и скрипичных графиков.

 Источник изображения: Microsoft

Источник изображения: Microsoft

«Я рад, что интеграция Python и Excel увидела свет, — говорит создатель Python, а ныне заслуженный инженер Microsoft Гвидо Ван Россум (Guido van Rossum), — Я ожидаю, что оба сообщества найдут новые интересные применения в этом сотрудничестве, расширив возможности каждого партнёра. Когда я присоединился к Microsoft три года назад, я и представить себе не мог, что такое возможно».

В настоящий момент Python в Excel развёртывается в качестве общедоступной версии для участников программы предварительной оценки Microsoft 365 в бета-канале. Сначала он будет ограничен Windows, а затем станет доступен для других платформ.

Meta✴ сделала открытой ИИ-модель с поддержкой 4000 языков

Компания Meta выложила в открытый доступ модель искусственного интеллекта Massively Multilingual Speech (MMS), которая распознаёт разговорную речь на 4000 языках и воспроизводит её, то есть преобразует текст в речь более чем на 1100 языках.

 Источник изображения: Gerd Altmann / pixabay.com

Источник изображения: Gerd Altmann / pixabay.com

Модели распознавания речи и преобразования текста в речь обычно предполагают обучение на нескольких тысяч часов аудиозаписей с текстовой расшифровкой и разметкой. Но задача сильно усложняется для языков, которые в индустриальном мире не используются — для них исходных данных в традиционном формате просто не существует, рассказали в Meta. Поэтому в компании прибегли к нестандартному подходу и обратились к религиозным текстам — Библия и другие основополагающие книги переведены на большое количество языков, и существует множество общедоступных аудиозаписей, на которых эти тексты зачитываются. Обучение модели усложнилось из-за того, что аудиозаписи не имели точной текстовой разметки, но в итоге число поддерживаемых языков превысило 4000.

Авторы проекта подчеркнули, что, несмотря на содержание обучающих материалов, у обученной на этих текстах модели не появилось уклона в сторону религиозного мировоззрения; не возникло и гендерного перекоса, хотя большинство взятых за образец аудиозаписей зачитывали мужчины. Проблему с отсутствием текстовой разметки у аудиозаписей удалось преодолеть за счёт wav2vec 2.0 — ещё одной ИИ-модели Meta, предназначенной для «обучения представлению речи с самоконтролем». В компании предупредили, что результат может быть не идеальным — есть риск, что модель преобразования речи в текст могла неверно интерпретировать некоторые слова и фразы, и в некоторых контекстах такие ошибки порой носят оскорбительный характер. Но на практике, утверждают разработчики, MMS демонстрирует вдвое меньше ошибок, чем существующие аналоги, включая модель OpenAI Whisper, и поддерживает в 11 раз больше языков.

На практике проект откроет носителям редких языков доступ к информации и технологическим продуктам — большинство сервисов современных технологических гигантов ограничено набором в 100 языков, и такое положение вещей в Meta считают неприемлемым.

Россию атаковали вирусы-вымогатели, которые не трогают компьютеры на персидском

В России активизировались вирусы-вымогатели LokiLocker и BlackBit, сообщает РБК со ссылкой на информацию от экспертов Лаборатории цифровой криминалистики компании F.A.C.C.T. (бывшая Group-IB). Эти вирусы не наносят ущерба компьютерам с интерфейсом на персидском языке (фарси).

 Источник изображения: Pixabay

Источник изображения: Pixabay

Первые атаки вируса LokiLocker были отмечены в странах Ближнего Востока, но происхождение вредоноса до сих пор остаётся неизвестным. В России параллельно с LokiLocker развернул деятельность его «близнец» BlackBit. Оба вируса шифруют файлы на машине и требуют выкуп в размере от $10 тыс. до $100 тыс. — киберпреступники предлагают выйти на связь через электронную почту или Telegram. Если через 30 дней выкуп не выплачивается, вымогатель удаляет с компьютера все файлы. При этом шифрование файлов не производится, если основным языком интерфейса на компьютере жертвы выбран фарси — персидский язык.

Вирусы LokiLocker и BlackBit с апреля 2022 года атаковали ресурсы не менее 62 компаний по всему миру, и 21 из них оказалась в России. Больше всех пострадали представители малого и среднего бизнеса, работающие в сферах строительства, туризма и розничной торговли. Эксперты расходятся во мнениях относительно происхождения вирусов: одни предполагают, что атаки осуществляются «под чужим флагом», чтобы запутать следы; другие же склонны считать, что кампанию организовали международные группировки киберпреступников, хотя первые версии вирусов и были созданы носителями персидского языка.

«Яндекс» обучит «Алису» говорить на других языках

«Яндекс» начал работу по дополнительному обучению новым языкам своего голосового помощника «Алиса». Ранее проект пришлось приостановить из-за пандемии, однако теперь компания начала набирать специалистов для обучения «Алисы» новым языкам, передаёт «Коммерсант».

 Источник изображения: yandex.ru/alice

Источник изображения: yandex.ru/alice

На странице вакансий «Яндекса» появилась позиция «Разработчик в команду международного движка "Алисы"». Речь идёт о добавлении голосовому помощнику поддержки новых языков с учётом культурной специфики. Сейчас «Алиса» говорит только по-русски, но уже ведётся работа над тем, чтобы ассистент заговорил и на других языках, подтвердили в «Яндексе», но отметили, что все подробности будут оглашены позже.

Поддержка других языков в «Алисе» пока ограничена функциями перевода и поиска, хотя ещё в 2018 году, до дебюта умных колонок серии «Станция», компания планировала добавить полноценную поддержку украинского, белорусского и казахского языков. К сожалению, тогда их реализации помешала пандемия. Помимо России, умные колонки «Яндекса» продаются в Беларуси, Израиле, Казахстане и Узбекистане — в апреле 2023 года к ним добавились смарт-телевизоры с «Алисой». За всё время существования проекта было продано 6 млн устройств, и только в I квартале 2023 года доход от сегмента составил 6,1 млрд руб. с ростом на 172 %. Разрабатывающие собственных голосовых помощников VK, SberDevices и МТС о планах добавить поддержку отличных от русского языков пока не сообщали.

Устройства от «Яндекса» могли бы стать популярнее с поддержкой национальных языков в странах продаж, поэтому её отсутствие является сдерживающим фактором, а поддержка, например, испанского помогла бы компании выйти на рынки Южной Америки, где у компании уже есть некоторое присутствие, считают опрошенные «Коммерсантом» эксперты. Кроме того, в дополнительном обучении голосового помощника должны принимать участие носители соответствующих языков, знакомые с зарубежными культурами, и, возможно, придётся внести некоторые коррективы в игривый характер «Алисы» — в некоторых странах он может показаться неуместным.

У «Яндекса» появилась нейросеть-полиглот, распознающая десять языков одновременно

Облачное подразделение компании «Яндекс» (Yandex Cloud) сообщило о разработке новой системы на базе машинного обучения, которая способна распознавать более 10 иностранных языков одновременно.

 Источник изображений: «Яндекс»

Источник изображений: «Яндекс»

В основе модели лежат сервис синтеза и распознавания Yandex SpeechKit и специализированная архитектура под названием Transformer. Алгоритмы обрабатывают входные слова параллельно и независимо друг от друга, благодаря чему быстро обучаются.

Система распознаёт речь на любую тему и в разных форматах: это могут быть короткие и длинные фразы, имена, адреса, даты и пр. Модель способна распознавать язык автоматически в одном потоке: нейросеть может в любой момент переключаться между различными языками. При этом есть возможность давать ей «подсказки» — это повышает качество распознавания.

Для обучения модели использовались огромные массивы данных (десятки терабайт) из профессиональных источников, а также из сервисов и приложений самого «Яндекса». Нейросеть-полиглот может работать и с популярными языками, такими как английский и французский, и с более редкими — датским, финским, турецким и другими.


window-new
Soft
Hard
Тренды 🔥
Новая статья: Очная ставка: сравнительное тестирование диалоговых ИИ-моделей YandexGPT и GigaChat 3 ч.
Хет-трик: боевик Zenless Zone Zero от создателей Genshin Impact и Honkai: Star Rail вышел и уже заслужил похвалу критиков 4 ч.
ЦБ РФ призвал бизнес использовать криптовалюту для международных транзакций 5 ч.
Хоррор-стратегия Anoxia Station от автора Loretta отправит глубоко под землю управлять горнодобывающей станцией среди «невообразимых опасностей» 5 ч.
Разработчики RoboCop: Rogue City и Terminator: Resistance взялись за «очень интересную» игру в необычном для себя жанре 7 ч.
Хакеры добрались до данных Госдепа и других федеральных агентств США через взлом Microsoft 7 ч.
«Это должно было быть в игре с самого начала»: моддер нашёл элегантный способ улучшить гравипрыжки в Starfield 9 ч.
Почти половина российских компаний уже использует ИИ для разработки и тестирования ПО 9 ч.
Разовая акция: хакеры отдали ключи для дешифровки ЦОД властям Индонезии, но пригрозили карами, если их условия не будут выполнены 10 ч.
Новый патч для Shadow of the Erdtree случайно сломал Elden Ring на ПК 10 ч.