Сегодня 25 декабря 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Аналитика

Искусственный перевод

Perhaps the history of the errors of mankind, all things considered, is more valuable and
interesting than that of their discoveries. Truth is uniform and narrow; it constantly exists,
and does not seem to require so much an active energy, as a passive aptitude of the soul in
order to encounter it. But error is endlessly diversified; it has no reality, but is the pure and
simple creation of the mind that invents it. In this field the soul has room enough to expand herself,
to display all her boundless faculties, and all her beautiful and interesting extravagancies and absurdities.

(с) Benjamin Franklin

Взгляд на системы машинного перевода изнутри

Знание иностранных языков - это не только полезный навык в повседневной жизни, но также одно из основных требований при приеме на работу. Однако сегодня одного только знания иностранных языков бывает недостаточно, поскольку объем информации, которую необходимо ежедневно переводить, существенно возрос. Вместе с тем, эта задача успешно решается, и ни для кого не составляет труда всего за несколько секунд перевести контракт или контент иностранного сайта. А все потому, что переводом в этом случае занимается программа-переводчик: человек не успевает и глазом моргнуть, а перевод уже готов.

Машинный (или автоматизированный) перевод – именно так называется технология, с помощью которой компьютерная программа осуществляет связный перевод текста с одного языка на другой. Технология машинного перевода (МП) как научное направление имеет уже почти вековую историю, а первые идеи автоматизации переводческого процесса появились еще в XVII столетии. В 1954 году в США состоялся так называемый Джорджтаунский эксперимент, на котором была представлена первая версия электронного переводчика: программа имела словарный запас всего в 250 слов и действовала на основе шести правил.

 Искусственный перевод 1.jpg


Сегодняшние программы-переводчики имеют гораздо более широкий «кругозор» и действуют на основе более совершенных переводческих технологий. Системы перевода активно используются во всем мире в случаях, когда требуется быстро понять смысл текста или часто переводить большие объемы информации. Некоторым разработчикам на сегодняшний день удалось достичь весьма приемлемого качества перевода по отдельным языковым направлениям. В этом материале мы предлагаем посмотреть, как выглядит процесс перевода изнутри, каким образом программе удается «понять» иностранный текст и перевести его на другой язык.

Две стороны МП

В рамках технологии машинного перевода существует два подхода: традиционный (основанный на правилах, rule-based machine translation) и статистический (основанный на статистической обработке словарных баз, statistical based machine translation). Традиционный метод МП используется большинством разработчиков систем перевода. Работа такой программы включает в себя несколько этапов и, по сути, заключается в использовании лингвистических правил (алгоритмов). Соответственно, создание такого электронного переводчика включает в себя разработку правил и пополнение словарных баз системы. От разработки необходимых алгоритмов зависит качество перевода на выходе. Богатый словарь системы также позволяет справиться с переводом самых разнообразных по тематике текстов.

Статистический метод МП действует совсем по иному принципу. В его основе лежат математические методы для получения перевода. Точнее сказать, весь принцип работы подобной системы основан на статистическом вычислении вероятности совпадений фраз из исходного текста с фразами, которые хранятся в базе системы перевода.

Правила перевода изнутри

Как уже было сказано выше, метод машинного перевода, основанный на правилах, называется традиционным, поскольку на его основе работает большинство систем автоматизированного перевода. В России с помощью традиционного способа МП разрабатываются программные продукты компании ПРОМТ - единственного в нашей стране производителя программ-переводчиков. Самое время рассказать об этом методе МП поподробнее.

 Искусственный перевод new-2.jpg


Работа системы машинного перевода, основанной на правилах, состоит из нескольких этапов. Сначала система осуществляет морфологический анализ слов (указывает род, число, лицо и другие морфологические характеристики для каждого слова). Кроме того, программа фиксирует полную информацию по многозначным словам (тем словам, которые могут относиться к разным частям речи или иметь разные значения).

Затем происходит объединение отдельных слов в группы: именные (где главным словом является существительное, а зависимые от него слова определяются по идентичным морфологическим характеристикам), глагольные (главное слово – глагол) и др. Кроме того, в этот момент система может решить вопрос многозначности для некоторых слов в зависимости от их контекста.

На следующем этапе программа приступает к определению членов предложения и их роли в предложении, границ и типа связи между простыми предложениями. Сначала она ищет границы простых предложений, которые определены знаками препинания. Затем определяет главные члены, причем сначала система ищет сказуемое и только потом подлежащее перед ним (если перед сказуемым подлежащего нет, программа ищет его за сказуемым или делает вывод, что подлежащее отсутствует (например, в безличных предложениях)). Завершив поиск главных членов предложения, система определяет сферы их влияния (слова и группы слов, зависимые от подлежащего и от сказуемого). Все группы, которые система не смогла отнести ни к сфере влияния подлежащего, ни к группе сказуемого, считаются обстоятельствами.

И, наконец, на заключительной стадии работы происходит окончательное согласование всех членов предложения и построение предложений с учетом требований грамматики выходного языка. Элементы согласуются внутри групп, а также уточняется их зависимость от подлежащего или сказуемого и подтверждается порядок слов в предложении.

Таким образом, процесс перевода системы логически понятен: происходит поиск языковых эквивалентов, их объединение по морфологическим признакам, синтаксический анализ членов предложения и окончательный синтез предложения на выходном языке.

Статистический метод МП работает совсем иначе. Здесь главным является наличие как можно большего количества парных фрагментов текста и вычисление наибольшей вероятности их употребления. Программа вычисляет наиболее вероятную последовательность слов выходного языка, которую она считает наиболее соответствующей переводу исходного текста.

На данный момент очевидным является то, что системы традиционного метода МП справляются с переводом текстов лучше, чем статистические системы. Примеры сравнения качества перевода двух методов МП представлены в Таблице 1.

Таблица 1. Сравнение традиционного и статистического методов МП.
Пример Традиционный метод МП Статистический метод МП
Your iDisk Public folder makes exchanging files with friends a no-brainer. Ваша iDisk Общественная папка делает файлы обмена с друзьями легкой задачей. Ваш iDisk общественной папке позволяет обмениваться файлами с друзьями один не элементарно.


Статистика на подходе

Однако, несмотря на явное, на сегодняшний день, преимущество традиционного метода, статистический машинный перевод в последнее время более явно заявляет о себе. Самыми продуктивными разработками в этой области занимается компания Google, которая предлагает онлайновый сервис перевода на своем портале. Google заявляет о преимуществе именно статистического метода перевода и видит причину успеха в максимально обширных словарных базах, имеющих необходимое количество сегментов текста для их правильного перевода. Однако пока успехи в этой области незначительные. Перевод, выполняемый сервисом, постоянно меняется, но далеко не всегда в лучшую сторону (см. примеры в Таблице 2). Как видно из примера, одно и то же выражение (attorney's fees) было переведено совершенно по-разному (и спустя месяц перевод не выглядит корректным). Кроме того, система часто неправильно распознает артикли и не всегда согласует слова между собой по морфологическим признакам.

Таблица 2. Перевод статистическим методом МП.
Пример Первый перевод Google (декабрь 2007 г.) Перевод Google (январь 2008 г.)
Attorney’s Fees
A clause for attorney’s fees is normally included in the note in the event the borrower defaults in repayment of the loan.
Прокурора Тарифы
Положение на адвоката гонорар, как правило, включены в записку в случае невыполнения заемщиком в погашение кредита.
Прокурора сборы
А положение на гонорар адвоката, как правило, включена в записку, в случае, если заемщик по умолчанию в качестве погашения кредита.

Возможность быстрого пополнения словарных баз, безусловно, является преимуществом статистического метода МП. Однако у этого обстоятельства есть и обратная сторона: большое количество информации требует немалого объема памяти для хранения. Возможно, в будущем, эту проблему удастся успешно решить, но на данный момент она существует.

Нюансы технологии машинного перевода, основанной на правилах (традиционного метода МП), не позволяют разработчикам так же быстро публиковать изменения, как это делает Google. Работа в рамках традиционного метода МП заключается, главным образом, в совершенствовании самого механизма перевода, разработке новых алгоритмов. Однако эти усилия, пусть и не столь быстрые, оправдывают себя. Например, последняя версия уже упоминавшейся системы PROMT представляет качество перевода на порядок выше, чем ее предшественница.

Повод улыбнуться

Однако пока качество перевода, предлагаемое традиционной системой МП и статистической системой, нельзя назвать идеальным. Особенно сложным для программы-переводчика является перевод художественных текстов, где велика вероятность нестандартного порядка слов в предложении, и от переводчика требуется понимание иносказательного смысла выражения. Поскольку программа-переводчик пока не обладает образным мышлением, перевод таких предложений выглядит забавно. Некоторые примеры забавных переводов системами МП приведены в Таблице 3.
Таблица 3. Примеры забавных переводов пословиц.
Пример (пословицы) Правильный перевод Перевод, сделанный системой перевода
Even a wise man stumbles. На всякого мудреца довольно простоты. Даже мудрый человек натыкается.
Sure as eggs are eggs. Ясно, как божий день. Уверенный, поскольку яйца - яйца.
No news is good news. Отсутствие новостей - уже хорошая новость. Никакие новости не хорошие новости.

Однако существует немало примеров электронных переводов, которые невозможно отличить от работы, выполненной человеком-переводчиком. Например:
Таблица 4. Примеры удачных переводов, сделанных системой МП.

Пример Перевод системой МП

Fair words butter no parsnips.

Соловья баснями не кормят.

One will reap what he’ll sow.

Каждый будет пожинать то, что он посеет.

Information that defines a GPRS connection between a mobile phone and the network. PDP context activation also means that other subscriber-related parameters are activated.

Информация, которая определяет связь GPRS между мобильным телефоном и сетью. Активация контекста PDP также означает, что активизированы другие связанные с подписчиком параметры.

Что дальше?

В процессе тестирования систем МП стало ясно, что возможность быстрого пополнения словарных хранилищ статистической системы на данный момент не дает нужного результата. Однако, вполне возможно, это вопрос времени. В то же время разработчики традиционных систем МП сегодня могут гарантировать перевод высокого, но не идеального качества.

В настоящее время существует идея объединить оба метода машинного перевода, в результате чего, возможно, удастся создать систему нового поколения, которая совместит преимущества каждого метода и сможет выполнять перевод, максимально близкий к идеальному. Некоторые производители уже приступили к разработкам в этой области. А нам остается ждать от них качественно новых результатов.

Автор выражает благодарность компании ПРОМТ за консультации при создании материала.
- Обсудить материал в конференции


 
 
Если Вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.

window-new
Soft
Hard
Тренды 🔥
Apple хочет самостоятельно защищать свои интересы в антимонопольном расследовании против Google 3 ч.
Гладко было на бумаге: забагованное ПО AMD не позволяет раскрыть потенциал ускорителей Instinct MI300X 9 ч.
На Nintendo Switch выйдет подражатель Black Myth: Wukong, который позиционируется как «одна из важнейших игр» для консоли 11 ч.
Датамайнеры нашли в файлах Marvel Rivals следы лутбоксов — NetEase прокомментировала ситуацию 12 ч.
Надёжный инсайдер раскрыл, когда в Game Pass добавят Call of Duty: World at War и Singularity 13 ч.
Лавкрафтианские ужасы на море: Epic Games Store устроил раздачу рыболовного хоррора Dredge, но не для российских игроков 14 ч.
VK запустила инициативу OpenVK для публикации ПО с открытым кодом 15 ч.
CD Projekt Red объяснила, почему оставила мужскую версию Ви за бортом кроссовера Fortnite и Cyberpunk 2077 16 ч.
Открытое ПО превратилось в многомиллиардную индустрию 17 ч.
Слухи: в вакансиях Blizzard нашли намёки на Diablo V 17 ч.
Марсианские орбитальные аппараты прислали фото «зимней сказки» на Красной планете 45 мин.
IT International Telecom получила от Vard судно-кабелеукладчик IT Infinity 2 ч.
Новая статья: Обзор MSI MAG Z890 Tomahawk WiFi: материнская плата с загадками 9 ч.
Новая статья: Больше кубитов — меньше ошибок? Да, но торопиться не надо… 10 ч.
xAI одобрили 150-МВт подключение к энергосети, хотя местные жители опасаются роста цен и перебоев с поставками электричества 13 ч.
В Южной Корее задумались о создании KSMC — конкурента TSMC с господдержкой 13 ч.
«Гравитон» выпустил первый GPU-сервер на российском процессоре для ИИ и НРС 14 ч.
МТС представила российское SD-WAN-решение для корпоративных сетей 14 ч.
Электрический человекоподобный робот Boston Dynamics Atlas в костюме Санта-Клауса впервые сделал сальто назад 14 ч.
NASA отложило запуск важной миссии по изучению космической погоды 15 ч.