Статистический машинный перевод: дайте точку опоры!

Юрий Ильин, 31 июля 2003

Нравится

Розетский камень в Британском музее. Метод, использованный для его расшифровки, является первоосновой статистического перевода. Осталось автоматизировать (фото с сайта mike-reed.com).

Летом 1999 года на стене одной лаборатории в одном американском университете висело изображение старинного пергамента с японскими иероглифами. Под японской надписью значилась интригующая фраза на менее экзотичном английском языке...

Фраза эта гласила: «Для большинства людей это выглядит как секретный код. Секретные коды обычно взламывают». Сей рекламный плакат, висевший на стене в лаборатории статистического машинного перевода в Университете Джона Хопкинса (Johns Hopkins University), предвещал скорое появления новой системы по «кличке» Decoder.

Тогда, в 1999 году, этим не занимался практически никто. Сейчас профессор Кевин Найт (Kevin Knight), тогда возглавлявший исследования в Университете Джона Хопкинса, говорит, что надпись под пергаментом оказалась пророческой.

Статистический метод автоматизированного перевода обогнал некогда превалировавшую, традиционную технологию, которая лишь отчасти можно назвать автоматической. В основе её лежат многоязычные словари, которые программисты и переводчики собирают вручную, и на основе которых впоследствии «учат» программу, какое слово что означает — с учётом синтаксиса.

Подобные «словарные» технологии используются в системах вроде BabelFish и Translate.ru.

Поскольку их банки данных — собственно, словари, — были и являются поныне очень массивными, раньше они были более эффективными, нежели «статистические» переводчики.

Скриншот автоматического переводчика Translate.ru.

А новая технология статистического машинного перевода позволяет создавать системы, которые будут «щёлкать» тексты на самых разных языках.

Главное — это наличие «параллельных данных».

Основа для этой технологии была заложена ещё в конце 1980-х начале 1990-х годов — сотрудниками корпорации IBM. Именно тогда в умные головы специалистов корпорации пришла очень простая мысль: если компьютеру «скормить» текст на английском языке, и его выполненный вручную перевод на другой язык, то машина, используя статистический метод, «выучит» второй язык.

New York Times приводит следующий пример. Сравниваются две простые фразы на арабском (написано латиницей) — «rajl kabir» и «rajl tawil». Если машина «знает», что первая фраза означает «крупный человек», а вторая — «высокий человек», то банальная статистика позволит машине понять, что «rajl» означает «человек».

Подобные простые фразы носят название «N-граммы», и они считаются базовыми элементами систем машинного перевода.

Хотя принцип кажется простым до примитивизма, у него есть ряд своих «но». Во-первых, для полноценного «знания» второго языка требуется огромный массив данных — одним текстом не обойдёшься.

Во-вторых, для эффективной работы таких систем требовались компьютерные мощности, в начале 1990-х ещё недоступные. То же касается и программного обеспечения.

А сейчас различные группы исследователей занимаются усовершенствованиями здания, возведённого на фундаменте методики IBM.

Такой портрет выложил Кевин Найт на своей домашней странице.

Например, во всё том же Джоне Хопкинсе доктор Дэвид Яровски (David Yarowski) и его команда занимаются разработкой системы, которая управлялась бы с текстами на таких языках, как узбекский, бенгальский, непальский и даже клингоский — язык, на котором говорит раса клингонов, существ из сериала Star Trek.

Для «разработки» этого языка даже создан целый институт, умудрившийся перевести на этот язык Библию и «Гамлета».

Технология всё та же: если автоматическому переводчику предоставить «на съедение» тексты на двух языках, дальше он уже сможет переводить тексты самостоятельно в обе стороны.

Доктор Яровкски полагает, что в итоге ему и его коллегам удастся создать систему, которая будет управляться сразу с сотней языков. И хотя грамматические структуры китайского и арабского, например, языков с трудом поддаются статистическому анализу, по мнению Яровски, проблема эта решаема, нужно лишь время.

Аналогичным образом работает технология, разработанная сотрудниками Южно-калифорнийского университета (University of Southern California), в частности, Францем Йозефом Охом (Franz Josef Och).

Профессор Дэвид Яровски (фото с сайта Jhu.edu).

Перефразируя Архимеда, Ох говорит: «Дайте мне достаточное количество параллельных данных, и через несколько часов у вас будет двусторонняя система перевода».

Система Оха полностью игнорирует грамматические правила, и словари ей тоже не нужны — а нужно, как уже сказано, большое количество данных, к которым прилагаются статистические модели.

Надо сказать, что в своё время таким образом была расшифрована надпись на Розетском камне — базальтовой плите, найденной французской армией в Египте в 1799 году. На этой плите содержалась запись на трёх языках, одним из которых был греческий. Благодаря тому, что в греческой надписи упоминались имена «Птолемей» и «Клеопатра», удалось расшифровать иероглифическую египетскую надпись, и в итоге — практически весь язык.

Дело Франсуа Шампольона, которому и принадлежит пальма первенства в расшифровке надписи Розетского камня, живёт, процветает и автоматизируется.

лингвистика

Статистический машинный перевод: дайте точку опоры!

SMS уничтожают английский язык

«IMHO» и «LOL»: этикет в экстремальных условиях