Немцы делают автоматический телефон-переводчик

Анна Болотова, 19 декабря 2001

Нравится

Знание языка необязательно. Главное иметь правильный телефон.

Немецкие учёные, получившие в этом году Немецкую премию будущего, разрабатывают мобильный телефон с функцией перевода с одного языка на другой без подключения дополнительных устройств.

Для того чтобы разговор был переведён автоматически, нужно будет набрать определённый сервисный номер, система соединит с нужным абонентом и сама переведёт диалог «в обе стороны».

8 лет назад группа Вольфганга Вальстера (Wolfgang Walster) создала программу VerbMobil, на основе которой и разрабатывается телефон-переводчик. Программа, помимо немецкого, поддерживает ещё три языка — английский, японский и китайский.

По словам разработчиков, система уже функционирует, но её возможности пока ограничены — перевод происходит до тех пор, пока разговор не выходит за рамки определённых, заранее выбранных тем.

Отметим, что на основе VerbMobil в Германии уже создано более 20-ти изделий, успешно реализуемых на рынке. Среди них — система речевого управления автомобилем, программа автоматизированной обработки и зачитывания вслух электронной почты, программа поиска музыки в Интернете по ключевым словам, программа, отвечающая по телефону на запросы о биржевых курсах, и программа, дающая — также по телефону — справки о репертуаре кинотеатров.

В настоящее время немецкие учёные занимаются развитием своей системы распознавания речи. Они рассчитывают, что уже через несколько лет для общения с компьютером ни мышь, ни клавиатура не будут нужны.

«Необходимо научить компьютер понимать человеческую речь, причём не медленно продиктованные фразы, а самую обычную разговорную речь», — считает Вольфганг Вальстер. — «Более того, компьютер должен понимать ещё и мимику собеседника, и его жестикуляцию, и, по возможности, правильно толковать все его движения. Для того, чтобы создать максимально эффективную систему распознавания речи, по мнению Вальстера, необходим более глубокий анализ: сначала произнесённая фраза акустически раскладывается на слова-гипотезы, которые получают (или не получают) подтверждение — в зависимости от того, какой текст звучал в ходе того же диалога раньше».

Программа обязана знать почти столько же, сколько и человек. Например, реалии быта: в Германии принято обедать между полуднем и часом дня, а ужинать — после 6-ти часов вечера. Если немецкий бизнесмен говорит по телефону своему американскому партнёру: «А потом давайте вместе сходим поедим», то при переводе этой фразы программа должна в зависимости от времени суток сказать либо «давайте вместе пообедаем», либо «давайте вместе поужинаем».

Немецкие учёные не без гордости заявляют, что уже сейчас VerbMobil безупречно распознаёт и переводит речь. Программа «понимает» любого собеседника, даже если он говорит с акцентом или на одном из множества существующих в Германии диалектов.

VerbMobil разбивает акустические сигналы на отдельные слова и старается их осмыслить, поэтому одной из главных проблем остаётся многозначность слов — например, произнося немецкое слово «Bank», собеседник может иметь в виду и кредитный институт, и скамью, и базу данных.

В будущем система должна уметь отфильтровывать оговорки и звуки-паразиты вроде «эканья». Анализу подвергнется и мелодика фразы — ведь интонацией можно придать словам противоположный смысл.

Но, по собственному признанию профессора Вальстера, его VerbMobil пока не в состоянии понять и перевести, например, философский диспут или беседу двух влюблённых. Но это вопрос времени.

Недавно в Немецком исследовательском центре искусственного интеллекта проводилась научная конференция на тему «Коммуникация между человеком и машиной», куда приехал главный программист Microsoft, причём за собственный счёт — его не приглашали.

Из США прибыли и многие другие видные специалисты-компьютерщики, а также профессора таких престижных вузов как Стэнфордский университет и Массачусетский технологический институт, и все за свой счёт.

«Это говорит о многом», — считает Вальстер. — «Раньше только мы летали туда, а теперь и они прилетают к нам, чтобы ознакомиться с нашими разработками. Иными словами, мы занимаем вполне достойное положение в мире и не уступаем признанным лидерам — США и Японии».

Что же касается систем распознавания русской речи, то немецкие учёные о них умалчивают. Тем не менее, в конце ноября создание такой системы анонсировали компании Intel и Cognitive Technologies.

Сообщается, что уже создан обширный инструментарий для разработки, который включает крупный речевой корпус русского языка RuSpeech, достаточный для распознавания естественной речи говорящего в реальном времени.

Тексты для RuSpeech создавались 220 дикторами, каждый из которых прочёл, в среднем, более 250 предложений. Таким образом, в базу данных входит около 50 часов непрерывной речи объемом 15 Гбайт на 30-ти c лишним компакт-дисках, а это более 50 тысяч предложений с фонетической разметкой каждой произнесённой фразы.

С помощью RuSpeech компьютер сможет распознавать не только слова, но и отдельные фонемы и их последовательности, что позволит минимизировать количество ошибок при распознавании новых, отсутствующих в базе, слов.

Эта разработка может быть использована в голосовых порталах, для голосового управления в телефонии (справочные службы, телефонный доступ к электронной почте, голосовой набор номера), а также в системах диктовки.

По оценкам департамента маркетинга Cognitive Technologies, объём рынка речевых технологий в России к 2006 году может составить порядка $200 миллионов.

Выходит, через каких-нибудь пять лет оргтехника будет понимать нас с полуслова, а службам занятости и биржам труда придётся трудоустраивать безработных переводчиков.

телефоны

Немцы делают автоматический телефон-переводчик

Сервис SMS ломает мобильные телефоны Nokia

Канадская компания принимает в дар мобильники

Ericsson запускает мультимедиа на обычных телефонах

Утопающий француз сможет позвонить 911