Распределённые вычисления: от каждого по способностям

Анна Болотова, 4 апреля 2002

Нравится

Каждый пользователь сможет внести свою лепту в создание лингвистической базы данных.

Американский программист Брайн Макконнелл (Brian McConnell) предлагает использовать интеллект миллионов пользователей для создания мощной лингвистической базы данных.

По его мнению, распределённые вычислительные сети, нацеленные на анализ и сбор информации, созрели для более активного участия клиента.

Напомним, что распределённые вычислительные сети (РВС) — это способ обработки данных при помощи ПК. Обработка происходит с ведома пользователей — они сами должны скачать программу-клиента, но без их участия. Как правило, вычисления происходят в паузах и «под скринсевером».

Несмотря на то, что принцип РВС вполне органично вписывается в идею Интернета, «распределённые сети» стали активно развиваться только в последние 5-7 лет. Цель оправдывает себя: многие современные вычисления нуждаются в мощных системах, и, как правило, выгоднее распределить работу между обычными «машинами».

Технология весьма проста: на ПК небольшими фракциями подаётся информационный блок, который после обработки отправляется на центральный компьютер.

Для того, чтобы получить доступ к распределённым вычислениям, организации, в них нуждающиеся, должны научиться двум вещам: во-первых, пользователь должен заинтересоваться проектом и позволить «использовать себя» и, во-вторых, пользователь должен быть защищён.

С первым пунктом дело более-менее наладилось: обычный человек в своем добровольном порыве может руководствоваться чистым альтруизмом (эта категория предоставляет своё оборудование для медицинских проектов, наподобие Cancer Research Project, в рамках которого идёт поиск лекарств от рака, или FightAids@Home).

Сигналы, полученные радиотелескопом в Аресибо, кодируются и рассылаются по SETI

Другое сугубо человеческое свойство, толкающее людей на участие в подобных проектах — любопытство и чувство сопричастности к тайне: здесь первенство, конечно, у легендарного SETI@Home, который за три года сумел привлечь больше трёх миллионов пользователей.

Это, действительно, удивительный успех, особенно, когда осознаёшь, что вся эта армия пользователей занимается обработкой данных в поисках сигналов от инопланетян. При всей абсурдности цели именно проект SETI@Home продемонстрировал истинную мощность, размах и потенциал распределённых вычислений.

Ещё одно человеческое качество, которое могут использовать нуждающиеся в энергоёмких вычислениях — просто корысть, безо всяких эмоциональных мотиваций. Клиентам таких сетей платят деньги в зависимости от объёма вычислений.

Конечно, в отличие от предыдущих, абсолютно добровольных проектов, в этом случае от клиента требуется техническая оснащённость, стабильный и качественный трафик. Здесь вы сможете узнать побольше о различных проектах — (правда, несколько в вольном изложении, но разобраться, что к чему, можно).

Со вторым требованием к «хозяевам» и организаторам распределённых вычислений дело обстоит похуже — с каждым годом гарантировать абсолютную невозможность взлома становится всё труднее.

Опасность заключается в том, что каждый «транспонируемый» — обработанный — блок «помечен» IP-адресом, плюс в каждом подобном проекте используется огромное количество серверов. Не надо быть семи пядей во лбу, чтобы понять уязвимость технологии.

Книга Макконелла

Теперь вернёмся к тому, что предлагает Макконнел. Будучи человеком, знакомым с РВС не на словах — он является автором книги «A Guide to SETI and Communicating with Alien Civilizations» — программист решил пойти дальше. Предложенная им программа будет не просто «втихаря» использовать ресурсы компьютера — предполагается, что каждый пользователь лично сможет внести лепту в создание лингвистической базы данных.

Периодически (в описаниях об этом сказано «когда пользователь будет отдыхать») клиенту будет предлагаться для перевода какое-то слово или фраза на знакомом ему языке. Предполагается, что когда клиент будет «скачивать» программу, он укажет свои языковые способности и диапазон владения языком.

По версии программиста, на первом этапе создания лингвистической базы так называемая программа-паук будет «выуживать» с различных сайтов (разноязычных) простые слова, которые будут передаваться релевантному пользователю (тому, кто будет в состоянии иметь дело с лексикой на каком-то конкретном языке) для перевода.

Варианты перевода — собственно, база — будут размещены на огромном количестве серверов. Чем больше серверов используется, тем стабильнее система.

На втором этапе — когда будет создана удовлетворительная база данных — клиенты РВС будут «докачивать» программу доступа к этой базе — ради чего, собственно, всё и затевается. Если запрашиваемого слова нет в базе, то запрос пересылается другому «релевантному волонтёру».

Макконнел исходил из того, что существующие электронные словари, во-первых, охватывают далеко не все существующие языки, а во-вторых, словарная лексика далека от «народной семантики» — то есть даёт представление о словах, далекое от того представления, которое существует в сознании носителей языка. В общем, что называется, проще надо быть.

РВС Макконнела называется World Wide Lexicon (WWL), и первая версия клиентской программы будет представлена в мае 2002 года на технологической конференции, проводимой издательством О’Рейли (O’Reilly Emerging Technologies Conference), которая пройдёт в Калифорнии.

За ненаучно-народный принцип WWL Макконнел уже успел схлопотать пару «затрещин» со стороны докторов-лингвистов, которые в открытой печати заявляют, что никакая в итоге получится не база, а полный бред, под которым ни один языковед не подпишется.

Рамеш Кришнамурти

К примеру, лингвист Рамеш Кришнамурти (Ramesh Krishnamurthy) из английского университета Вольверхэмптона (University of Wolverhampton), говорит, что хороший перевод — это результат развитого навыка и абы что называть переводом не следует.

Слова Кришнамурти имеют значение потому, что среди языков, слабо представленных в электронной культуре, называют индийский, а известно, что индийских (также как и китайских) пользователей с каждым месяцем становится всё больше.

Макконнел в ответ на это обещает создать работающую параллельно программу, которая бы проверяла корректность спонтанного перевода.

Ещё одна языковая проблема, которая ставит под сомнение проект — отсутствие у слов и фраз, предлагаемых для перевода, контекста. Как резонно замечает Пол Райсон (Paul Rayson) из Ланкастерского Университета (Lancaster University), даже если человек понимает смысл слова, он его не может правильно интерпретировать вне контекста.

В советские времена (в 70-е годы) лингвисты также пытались в рамках исследований так называемого машинного перевода создать универсальный автоматизированный словарь-переводчик. Можно сказать, что ничего из этого не вышло — разве что под вывеской незапрещённого машинного перевода велись весьма прогрессивные опыты по глубинной и структурной семантике.

Также обстоит дело и с проектом Макконелла: цель кажется нелепой, но перспективу объединения интеллекта нескольких миллионов человек сложно переоценить. Чего же хочет Маконнелл: материализовать ноосферу или построить Вавилонскую башню, которая предвещает апокалипсис?

интернет

Распределённые вычисления: от каждого по способностям

Интернет-зависимость приравнена к наркомании и алкоголизму. Первая часть

На Национальной Интернет Премии всех победила Масяня

Scientology vs Google: у вас не найдётся Xenu.net?

Рамблер: в Рунете 5 миллионов пользователей

Morpheus MusicCity: скачанные файлы на пороге самоуничтожения