Вавилонская башня на перфокартах: Как работали электронные переводчики в доинтернетную эпоху

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Статья | Оффтопик

В середине XX века мир начал стремительно сжиматься: усиливались научные контакты, рос международный бизнес, расширялись политические и военные связи. Языковые барьеры превращались из академической проблемы в практическую головную боль. На этом фоне появились первые электронные переводчики — от огромных мейнфреймов до карманных устройств. Они работали без сетевых подключений, опирались на локальные базы данных и алгоритмы, которые при всех ограничениях заложили основу современных лингвистических технологий.

От универсального языка к первым автоматическим словарям

Идея «перевода без переводчика» родилась задолго до компьютеров. Уже в XVII веке философы вроде Рене Декарта и Готфрида Лейбница рассуждали о создании универсального языка, который смог бы снять недоразумения между народами. В 1668 году английский учёный Джон Уилкинс предложил символический язык для учёных как альтернативу латыни. Все эти проекты оставались скорее философскими конструктами, но они задали важный вектор: сложные смыслы можно формализовать и систематизировать.

Автор: Flux

Реальные шаги начались только в XX веке. В 1930-е годы инженеры Жорж Арцруни и Пётр Троянский создали прототипы автоматических словарей. Устройство Арцруни использовало перфоленту для хранения двуязычных пар: при вводе слова машина механически находила соответствующую ячейку и выдавала перевод. Изобретение Троянского было ещё сложнее: наклонный стол для исходного текста, фотокамера и механическая печатающая система, которая подбирала слова с учётом морфологии и грамматики, во многом вдохновлённой эсперанто. Эти механические системы могли переводить лишь ограниченный набор фраз, а точность сильно зависела от ручной настройки и качества исходных списков, но сам принцип автоматизированного перевода был уже обозначен.

После Второй мировой войны идея получила новый импульс. В 1949 году Уоррен Уивер из Рокфеллеровского фонда предложил использовать компьютеры для перевода, опираясь на теорию информации и опыт дешифровки военных кодов. Уивер ввёл в обиход понятие интерлингвы — абстрактного промежуточного языка, через который можно было бы преобразовывать текст с одного языка на другой. Именно этот меморандум заложил теоретическую базу для первых электронных систем машинного перевода.

Эксперименты 1950-х годов

Настоящий прорыв в публичном восприятии машинного перевода произошёл в 1954 году. В рамках Джорджтаунско-IBM эксперимента компьютер IBM 701 перевёл 60 русских предложений на английский. Оператор вводил текст с помощью перфокарт, машина искала соответствующие слова в словаре объёмом около 250 терминов, ориентированном на химию, анализировала структуру предложений и по шагам собирала фразу на английском. Система игнорировала контекст и не понимала идиом, но демонстрация произвела сильное впечатление. Пресса заговорила о скорой «смерти переводчиков», а правительства США и СССР щедро профинансировали исследования.

IBM 701
Автор: Dan Источник: en.wikipedia.org

В Советском Союзе работы шли параллельно. К концу 1955 года на машине БЭСМ под руководством Дмитрия Панова и Игоря Бельского был получен первый машинный перевод с английского на русский. Программы Николая Трифонова использовали словарь примерно в 2300 слов и простые грамматические правила. В Институте прикладной математики АН СССР Алексей Ляпунов организовал специальную группу, где Ольга Кулагина и Тамара Вентцель тестировали алгоритмы на машине «Стрела». Большинство этих систем реализовывали фактически прямой перевод «слово за словом», опираясь на частотный анализ и локальный контекст. На простых фразах они работали терпимо, но в сложных конструкциях быстро «ломались».

Автор: Flux

Одним из самых ярких проектов того времени стал AN/GSQ-16 Automatic Language Translator, созданный в 1950-е годы для ВВС США. Эту систему разработали для перевода советских технических документов на английский. Текст вводили с перфокарт через специализированные кириллические терминалы; позже к системе добавили оптический считыватель, позволявший обрабатывать распечатки. Данные хранились на 16-дюймовом пластиковом диске с микроскопическими отметками. Диск вращался со скоростью около 2400 оборотов в минуту, что обеспечивало скорость доступа до 1 Мбит/с и позволяло обращаться к примерно 170 000 переводов слов и устойчивых выражений.

В памяти компьютера хранился словарь — сначала порядка 65 000 слов, затем увеличенный до 170 000. Алгоритмы учитывали основы слов и их окончания, то есть элементарную морфологию, а также использовали приём «наполнения словаря»: система подстраивала префиксы и другие части слов, опираясь на уже переведённый текст, чтобы разрешать неоднозначности. На выходе получался черновой перевод со скоростью порядка 20 слов в минуту, который всё равно требовал правки человеком.

Mark I
Автор: Daderot Источник: ru.wikipedia.org

Первая версия системы, Mark I, работала на ламповом компьютере и была относительно ненадёжной. Mark II, запущенная в 1964 году, использовала уже транзисторный компьютер и была гораздо устойчивее. AN/GSQ-16 эксплуатировалась до 1970 года, однако тесты показывали, что по точности перевода она примерно на 10% уступала человеческим переводчикам. Тем не менее, с инженерной точки зрения это был впечатляющий пример доинтернетного автоматического переводчика, работающего в реальных условиях.

Кризис машинного перевода в 1960-е годы

К середине 1960-х первоначальный оптимизм начал быстро выдыхаться. В 1966 году в США вышел отчёт ALPAC (Automatic Language Processing Advisory Committee), который жёстко раскритиковал существующие системы: стоимость разработки и эксплуатации была высока, а качество перевода оставалось низким. Главная проблема заключалась в семантической неоднозначности. Простое слово вроде «pen» могло означать «ручку» или «загон для животных», и без широких энциклопедических знаний машина неизбежно ошибалась.

Исследования показали, что машинный перевод тех лет не только хуже понимался, но и выполнялся медленнее: в среднем на 21% медленнее человека и примерно на 29% хуже по показателям понимания текста. На этом фоне в США финансирование сократилось, многие проекты свернули или заморозили, и исследования заметно замедлились.

Автор: Flux

В СССР в 1960 году постановление Академии наук стимулировало развитие структурной лингвистики. Учёные пытались формализовать грамматику в духе моделей Ноама Хомского, но сталкивались с нехваткой данных и вычислительных ресурсов. В Европе и Швейцарии появлялись системы вроде «Шара», а в рамках так называемых Т-систем (трансформационных) внимание сосредотачивалось на синтаксическом анализе. Эти разработки умели строить грамматические деревья предложений, но практически не затрагивали уровень глубокого смысла.

Тем не менее, полное затишье так и не наступило. В нишевых областях разработки продолжались. В Канаде и Франции создавали системы для перевода метеорологических бюллетеней, где язык был стандартизован и ограничен по темам. В Японии исследователи занимались машинами перевода для иероглифических языков, решая специфические задачи обработки китайских и японских текстов.

Возвращение интереса в 1970-е годы

С ростом вычислительных мощностей в 1970-е годы интерес к машинному переводу вернулся. В 1968 году Питер Тома основал компанию SYSTRAN, которая сделала ставку на системы на основе правил. Лингвисты и программисты совместно разрабатывали формальные правила для морфологического разбора, синтаксического анализа и элементарной семантической обработки. Система работала на мейнфреймах и с 1970 года использовалась Министерством обороны США для перевода документов, а с 1976 года — Еврокомиссией. Это уже был не демонстрационный прототип, а практическая промышленная система.

В СССР в 1972 году появилась система ЭТАП, основанная на модели «Смысл — Текст». Она предполагала, что входной текст сначала преобразуется в абстрактное семантическое представление, а затем заново формируется на другом языке. Лаборатория в Ленинграде под руководством Раймонда Пиотровского занималась инженерной лингвистикой, разрабатывая формальные описания грамматик и словарей. Все эти системы работали на больших ЭВМ в офлайн-режиме и были ориентированы в основном на техническую документацию и специализированные тексты.

Автор: Flux

Параллельно развивалась микрокомпьютерная техника. Микропроцессоры открыли дорогу более компактным решениям, и в конце 1970-х появилась знаменитая игрушка Texas Instruments Speak & Spell. Формально это был не переводчик, а обучающая система с синтезом английской речи, но сама идея «коробочки, которая говорит» вдохновила разработчиков на создание карманных электронных переводчиков. Появились первые простые словари на базе микропроцессоров: фразы и слова хранились в ПЗУ, а пользователь видел результат на небольшом жидкокристаллическом экране.

Карманные переводчики 1980-х годов

Настоящий расцвет портативных переводчиков пришёлся на 1980-е годы. Удешевление транзисторов и развитие микросхем позволили уместить всё, что раньше занимало комнату, в устройство размером с калькулятор. Такие переводчики работали полностью автономно: никакого интернета, никаких сетевых подключений — только батарейки, встроенный словарь и простые алгоритмы.

В основе работы карманных переводчиков лежал цифровой фразовый словарь. Пользователь вводил текст с миниатюрной клавиатуры, чаще всего в виде QWERTY-раскладки. Система разбивала введённую строку на сегменты и искала совпадения в параллельных корпусах фраз, где рядом хранились оригинал и перевод. Часто можно было выбрать тематику: «отель», «ресторан», «транспорт» и так далее. Это сужало поиск и повышало шанс, что устройство предложит подходящую фразу. Поверх этого разработчики внедряли простые грамматические трансформации: изменяли порядок слов, согласовывали окончания.

Автор: Flux

Перевод отображался на маленьком экране, а в более продвинутых моделях к тексту добавлялся синтез речи. Устройство преобразовывало текст в последовательность фонем и озвучивало фразу встроенным динамиком. Это было особенно полезно туристам, не уверенным в произношении.

Среди характерных примеров тех лет можно вспомнить Lingo World Traveler — текстовый переводчик с QWERTY-клавиатурой и встроенной базой фраз, а также Franklin Electronics Global Translator, который дополнял текстовый вывод голосовым. Модели вроде ECTACO Partner 900 шагнули ещё дальше: они могли принимать речь, распознавать фонемы и сопоставлять их с хранимыми образцами, а затем выдавать перевод.

В Японии компании Fujitsu и Toshiba в рамках программы «пятого поколения компьютеров» разрабатывали программное обеспечение для перевода, интегрированное в портативные устройства. В СССР и странах Восточной Европы появились коммерческие продукты для персональных компьютеров — прямые переводчики с расширенными словарями. Они часто работали по схеме «слово за словом» или с минимальным синтаксическим анализом, но всё равно существенно ускоряли работу с текстами.

Ограничения, однако, никуда не делись. Карманные переводчики уверенно справлялись с простыми бытовыми фразами, но легко путались в контексте, плохо понимали идиомы и длинные предложения. Их точность для базовых текстов оценивали примерно в 70-80%, и даже в лучших случаях результат требовал правки. Объём памяти был жёстко ограничен: чипы вмещали порядка 50 000 слов и выражений, поэтому разработчикам приходилось тщательно выбирать, что включать в словарь.

Внутреннее устройство доинтернетных переводчиков

Несмотря на разнообразие форм-факторов — от мейнфреймов до карманных гаджетов, — большинство доинтернетных переводчиков опирались на два подхода: системы на основе правил и ранние статистические методы.

В системах на основе правил процесс перевода обычно делился на несколько этапов. Сначала выполнялся морфологический анализ: программа разбирала каждое слово, определяя его основу и грамматические признаки вроде падежа, числа и времени. Затем следовал синтаксический разбор: строилось дерево предложения, определялись подлежащее, сказуемое, дополнения и другие элементы структуры. После этого текст переосмысливался на уровне семантики — иногда через интерлингву, абстрактное представление смысла, не привязанное к конкретному языку. Наконец, выполнялся синтез: на основе полученного представления система генерировала текст на целевом языке, подбирая слова и грамматические формы.

Автор: Flux

В конце 1980-х годов компании IBM и другие исследовательские группы начали эксперименты со статистическим машинным переводом. Вместо ручных правил там использовались большие двуязычные корпуса. Алгоритмы анализировали частоты сочетаний слов и фраз в паре языков и вычисляли вероятность того, что определённое выражение на одном языке соответствует другому на другом. Теоретически это позволяло машине «выучивать» перевод из примеров, но на практике требовало огромного количества параллельных текстов. В доинтернетную эпоху собрать достаточно большие корпуса было трудно, поэтому статистические методы оставались экспериментальными.

Аппаратно системы строились на разных платформах. Для крупных проектов использовали мейнфреймы вроде машин IBM и БЭСМ. Для портативных переводчиков достаточно было микроконтроллеров и специальных чипов памяти. В качестве носителей данных применялись магнитные диски и ленты в больших системах и ПЗУ-микросхемы в карманных устройствах. Ввод текста осуществлялся через клавиатуру, перфокарты или сканеры; вывод — на бумагу через принтеры или на экраны. Большие системы работали от электросетей, а карманные переводчики питались от батареек и могли сопровождать пользователя в дороге.

В СССР особое внимание уделяли математической лингвистике: аксиоматизации грамматики, построению формальных моделей языков и вероятностных схем для обработки редких языков, например китайского. Это на годы вперёд определило стиль исследования в области автоматической обработки языка.

Применение доинтернетных переводчиков

Доинтернетные электронные переводчики, при всех ограничениях, нашли своё место в реальном мире. Крупные системы вроде SYSTRAN и специализированной METEO обрабатывали ежедневно тысячи страниц для правительственных организаций и метеорологических служб. В подобных областях важнее была скорость и объём, чем идеальная стилистика: переводчик-человек мог затем быстро исправить грубые ошибки и отполировать текст.

Портативные устройства стали спутниками дипломатов, бизнесменов и туристов. Они облегчали базовый обмен фразами в гостиницах, аэропортах и ресторанах. В научных центрах, таких как Foreign Technology Division в США, автоматические системы помогали быстрее просматривать и отбирать иностранные публикации: машина делала черновой перевод, а специалисты уже решали, что стоит переводить полностью и внимательно изучать. В образовании и бизнесе переводчики использовали для создания черновиков документов, где важно было скорее «понять суть», чем сразу получить идеальный текст.

Автор: Flux

Главный вклад этих систем оказался даже не в самих переводах, а в стимулировании науки о языке. Необходимость формализовать грамматику и значение подтолкнула развитие корпусной лингвистики, теории формальных грамматик и семантических моделей. Исследователи убедились, что автоматизация работы с языком в принципе возможна, даже если ранние системы часто ошибались и выглядели примитивно на фоне современных технологий.

К моменту появления интернета и нейросетевых моделей мир машинного перевода уже имел за плечами десятилетия экспериментов. Доинтернетные электронные переводчики — от гигантских мейнфреймов до карманных «разговорников» — подготовили почву для того, что сегодня кажется привычным: мгновенный перевод на десятки языков прямо в смартфоне. Без тех ограниченных, шумных и не всегда точных устройств не было бы и нынешних «волшебных» переводчиков, работа которых скрывает за собой ту же самую старую мечту — преодолеть языковой барьер между людьми.

Изображение в превью:
Автор: Flux
Источник: Локальная модель Flux
Автор не входит в состав редакции iXBT.com (подробнее »)
Об авторе

capib25@gmail.com

0 комментариев

Добавить комментарий

Сейчас на главной

Новости

Публикации

Серфинг без капли воды: как оазис Уакачина стал курортом для тех, кто боится утонуть

Хочется ловить волну, но вот проблема: только оказавшись в водоёме глубже пары метров, вам даётся исключительно стиль топориком ко дну? В таком случае вам стоит узнать про самое необычное место для...

Астрономы доказали существование трех популяций сливающихся черных дыр: неразлучные пары, случайные встречи и «каннибалы»

Астрофизики получают информацию о слияниях черных дыр благодаря детекторам гравитационных волн. Когда два сверхплотных объекта сталкиваются, они вызывают возмущение пространства, которое...

Туер «Енисей»— один из последних в мире: почему он до сих пор работает на Казачинском пороге, хотя на всех остальных реках России и Европы такие суда давно исчезли

На реке Енисей есть участок, который веками оставался серьёзным препятствием для судоходства. Это Казачинский порог — природная «плотина» из скальных выступов и каменистых гряд,...

Наши предки вылуплялись из яиц: окаменелость возрастом 250 млн лет подтвердила спорную гипотезу палеонтологов

Эволюционная история млекопитающих неразрывно связана с процессом размножения. Долгое время биологи опирались на устоявшееся положение: древние предки современных млекопитающих, известные как...

Фильм «Белое солнце пустыни»: как он стал негласным талисманом космонавтов

У советских и российских космонавтов сложилась необычная, но неизменная традиция: перед стартом обязательно смотреть фильм «Белое солнце пустыни» — начало ритуала существует ещё с...

Обзор USB-тестера FNIRSI FNB-C2: с поддержкой PD 3.1 и мощностью 240 Вт

Новая модель USB-тестера FNIRSI FNB-C2 — это не просто компактный измерительный прибор, а полноценный инструмент для диагностики современных устройств питания. Он предназначен для...