Cognitive Translator — система машинного перевода текста нового поколения

ПредыдущаяСледующая

Компания Cognitive Technologies представила систему машинного перевода текстов нового поколения Cognitive Translator, в основу которой легло более глубокое представление знания о языке. Процесс разработки системы занял около 60 человеко/лет и длился более 8 лет.

Проект по созданию данной версии Cognitive Translator начался в 2000 году. Его участниками, помимо специалистов Cognitive Technologies, стала группа профессиональных лингвистов из МГУ, Института Русского Языка РАН и других организаций. Группой были разработаны уникальные алгоритмы синтаксического разбора и правила машинного перевода. На их основе была построена новая более совершенная — структурная модель представления знания о языке, которая включает, помимо описания морфологии и синтаксиса, еще и элементы анализа структурных связей. За счет этого система добивается глубокого «понимания» текста, и даже претендует на разрешение смысловых неоднозначностей («ключ» дверной и «ключ» - источник воды).

Принципы построения модели языка, заложенные в Cognitive Translator, основаны на технологии анализа — понимания текста, что позволило в рамках исследовательского проекта при участии относительно небольшой группы разработчиков создать систему, дающую качество перевода, сравнимое с современными промышленными системами. Стоит отметить, что существующие сегодня на рынке системы машинного перевода используют подход, разработанный еще в 70-х годах прошлого века, подразумевающий непрерывное ручное наполнения базы словоформ. Для достижения высокого качества перевода и добавления новых языков этот подход требует подключения огромных ресурсов (сотен специалистов), что, естественно, ограничивает число коллективов, занятых в этой области.

Предложенная компанией Cognitive Technologies модель описания «языка» практически инвариантна (по отношению к языкам) и позволяет на порядок снизить трудозатраты при описании морфологии и синтаксиса различных языков мира. Построенные на ее базе системы перевода нового поколения позволят разрешать смысловые неоднозначности не только для двух языков, но и для всего межъязыкового пространства. В настоящее время ядро системы — анализатор текста, предназначенный для описания новых языков, находится в открытом доступе.

Технологии анализа информации, разработанные в рамках проекта Cognitive Translator, находят свое применение в создаваемых компанией информационных системах, в частности для решения задач распознавания и «понимания» документов.

9 декабря Cognitive Translator (включая описание системы) был выложен в открытый доступ в сети Интернет на сайте www.cognitive.ru в разделе «Научные исследования», что является подарком посетителям сайта к Новому году. Система представляет собой интерактивную среду, обеспечивающую возможность перевода, редактирования и синхронного просмотра оригинала текста, перевода и дополнительных вариантов перевода. Ограничение по размеру переводимого текста составляет 32 КБ (примерно 32 000 знаков). Система поддерживает два направления перевода англо-русский и русско-английский.

Необходимо отметить, что представляемый проект находился в течение последних пяти лет в режиме альфа–тестирования. За это время система сделала порядка 20 млн. переводов (около 15 000 переводов в день).

В ближайших планах по развитию проекта Cognitive Translator: добавление новых языков перевода, создание и подключение новых правил перевода, совершенствование технологий «понимания».

9 декабря 2008 Г.

18:57

Ctrl
ПредыдущаяСледующая

Все новости за сегодня

Появились первые изображения объектива Leica DG Vario-Elmarit 50-200mm f/2.8-4.0 ASPH Power OIS: Объектив Leica DG Vario-Elmarit 50-200mm f/2.8-4.0 ASPH Power OIS предназначен для камер системы Micro Four Thirds

Видео дня: официальная презентация Samsung Galaxy S9: Остается лишь дождаться подтверждения цены и даты выхода1

Пользователей YouTube начали отписывать от неофициальных музыкальных каналов: И подписывать на официальные каналы исполнителей3

Apple переносит данные китайских пользователей iCloud на территорию КНР: Apple добавила, что подобные перемены вовсе не подразумевают свободный доступ со стороны правительства к пользовательским данным3

Новый флагманский смартфон LG Judy получит громкоговорители Boombox и выйдет только в июне: Что касается названия, то устройство может называться не LG G7, как следовало бы его окрестить по порядку, а LG G9

Смартфон Leagoo Power 5 получит аккумулятор «честной» емкостью 7000 мА•ч : Анонс устройства ожидается 26 февраля

Sony Xperia XZ2 и Xperia XZ2 Compact: официальные изображения и новые подробности: Sony Xperia XZ2 и Xperia XZ2 Compact будут полностью рассекречены уже завтра19

Huawei подтвердила название нового флагманского смартфона. Опубликованы характеристики Huawei P20 Pro [Обновлено]: Анонс Huawei P20 ожидается 27 марта в Париже

iOS и Android занимают уже 99,9% рынка мобильных ОС: Смартфоны, работающие под управлением других операционных систем, резко сдали позиции за прошедший год39

iXBT TV

  • ИИ в опасности, 10 000-летние часы, Apple представляет "будущее сегодня"

  • Обзор сетевого накопителя Synology DS918+ на 4 винчестера

  • Обзор экшн-камеры Gmini MagicEye HDS8000 с ненастоящим 4K-видео

  • Обзор многофункционального сетевого CD-ресивера Pioneer NC-50DAB

  • Обзор блока питания Thermaltake Toughpower iRGB Plus 1250W Titanium с программно-аппаратным комплексом мониторинга

  • [6.07] Подкаст PRO игры: cтрасти вокруг Kingdom Come: Deliverance, вымирание слэшеров, русский колорит

  • Обзор компактной фотокамеры Sony RX10 IV с сенсором 1″ и несменным 25-кратным зум-объективом

  • Обзор карты памяти SanDisk Extreme Pro CFast 2.0 емкостью 128 ГБ

  • Обзор портретного объектива Fujinon XF 50mm f/2 R WR для компактных беззеркальных камер Fujifilm

  • Запуск Falcon Heavy, убытки Илона Маска, умные очки Intel

  • Обзор недорогого корпуса Deepcool Earlkase RGB со стеклянной стенкой и RGB-подсветкой

  • Обзор кинокамеры Canon EOS C200: съемка 4K-видео с высокой частотой кадров в формате Cinema RAW Light

Календарь

декабрь
Пн
Вт
Ср
Чт
Пт
Сб
Вс