ABBYY анонсирует новую версию SDK для распознавания документов, обработки форм и преобразования PDF-файлов

1174

В ноябре 2005 года компания ABBYY планирует выпустить инструментарий для разработчиков (SDK) — ABBYY FineReader Engine 8.0 для Windows. Этот SDK содержит все имеющиеся технологии распознавания, разработанные компанией ABBYY к настоящему моменту: распознавание печатных текстов (OCR – Optical Character Recognition), текстов, написанных от руки (ICR – Intelligent Character Recognition), меток (OMR – Optical Mark Recognition), одномерных и двумерных штрих-кодов, обработка PDF-файлов, извлечение данных с форм (FormReader) и неструктурированных документов (FlexiCapture). Все функции распознавания и сбора данных из документов, форм и PDF-файлов, доступны через единый универсальный API (Application Programming Interface).

В новой версии продукта будут улучшены возможности полнотекстового распознавания документов, впервые появится полный набор функций, рассчитанный для распознавания текста на уровне отдельных полей. Перечисленные возможности широко востребованы при автоматизации таких задач как классификация и индексирование документов, извлечение из документов набора атрибутов с применением интеллектуальных алгоритмов анализа информации. Подобные задачи встречаются при обработке паспортов, потоковом вводе финансовых документов, договоров и т.д. Данные возможности в сочетании с улучшенными функциями преобразования PDF-файлов делают ABBYY FineReader Engine 8.0 удобным и эффективным средством для построения решений и программ по вводу документов и сбору данных.

ABBYY FineReader Engine 8.0 распознаёт печатный текст (OCR) на 189 языках, поля, заполненные печатными буквами от руки (ICR) — на 91 языке. В новой версии продукта впервые реализована возможность низкоуровневого управления процессом распознавания, а именно возможность настройки на необходимую точность путём влияния на выбор гипотез, сформированных в процессе распознавания.

Новая версия будет поставляться в комплекте с примерами кода, демонстрирующими, как наиболее эффективно использовать ABBYY FineReader Engine в различных типовых сценариях работы. Такими сценариями являются, например, «преобразование в PDF-файл с возможностью поиска», «распознавание на уровне полей», «архивирование с сохранением изображений и индексацией», «полнотекстовое преобразование в RTF», «полнотекстовое преобразование в HTML» и др. Каждый пример представляет собой небольшую программу, которую можно скомпилировать и изучить, как она работает. Приведены описания оптимальных параметров, в комплекте даны типовые изображения и данные по скорости работы и качеству распознавания. Разработчики смогут пользоваться примерами в качестве шаблонов при создании своих собственных программ и решений.

Кроме того, в новой версии появилась функция диагностики, которая позволяет отследить все вызовы функций ABBYY FineReader Engine и измерить скорость их работы.

Новые возможности ABBYY FineReader Engine 8.0:

Улучшение базовых технологий распознавания

  • Повышена точность распознавания печатных символов. ABBYY FineReader Engine 8.0 демонстрирует значительное повышение точности распознавания трудночитаемых документов. Точность распознавания факсов и документов, отсканированных с низким разрешением, повышена на 30%.
  • Ускорение распознавания полей, заполненных печатными буквами от руки. В новую версию продукта добавлен «быстрый» режим ICR. В этом режиме поля распознаются в 2-2,5 раза быстрее, чем в нормальном режиме.
  • Адаптивная обработка изображений документов, снятых цифровым фотоаппаратом. С помощью автоматического механизма компенсирования искажений, типичных для цифровой фотосъёмки, удалось на 40% повысить точность распознавания сфотографированных документов.

Улучшен режим распознавания отдельных полей документа

ABBYY FineReader Engine 8.0 обладает рядом функций для повышения точности при распознавании отдельных полей документов. Эти функции, использующие технологии OCR, ICR, OMR и распознавания штрих-кодов, будут особенно полезны при построении на базе ABBYY FineReader Engine контрольных систем (проверка паспортов, водительских прав, складской номенклатуры и т.д.), систем потокового ввода, систем индексирования документов и сбора данных.

  • Улучшено извлечение данных из полей с различными границами и рамками, в том числе буквы в рамках, буквы в гребенке, текст по линии, и даже неровно заполненных полей, данные в которых выходят за границы поля.
  • Определение пробелов на поле увеличивает точность распознавания текста в полях, где может находиться как одно слово, так и словосочетание. В новой системе словари для проверки данных, используемые при распознавании, могут содержать не только слова, но и словосочетания.
  • Интеллектуальная обработка слов и символов, принадлежащих более чем одному блоку. Система корректно распознаёт текст даже в тех случаях, когда некоторые символы, слова или их части оказались в двух и большем количестве текстовых блоков одновременно. В таком случае слова или символы будут включены в результат распознавания того блока, к контексту которого они подходят лучше всего.
  • Очистка изображения. Реализована очистка текстовых блоков; при очистке предусмотрена возможность указывать размер чёрных и белых фракций «мусора».
  • Динамическая настройка в процессе распознавания. В новой версии продукта предусмотрен механизм воздействия на список гипотез непосредственно в процессе распознавания. Он позволяет выборочно увеличивать весовые коэффициенты гипотез и, таким образом, влиять на результат процесса распознавания.

Усовершенствованы механизмы обработки PDF-файлов

ABBYY FineReader Engine 8.0 обрабатывает PDF-файлы точнее и быстрее предыдущих версий. Также в новой версии существенно пополнился список возможностей. Теперь на базе продукта можно более полно решать задачи преобразования: PDF-файлов -- в файлы других форматов, отсканированных или отснятых цифровой камерой изображений -- в PDF-файлы с текстовым слоем. Текстовый слой может быть использован при построении индекса для последующего поиска файла в хранилище.

  • Импорт
    • >Распознавание стало точнее и почти вдвое быстрее. При обработке PDF-файлов новая версия ABBYY FineReader Engine определяет наличие текстового слоя и его целостность. Эта информация сопоставляется с данными из служебных полей PDF-файла (аннотации, метаданные, текстовые объекты, подключенные шрифты, контент-потоки). В итоге относительно каждого текстового блока принимается решение: использовать ли текст, извлечённый из соответствующего слоя, или распознавать блок. Решение для каждого блока принимается независимо. Подобный подход обеспечивает значительно более быстрое и качественное преобразование PDF-файлов.
    • Распознавание внутренних и внешних ссылок. Система распознаёт и воспроизводит гиперссылки, как внутренние (например, оглавление PDF-документа), так и внешние, на интернет-ресурсы.
  • Экспорт
    • Поддержка алгоритмов шифрования и других средств разграничения доступа. ABBYY FineReader Engine 8.0 позволяет сохранять результаты распознавания в виде PDF–файла, защищённого паролем. Пароль может быть установлен как на открытие файла, так и на прочие действия с документом (печать, извлечение содержимого, возможность редактирования, внесение комментариев, добавление/удаление страниц и др.). При этом можно выбрать разные уровни шифрования с длиной ключа 40 или 128 бит и с использованием как стандартного алгоритма шифрования RC4, так и нового алгоритма стандарта AES (Advanced Encrypting Standard).
    • Генерация тегов. Восьмая версия системы способна создавать PDF-документы с тегами, обеспечивающими удобство просмотра на экранах любого размера, в частности, на экранах карманных компьютеров.
    • Экспорт метаданных. Расширена возможность сохранения в создаваемых PDF-файлах различных метаданных: закладок, гиперссылок, кросс-ссылок и т.п.

Новый режим анализа документа

В ABBYY FineReader Engine 8.0 появился режим анализ документа для полнотекстового индексирования, в котором на странице автоматически находится и распознаётся вся текстовая информация, в том числе и та, что находится внутри картинок, графиков, диаграмм и т.п. Для построения качественного полнотекстового индекса извлечение всей текстовой информации с документа является крайне важным.

Ввод данных из документов и форм

Новая версия ABBYY FineReader Engine обеспечивает ввод данных из документов, которые могут являться как структурированными (с фиксированным расположением полей на листе), так и гибкими формами (с произвольным расположением полей). Это достигнуто за счёт включения в ABBYY FineReader Engine 8.0 основы программы ввода форм ABBYY FormReader 6.5 и специального инструментария для обработки гибких форм — ABBYY FlexiCapture Studio 1.5. Таким образом, разработчики имеют возможность реализовать функции ввода документов, как печатных, так и заполненных от руки отдельными буквами. В числе новых возможностей, появившихся благодаря ABBYY FlexiCapture Studio 1.5:

  • Поддержка элементов типа «таблица». Обеспечивает корректное распознавание документов, содержащих таблицы, быструю и точную обработку табличных полей. Эта функция особенно эффективна при распознавании счетов, накладных, других первичных документов и финансовой документации.
  • Новые специализированные элементы. Добавлены специализированные типы цифровых элементов, "Phone" и"Currency". Они позволяют повысить качество распознавания за счёт более полного и точного описания формата таких данных как телефоны, а также суммы, выраженные в различной валюте.
  • Фильтрация фона. Усовершенствованная технология предварительной обработки изображения повышает общую точность распознавания за счёт качественного удаления фона и текстур.
  • Предварительное распознавание многоязычных документов. Добавлена возможность предварительного распознавания многоязычных (англо-итальянских, русско-немецких и т.п.) документов.

Набор профилей настроек

В новую версию включены наборы предопределенных параметров ABBYY FineReader Engine (профили), которые рекомендованы для наиболее популярных типовых применений: преобразование в PDF-файл с возможностью поиска, распознавание на уровне полей, архивирование с обработкой изображений и индексацией, полнотекстовое преобразование в RTF и HTML и др. Эти профили помогают путём вызова одной функции установить такие настройки всех важных стадий (от предварительной обработки изображения до экспорта распознанного текста), которые позволяют добиться оптимального соотношения скорости и качества.

Поддерживаемые входные и выходные форматы

ABBYY FineReader Engine поддерживает открытие изображений во всех распространённых форматах: BMP, PCX, DCX, JPEG, JPEG 2000, PNG, TIFF, а также PDF. В восьмой версии добавлена возможность открытия файлов популярных графических форматов GIF и DjVu.

Сохранение документов возможно в форматах DOC, RTF, PDF, HTML, PPT, TXT, XLS, DBF, XML.

Цены и условия поставки

ABBYY FineReader Engine поставляется в виде набора динамически подключаемых библиотек (DLL). Интерфейс прикладного программирования (API) ABBYY FineReader Engine поддерживает стандарт COM (Component Object Model) и позволяет создавать приложения в средах разработки C/C++, Visual Basic, Visual Studio.Net и любых других, поддерживающих COM-компоненты.

Продажи продукта начнутся в ноябре 2005 года. Информацию о стоимости и условиях лицензирования, а также дополнительную техническую информацию можно получить в ближайшем офисе ABBYY.

21 октября 2005

11:30

Ctrl
ПредыдущаяСледующая

Все новости за сегодня

Поисковик Google теперь будет предоставлять короткие превью для видеороликов: Поисковая система Google сможет показывать превью-видео1

Смартфон HomTom S8 также копирует дизайн Samsung Galaxy S8: Цена устройства составит 190 долларов1

Процессоры Intel Core восьмого поколения не будут дороже актуальных CPU: Intel не поднимет цены на CPU при выходе Coffee Lake12

AMD пока не может гарантировать наличия в магазинах видеокарт Radeon RX Vega 64 по рекомендованным ценам: AMD призналась в дефиците карт Vega 9

Смартфон Xiaomi Redmi Note 5A первым в серии получит два выделенных слота для SIM-карт и слот для карты памяти: Одна из версий Xiaomi Redmi Note 5A получит фронтальную камеру разрешением 16 Мп со светодиодной вспышкой2

Hyundai сконцентрируется на электромобилях вместо машин на топливных элементах : Hyundai увеличит объёмы выпуска электромобилей1

Samsung Pay отмечает два года, сумма платежей составила $8,77 млрд: Samsung Pay в данный момент работает в 18 странах мира1

Samsung готовится к глобальному запуску Bixby: Персональный помощник по-прежнему недоступен во многих странах мира

Умные кроссовки Xiaomi Free Tie Leather оценены в $30: Кроссовки оснащены светодиодной подсветкой, процессором, а также модулем Bluetooth 4.06

Семейство 3D-карт Colorful iGame Vulcan X пополнили модели GTX 1080 Ti, GTX 1080, GTX 1070 и GTX 1060: Общей чертой этих 3D-карт является система охлаждения, в кожух которой встроен жидкокристаллический индикатор3

Конструкция компьютерного корпуса Thermaltake View 71 Tempered Glass Edition включает четыре панели из закаленного стекла: Цену новинки производитель не называет3

ВИКТОРИНА ASUSTOR

Процессор с какой архитектурой установлен в ASUSTOR AS6302T, благодаря которому производительно выросла на 30% по сравнению с прошлым поколением?
1318

iXBT TV

  • Обзор легкой, компактной и дешевой мясорубки Kitfort KT-2101 Carnivora

  • Обзор беззеркальной фотокамеры Fujifilm X-T20

  • Обзор кинотеатрального DLP-проектора BenQ W11000 с эмуляцией разрешения 4К

  • AMD Ryzen Threadripper 1920Х и 1950X — тестирование 12-ядерного и 16-ядерного процессоров

  • Обзор мини-ПК ECS Liva Z на базе процессора Apollo Lake

  • Самый лучший процессор, неудачи Microsoft, гибкие наушники Samsung

  • Обзор цветного МФУ Xerox VersaLink C405 для малых и средних офисов

  • Обзор умного чайника Redmond SkyKettle RK-G200S с подсветкой и нагревом воды до нужной температуры

  • Конфигурируем мини-ПК: изучаем влияние памяти и накопителя на быстродействие системы

  • 3D-карты AMD Radeon RX Vega, цены, спецификации, смартфон Meizu Pro 7

  • Обзор лазерного цветного МФУ Canon imageRunner Advance C3520i, младшего в новой линейке

  • Обзор робота-пылесоса iBoto Aqua V710 с функцией влажной уборки

1212

Календарь

октябрь
Пн
Вт
Ср
Чт
Пт
Сб
Вс
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

Рекомендуем почитать