В ноябре 2005 года компания ABBYY планирует выпустить инструментарий для разработчиков (SDK) — ABBYY FineReader Engine 8.0 для Windows. Этот SDK содержит все имеющиеся технологии распознавания, разработанные компанией ABBYY к настоящему моменту: распознавание печатных текстов (OCR – Optical Character Recognition), текстов, написанных от руки (ICR – Intelligent Character Recognition), меток (OMR – Optical Mark Recognition), одномерных и двумерных штрих-кодов, обработка PDF-файлов, извлечение данных с форм (FormReader) и неструктурированных документов (FlexiCapture). Все функции распознавания и сбора данных из документов, форм и PDF-файлов, доступны через единый универсальный API (Application Programming Interface).
В новой версии продукта будут улучшены возможности полнотекстового распознавания документов, впервые появится полный набор функций, рассчитанный для распознавания текста на уровне отдельных полей. Перечисленные возможности широко востребованы при автоматизации таких задач как классификация и индексирование документов, извлечение из документов набора атрибутов с применением интеллектуальных алгоритмов анализа информации. Подобные задачи встречаются при обработке паспортов, потоковом вводе финансовых документов, договоров и т.д. Данные возможности в сочетании с улучшенными функциями преобразования PDF-файлов делают ABBYY FineReader Engine 8.0 удобным и эффективным средством для построения решений и программ по вводу документов и сбору данных.
ABBYY FineReader Engine 8.0 распознаёт печатный текст (OCR) на 189 языках, поля, заполненные печатными буквами от руки (ICR) — на 91 языке. В новой версии продукта впервые реализована возможность низкоуровневого управления процессом распознавания, а именно возможность настройки на необходимую точность путём влияния на выбор гипотез, сформированных в процессе распознавания.
Новая версия будет поставляться в комплекте с примерами кода, демонстрирующими, как наиболее эффективно использовать ABBYY FineReader Engine в различных типовых сценариях работы. Такими сценариями являются, например, «преобразование в PDF-файл с возможностью поиска», «распознавание на уровне полей», «архивирование с сохранением изображений и индексацией», «полнотекстовое преобразование в RTF», «полнотекстовое преобразование в HTML» и др. Каждый пример представляет собой небольшую программу, которую можно скомпилировать и изучить, как она работает. Приведены описания оптимальных параметров, в комплекте даны типовые изображения и данные по скорости работы и качеству распознавания. Разработчики смогут пользоваться примерами в качестве шаблонов при создании своих собственных программ и решений.
Кроме того, в новой версии появилась функция диагностики, которая позволяет отследить все вызовы функций ABBYY FineReader Engine и измерить скорость их работы.
Новые возможности ABBYY FineReader Engine 8.0:
Улучшение базовых технологий распознавания
Улучшен режим распознавания отдельных полей документа
ABBYY FineReader Engine 8.0 обладает рядом функций для повышения точности при распознавании отдельных полей документов. Эти функции, использующие технологии OCR, ICR, OMR и распознавания штрих-кодов, будут особенно полезны при построении на базе ABBYY FineReader Engine контрольных систем (проверка паспортов, водительских прав, складской номенклатуры и т.д.), систем потокового ввода, систем индексирования документов и сбора данных.
Усовершенствованы механизмы обработки PDF-файлов
ABBYY FineReader Engine 8.0 обрабатывает PDF-файлы точнее и быстрее предыдущих версий. Также в новой версии существенно пополнился список возможностей. Теперь на базе продукта можно более полно решать задачи преобразования: PDF-файлов -- в файлы других форматов, отсканированных или отснятых цифровой камерой изображений -- в PDF-файлы с текстовым слоем. Текстовый слой может быть использован при построении индекса для последующего поиска файла в хранилище.
Новый режим анализа документа
В ABBYY FineReader Engine 8.0 появился режим анализ документа для полнотекстового индексирования, в котором на странице автоматически находится и распознаётся вся текстовая информация, в том числе и та, что находится внутри картинок, графиков, диаграмм и т.п. Для построения качественного полнотекстового индекса извлечение всей текстовой информации с документа является крайне важным.
Ввод данных из документов и форм
Новая версия ABBYY FineReader Engine обеспечивает ввод данных из документов, которые могут являться как структурированными (с фиксированным расположением полей на листе), так и гибкими формами (с произвольным расположением полей). Это достигнуто за счёт включения в ABBYY FineReader Engine 8.0 основы программы ввода форм ABBYY FormReader 6.5 и специального инструментария для обработки гибких форм — ABBYY FlexiCapture Studio 1.5. Таким образом, разработчики имеют возможность реализовать функции ввода документов, как печатных, так и заполненных от руки отдельными буквами. В числе новых возможностей, появившихся благодаря ABBYY FlexiCapture Studio 1.5:
Набор профилей настроек
В новую версию включены наборы предопределенных параметров ABBYY FineReader Engine (профили), которые рекомендованы для наиболее популярных типовых применений: преобразование в PDF-файл с возможностью поиска, распознавание на уровне полей, архивирование с обработкой изображений и индексацией, полнотекстовое преобразование в RTF и HTML и др. Эти профили помогают путём вызова одной функции установить такие настройки всех важных стадий (от предварительной обработки изображения до экспорта распознанного текста), которые позволяют добиться оптимального соотношения скорости и качества.
Поддерживаемые входные и выходные форматы
ABBYY FineReader Engine поддерживает открытие изображений во всех распространённых форматах: BMP, PCX, DCX, JPEG, JPEG 2000, PNG, TIFF, а также PDF. В восьмой версии добавлена возможность открытия файлов популярных графических форматов GIF и DjVu.
Сохранение документов возможно в форматах DOC, RTF, PDF, HTML, PPT, TXT, XLS, DBF, XML.
Цены и условия поставки
ABBYY FineReader Engine поставляется в виде набора динамически подключаемых библиотек (DLL). Интерфейс прикладного программирования (API) ABBYY FineReader Engine поддерживает стандарт COM (Component Object Model) и позволяет создавать приложения в средах разработки C/C++, Visual Basic, Visual Studio.Net и любых других, поддерживающих COM-компоненты.
Продажи продукта начнутся в ноябре 2005 года. Информацию о стоимости и условиях лицензирования, а также дополнительную техническую информацию можно получить в ближайшем офисе ABBYY.