ABBYY анонсирует новую версию SDK для распознавания документов, обработки форм и преобразования PDF-файлов

ПредыдущаяСледующая
1174

В ноябре 2005 года компания ABBYY планирует выпустить инструментарий для разработчиков (SDK) — ABBYY FineReader Engine 8.0 для Windows. Этот SDK содержит все имеющиеся технологии распознавания, разработанные компанией ABBYY к настоящему моменту: распознавание печатных текстов (OCR – Optical Character Recognition), текстов, написанных от руки (ICR – Intelligent Character Recognition), меток (OMR – Optical Mark Recognition), одномерных и двумерных штрих-кодов, обработка PDF-файлов, извлечение данных с форм (FormReader) и неструктурированных документов (FlexiCapture). Все функции распознавания и сбора данных из документов, форм и PDF-файлов, доступны через единый универсальный API (Application Programming Interface).

В новой версии продукта будут улучшены возможности полнотекстового распознавания документов, впервые появится полный набор функций, рассчитанный для распознавания текста на уровне отдельных полей. Перечисленные возможности широко востребованы при автоматизации таких задач как классификация и индексирование документов, извлечение из документов набора атрибутов с применением интеллектуальных алгоритмов анализа информации. Подобные задачи встречаются при обработке паспортов, потоковом вводе финансовых документов, договоров и т.д. Данные возможности в сочетании с улучшенными функциями преобразования PDF-файлов делают ABBYY FineReader Engine 8.0 удобным и эффективным средством для построения решений и программ по вводу документов и сбору данных.

ABBYY FineReader Engine 8.0 распознаёт печатный текст (OCR) на 189 языках, поля, заполненные печатными буквами от руки (ICR) — на 91 языке. В новой версии продукта впервые реализована возможность низкоуровневого управления процессом распознавания, а именно возможность настройки на необходимую точность путём влияния на выбор гипотез, сформированных в процессе распознавания.

Новая версия будет поставляться в комплекте с примерами кода, демонстрирующими, как наиболее эффективно использовать ABBYY FineReader Engine в различных типовых сценариях работы. Такими сценариями являются, например, «преобразование в PDF-файл с возможностью поиска», «распознавание на уровне полей», «архивирование с сохранением изображений и индексацией», «полнотекстовое преобразование в RTF», «полнотекстовое преобразование в HTML» и др. Каждый пример представляет собой небольшую программу, которую можно скомпилировать и изучить, как она работает. Приведены описания оптимальных параметров, в комплекте даны типовые изображения и данные по скорости работы и качеству распознавания. Разработчики смогут пользоваться примерами в качестве шаблонов при создании своих собственных программ и решений.

Кроме того, в новой версии появилась функция диагностики, которая позволяет отследить все вызовы функций ABBYY FineReader Engine и измерить скорость их работы.

Новые возможности ABBYY FineReader Engine 8.0:

Улучшение базовых технологий распознавания

  • Повышена точность распознавания печатных символов. ABBYY FineReader Engine 8.0 демонстрирует значительное повышение точности распознавания трудночитаемых документов. Точность распознавания факсов и документов, отсканированных с низким разрешением, повышена на 30%.
  • Ускорение распознавания полей, заполненных печатными буквами от руки. В новую версию продукта добавлен «быстрый» режим ICR. В этом режиме поля распознаются в 2-2,5 раза быстрее, чем в нормальном режиме.
  • Адаптивная обработка изображений документов, снятых цифровым фотоаппаратом. С помощью автоматического механизма компенсирования искажений, типичных для цифровой фотосъёмки, удалось на 40% повысить точность распознавания сфотографированных документов.

Улучшен режим распознавания отдельных полей документа

ABBYY FineReader Engine 8.0 обладает рядом функций для повышения точности при распознавании отдельных полей документов. Эти функции, использующие технологии OCR, ICR, OMR и распознавания штрих-кодов, будут особенно полезны при построении на базе ABBYY FineReader Engine контрольных систем (проверка паспортов, водительских прав, складской номенклатуры и т.д.), систем потокового ввода, систем индексирования документов и сбора данных.

  • Улучшено извлечение данных из полей с различными границами и рамками, в том числе буквы в рамках, буквы в гребенке, текст по линии, и даже неровно заполненных полей, данные в которых выходят за границы поля.
  • Определение пробелов на поле увеличивает точность распознавания текста в полях, где может находиться как одно слово, так и словосочетание. В новой системе словари для проверки данных, используемые при распознавании, могут содержать не только слова, но и словосочетания.
  • Интеллектуальная обработка слов и символов, принадлежащих более чем одному блоку. Система корректно распознаёт текст даже в тех случаях, когда некоторые символы, слова или их части оказались в двух и большем количестве текстовых блоков одновременно. В таком случае слова или символы будут включены в результат распознавания того блока, к контексту которого они подходят лучше всего.
  • Очистка изображения. Реализована очистка текстовых блоков; при очистке предусмотрена возможность указывать размер чёрных и белых фракций «мусора».
  • Динамическая настройка в процессе распознавания. В новой версии продукта предусмотрен механизм воздействия на список гипотез непосредственно в процессе распознавания. Он позволяет выборочно увеличивать весовые коэффициенты гипотез и, таким образом, влиять на результат процесса распознавания.

Усовершенствованы механизмы обработки PDF-файлов

ABBYY FineReader Engine 8.0 обрабатывает PDF-файлы точнее и быстрее предыдущих версий. Также в новой версии существенно пополнился список возможностей. Теперь на базе продукта можно более полно решать задачи преобразования: PDF-файлов -- в файлы других форматов, отсканированных или отснятых цифровой камерой изображений -- в PDF-файлы с текстовым слоем. Текстовый слой может быть использован при построении индекса для последующего поиска файла в хранилище.

  • Импорт
    • >Распознавание стало точнее и почти вдвое быстрее. При обработке PDF-файлов новая версия ABBYY FineReader Engine определяет наличие текстового слоя и его целостность. Эта информация сопоставляется с данными из служебных полей PDF-файла (аннотации, метаданные, текстовые объекты, подключенные шрифты, контент-потоки). В итоге относительно каждого текстового блока принимается решение: использовать ли текст, извлечённый из соответствующего слоя, или распознавать блок. Решение для каждого блока принимается независимо. Подобный подход обеспечивает значительно более быстрое и качественное преобразование PDF-файлов.
    • Распознавание внутренних и внешних ссылок. Система распознаёт и воспроизводит гиперссылки, как внутренние (например, оглавление PDF-документа), так и внешние, на интернет-ресурсы.
  • Экспорт
    • Поддержка алгоритмов шифрования и других средств разграничения доступа. ABBYY FineReader Engine 8.0 позволяет сохранять результаты распознавания в виде PDF–файла, защищённого паролем. Пароль может быть установлен как на открытие файла, так и на прочие действия с документом (печать, извлечение содержимого, возможность редактирования, внесение комментариев, добавление/удаление страниц и др.). При этом можно выбрать разные уровни шифрования с длиной ключа 40 или 128 бит и с использованием как стандартного алгоритма шифрования RC4, так и нового алгоритма стандарта AES (Advanced Encrypting Standard).
    • Генерация тегов. Восьмая версия системы способна создавать PDF-документы с тегами, обеспечивающими удобство просмотра на экранах любого размера, в частности, на экранах карманных компьютеров.
    • Экспорт метаданных. Расширена возможность сохранения в создаваемых PDF-файлах различных метаданных: закладок, гиперссылок, кросс-ссылок и т.п.

Новый режим анализа документа

В ABBYY FineReader Engine 8.0 появился режим анализ документа для полнотекстового индексирования, в котором на странице автоматически находится и распознаётся вся текстовая информация, в том числе и та, что находится внутри картинок, графиков, диаграмм и т.п. Для построения качественного полнотекстового индекса извлечение всей текстовой информации с документа является крайне важным.

Ввод данных из документов и форм

Новая версия ABBYY FineReader Engine обеспечивает ввод данных из документов, которые могут являться как структурированными (с фиксированным расположением полей на листе), так и гибкими формами (с произвольным расположением полей). Это достигнуто за счёт включения в ABBYY FineReader Engine 8.0 основы программы ввода форм ABBYY FormReader 6.5 и специального инструментария для обработки гибких форм — ABBYY FlexiCapture Studio 1.5. Таким образом, разработчики имеют возможность реализовать функции ввода документов, как печатных, так и заполненных от руки отдельными буквами. В числе новых возможностей, появившихся благодаря ABBYY FlexiCapture Studio 1.5:

  • Поддержка элементов типа «таблица». Обеспечивает корректное распознавание документов, содержащих таблицы, быструю и точную обработку табличных полей. Эта функция особенно эффективна при распознавании счетов, накладных, других первичных документов и финансовой документации.
  • Новые специализированные элементы. Добавлены специализированные типы цифровых элементов, "Phone" и"Currency". Они позволяют повысить качество распознавания за счёт более полного и точного описания формата таких данных как телефоны, а также суммы, выраженные в различной валюте.
  • Фильтрация фона. Усовершенствованная технология предварительной обработки изображения повышает общую точность распознавания за счёт качественного удаления фона и текстур.
  • Предварительное распознавание многоязычных документов. Добавлена возможность предварительного распознавания многоязычных (англо-итальянских, русско-немецких и т.п.) документов.

Набор профилей настроек

В новую версию включены наборы предопределенных параметров ABBYY FineReader Engine (профили), которые рекомендованы для наиболее популярных типовых применений: преобразование в PDF-файл с возможностью поиска, распознавание на уровне полей, архивирование с обработкой изображений и индексацией, полнотекстовое преобразование в RTF и HTML и др. Эти профили помогают путём вызова одной функции установить такие настройки всех важных стадий (от предварительной обработки изображения до экспорта распознанного текста), которые позволяют добиться оптимального соотношения скорости и качества.

Поддерживаемые входные и выходные форматы

ABBYY FineReader Engine поддерживает открытие изображений во всех распространённых форматах: BMP, PCX, DCX, JPEG, JPEG 2000, PNG, TIFF, а также PDF. В восьмой версии добавлена возможность открытия файлов популярных графических форматов GIF и DjVu.

Сохранение документов возможно в форматах DOC, RTF, PDF, HTML, PPT, TXT, XLS, DBF, XML.

Цены и условия поставки

ABBYY FineReader Engine поставляется в виде набора динамически подключаемых библиотек (DLL). Интерфейс прикладного программирования (API) ABBYY FineReader Engine поддерживает стандарт COM (Component Object Model) и позволяет создавать приложения в средах разработки C/C++, Visual Basic, Visual Studio.Net и любых других, поддерживающих COM-компоненты.

Продажи продукта начнутся в ноябре 2005 года. Информацию о стоимости и условиях лицензирования, а также дополнительную техническую информацию можно получить в ближайшем офисе ABBYY.

21 октября 2005 Г.

11:30

Ctrl
ПредыдущаяСледующая

Все новости за сегодня

Корпоративный рынок обучающих решений VR за пять лет вырастет почти в 30 раз: Компании всё чаще будут использовать VR для обучения персонала

Фотография смартфона Xiaomi Redmi Note 5 позволяет узнать почти все параметры устройства : Xiaomi Redmi Note 5 получит SoC Snapdragon 6252

Видео дня: разгон грузовика Tesla Semi: На видео засняли разгон Tesla Semi16

Samsung останется новым лидером полупроводникового рынка и по итогам всего года: Samsung обойдёт Intel на полупроводниковом рынке на 4,6 млрд долларов4

Появилось первое изображение смартфона Honor V10: Спереди смартфон Honor V10 будет похож на Mate 10 Lite и Honor 7X7

Специалисты Apple разработали программное решение VoxelNet для улучшения работы лидаров у беспилотных авто: Специалисты Apple опубликовали статью, касающуюся технологий беспилотных авто4

Эпоха доминирования Apple закончилась. OnePlus 5T существенно опережает iPhone X в скорости запуска приложений: OnePlus 5T оказался быстрее iPhone X70

В следующем году смартфоны iPhone могут получить поддержку двух карт SIM: Смартфоны iPhone 2018 года будут поддерживать две карты SIM36

MSI Optix MAG24C — не самый типичный игровой монитор с изогнутой панелью : Монитор MSI Optix MAG24C имеет кадровую частоту до 144 Гц

Все смартфоны с ОС Android отправляют Google данные о своём местоположении, даже когда соответствующая функция отключена: Смартфоны с Android незаконно собирают данные о местоположении пользователей55

Смартфон Wileyfox Pro — слабая аппаратная начинка, широкие рамки дисплея и умирающая ОС Windows 10 Mobile: Цена устройства составит около 250 долларов27

Смартфон BlackBerry KeyTwo с 6 ГБ ОЗУ замечен в GeekBench: Все указывает на то, что это преемник BlackBerry Keyone

Uber заплатила хакерам $100 тыс., чтобы скрыть факт кражи данных 50 млн пользователей: Инцидент произошел в октябре прошлого года7

Ноутбук Asus ROG Strix GL702ZC, оснащенный CPU AMD Ryzen 7 1700 и GPU AMD Radeon RX 580, оценен в $1500: Asus ROG Strix GL702ZC можно заказать в США и в Великобритании16

Ноутбук Microsoft Surface Book 2 в играх разряжается, даже будучи подключенным к розетке: Ноутбук Microsoft Surface Book 2 не подходит в качестве геймерского решения25

Apple купила компанию Vrvana, которая специализируется на технологиях дополненной реальности: Технологии Vrvana могут быть использованы Apple при создании своей собственной гарнитуры или очков дополненной реальности5

Смартфон Xiaomi Mi Mix 3 может получить два экрана, один из которых будет занимать всю лицевую панель: Прототип, определенно, заслуживает внимания13

Xiaomi перестанет обновлять прошивки шести моделей смартфонов: Xiaomi «снимет с довольствования» модели Mi 2/2S, Mi 4i, Redmi Note 4G, Redmi 2, Redmi 2 Prime и Mi Note8

Foxconn снова использовала детский труд для сборки смартфонов Apple: В сборке iPhone X на фабрике Foxconn участвовало 3000 школьников143

Показатели Compal, Foxconn и Inventec будут расти благодаря спросу на умные АС: Inventec уже заявила, что планирует прекратить принимать заказы на производство товаров с низкой маржой

Дизайн смартфона Samsung Galaxy S9 раскрыл производитель чехлов: Первое изображение чехла для Samsung Galaxy S9 указывает на наличие разъёма для наушников6

Samsung улучшит работу сканера радужной оболочки глаза и системы распознавания лиц, но лишь на уровне ПО: Samsung хочет улучшить работу своих биометрических систем идентификации19

В Корее началась программа Upgrade to Galaxy, которая позволяет желающим опробовать Galaxy S8 и Note 8: Плата за месячный тест-драйв составит 45 долларов4

Xiaomi открыла третью фабрику в Индии: В данный момент каждую минуту завод выпускает по 7 аккумуляторов

Meizu может отказаться от использования дополнительного дисплея в своих смартфонах: Кроме того, новинка должна получить дисплей с соотношением сторон 18:9 и узкими рамками вокруг экрана2

Чтобы купить Qualcomm компании Broadcom нужно увеличить своё предложение «всего» на 10 долларов за акцию: При цене в 80 долларов за акцию компания Qualcomm согласится на сделку с Broadcom

30 ноября Samsung Bixby получит поддержку третьего языка: О поддержке русского речь пока не идет

Adata XPG Storm — активная система охлаждения для SSD формата M.2, оснащённая вентилятором с огромной скоростью вращения: СО Adata XPG Storm получила вентилятор и подсветку RGB5

Сервер HPE ProLiant DL385 Gen10 с процессорами AMD Epyc установил два новых мировых рекорда: AMD хвастает достижениями серверов на базе её CPU Epyc3

997
1318

iXBT TV

  • Обзор материнской платы Z370 Aorus Gaming 7 под процессоры Coffee Lake

  • Обзор аккумуляторной дрели-шуруповерта Bosch GSR 12V-15 FC Professional

  • Заводские экзоскелеты, обновление Firefox, слишком умные наушники

  • Репортаж с конференции Supercomputing 2017 (SC17), день 3: стенд группы компаний РСК

  • Репортаж с конференции Supercomputing 2017 (SC17), день 2: стенд Intel

  • Репортаж с конференции Supercomputing 2017 (SC17), день 1: рейтинг Top500

  • Обзор кинотеатрального DLP-проектора LG PF1000U со встроенным ТВ-тюнером

  • Камера Panasonic G9, унитазный робот, игровой смартфон, кепка для водителей

  • Обзор портативной беспроводной колонки Sven PS-460

  • Обзор напольного пылесоса Tefal Silence Force 4A TW6477 с одноразовыми мешками для сбора мусора

  • Обзор сверхширокоугольного зум-объектива Canon EF 16-35mm f/2.8L III USM

  • Обзор изогнутого 34-дюймового IPS-монитора LG 34UC99 с соотношением сторон 21:9 и белым корпусом

1212

Календарь

октябрь
Пн
Вт
Ср
Чт
Пт
Сб
Вс
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

Рекомендуем почитать