Обзор Abbyy FineReader 12 Professional


История Abbyy FineReader насчитывает уже более 20 лет. Юбилейный 2013 г. компания отметила выпуском полновесного (по сравнению с Express Edition от 2009 г.) Abbyy FineReader Pro для Mac, а через пару месяцев, в феврале 2014 г., свой «подарок» получили и пользователи Windows — Abbyy FineReader 12 Professional и Corporate. Напомню, что предыдущая версия появилась еще в 2011 г., а два с половиной года срок немалый — давайте разбираться, насколько существенны изменения.

Общая информация

Системные требования для новой версии совершенно не изменились. Платформой может служить Windows или Windows Server начиная от XP и 2003 соответственно. Аппаратные запросы по нынешним временам и подавно скромны: процессор любой разрядности с частотой от 1 ГГц, оперативной памяти не менее 1 ГБ плюс по 512 МБ на каждое вычислительное ядро и т. п. Несколько увеличилась только потребность в дисковом пространстве — теперь для установки требуется не 700, а 850 МБ (плюс, по-прежнему, еще 700 МБ для рабочих файлов).

Естественно, речь идет о минимальных требованиях; полностью возможности Abbyy FineReader 12 Professional раскроются только на сравнительно современных системах. В частности, напомню, что программа умеет эффективно распараллеливать обработку отдельных страниц, задействует при этом все процессорные ядра и загружает любой процессор почти на 100%. А вот к оперативной памяти она действительно не жадная, и даже остается 32-разрядной.

Abbyy FineReader 12

Не претерпела изменений и процедура установки: минимум вопросов и опций. В комплекте с Abbyy FineReader 12 Professional по-прежнему идет Abbyy Screenshot Reader, который становится работоспособным только после регистрации пользователя.

Abbyy FineReader 12

После этого также откроется доступ к техподдержке.

Abbyy FineReader 12

Даже на основе этой скромной информации можно предположить, что перед нами результат эволюции. Соответственно, в дальнейшем я сосредоточусь на описании изменений по сравнению с предыдущей версией, которые условно можно разделить на две основные группы: работа с программой (интерфейс, вспомогательные инструменты, удобство использования) и OCR (качество и производительность собственно распознавания).

Работа с программой

Abbyy FineReader 12 Professional демонстрирует некоторые доработки в части пользовательского интерфейса. Это сразу же заметно на окне Задачи, которое по умолчанию открывается при запуске программы. Оно, очевидно, имитирует концепцию плиток Windows 8.x и адаптировано для управления пальцами, тем более, что в программе также поддерживаются и основные жесты вроде прокрутки и масштабирования. На деле же, изменения коснулись только «фасада», да и то отчасти — рядом с плитками соседствуют обычные элементы управления и в процессе настройки любого сценария придется иметь дело со стандартными диалоговыми окнами. Работать с ними пальцами довольно проблематично, особенно на экранах 8-10″, которые становятся популярными у Windows-планшетов.

Abbyy FineReader 12

Представить же, что пользователь такого планшета, оснащенного камерой, может захотеть быстро «на ходу» ввести какой-то печатный документ, действительно несложно. Между тем вся история Windows, начиная с первой редакции Tablet PC, подтверждает бессмысленность адаптации к сенсорному управлению стандартного настольного интерфейса. По-видимому, для этих целей гораздо правильнее создавать специальную оболочку, соответствующую всем канонам Metro, но использующую тот же «движок». Примером подобного решения служит Internet Explorer из Windows 8.x. К тому же, у Abbyy даже имеется некий задел в виде Abbyy FineReader Touch для Windows 8, который использует облачный сервис компании.

Если же отвлечься от сенсорного ввода, то найдутся еще изменения данного класса — от вполне ожидаемого обновления окон открытия/сохранения документов, которые, среди прочего, обеспечивают простой доступ к облачным хранилищам (при наличии в системе соответствующего агента и его папки), до нескольких более важных и полезных.

Abbyy FineReader 12

Обработка страниц в Abbyy FineReader 12 Professional теперь выполняется в фоновом режиме. Это подразумевает отсутствие прежнего модального окна со статусом операций (теперь данную роль играет строка статуса внизу экрана) и, соответственно, наличие доступа к интерфейсу. Таким образом пользователь имеет возможность работать с программой параллельно процессу распознавания (если он, конечно достаточно длительный), к примеру, копировать фрагменты полученного текста или даже корректировать разметку страниц — последние при этом будут поставлены в очередь и обработаны заново.

Abbyy FineReader 12

В отличие от прежней версии, также не происходит перелистывания страниц по мере распознавания или при начальной загрузке документа, если автоматическое распознавание отключено. В Abbyy FineReader 12 Professional документ загружается и разбивается на страницы практически мгновенно, а их эскизы строятся только по мере ручного пролистывания в левой панели. Кроме всего прочего, тем самым экономятся вычислительные ресурсы, причем, довольно ощутимо на больших многостраничных документах.

Остальные изменения данного класса не столь интересны, хотя и могут пригодиться в каких-то сценариях, поэтому о них кратко.

Если нужно не обработать документ целиком, а лишь процитировать отдельные места, то можно отключить все автоматические операции и выбирать необходимые фрагменты любых типов, сразу же копируя их в буфер обмена — при этом анализ и распознавание будут выполняться на лету.

Abbyy FineReader 12

В окне Проверка добавились инструменты для простого форматирования текста и вставки специальных символов, набор которых с клавиатуры может быть неочевидным.

Abbyy FineReader 12

Для получения результата с более простой структурой, чем у оригинала, можно отключать воссоздание колонтитулов, сносок и других элементов макета. Это может пригодиться, к примеру, при подготовке электронных книг.

Abbyy FineReader 12

Продолжая об электронных книгах — в Abbyy FineReader 12 Professional поддерживаются форматы EPUB 2.0.1 и 3.0.

Abbyy FineReader 12

Расширены параметры преобразования в XLSX, к примеру, появилась возможность очищать форматирование или сохранять картинки.

Abbyy FineReader 12

При сохранении результирующих документов в PDF с текстовым слоем теперь можно воспользоваться новой технологией Abbyy Precise Scan, которая заключается в сглаживании символов на оригинальных изображениях страниц. Доступна она, кстати, только в цветном режиме.

Abbyy FineReader 12

Эффект от ее работы достаточно заметен, хотя и не всегда, скажем так, «академичен». Впрочем, читабельность сглаженных символов в любом случае должна быть выше, а в данном примере оригинал действительно очень низкого качества.

Abbyy FineReader 12

Abbyy FineReader 12

OCR

Теперь давайте разберемся, какие улучшения произошли в механизмах собственно распознавания.

Разработчики сообщают об очередном этапе совершенствования технологии ADRT, которая, напомню, анализирует и воссоздает логическую структуру документа. Декларируется, что она стала работать гораздо точнее, особенно с таблицами, списками, диаграммами. Продемонстрировать это адекватными примерами не так просто, но не невозможно. Вот, к примеру, результаты распознавания (с настройками по умолчанию) одной и той же страницы в Abbyy FineReader 11 Professional (вверху) и Abbyy FineReader 12 Professional (внизу).

Abbyy FineReader 12

Abbyy FineReader 12

Старая версия выделила и обработала только основной текстовый блок, возможно, из-за низкого качества оригинала сочтя остальные элементы «мусором». Новая, напротив, корректно опознала список и попыталась его воссоздать. Результат, правда, не идеален: то что распознаны не все маркеры можно, опять же, отнести на качество изображения, но программа, по-видимому, все же не поняла, что перед ней содержание, иначе не интерпретировала бы цифры как буквы. Тем не менее, прогресс налицо и на более качественных оригиналах подобных претензий, возможно, не было бы.

А вот как обрабатывается «неявная» таблица без разделительных линий — Abbyy FineReader 11 Professional (вверху) и Abbyy FineReader 12 Professional (внизу).

Abbyy FineReader 12

Abbyy FineReader 12

Хорошо видно, что старая версия, в отличие от новой, вообще не увидела здесь табличной структуры и ограничилась набором несвязанных между собой текстовых блоков. Не поленитесь щелкнуть на изображениях и сравнить результаты распознавания — у Abbyy FineReader 12 Professional он близок к идеалу.

К сожалению, так происходит не всегда и уже на соседних страницах Abbyy FineReader 12 Professional показал результаты, аналогичные Abbyy FineReader 11 Professional. Хотя именно ADRT должна была бы отследить одинаковые «шапки» и понять, что перед ней своеобразная перетекающая таблица.

Abbyy FineReader 12

Но все равно хорошо заметно, что обновленные алгоритмы обращают внимание на большее количество деталей чем ранее. В процессе тестирования Abbyy FineReader 12 Professional наблюдалась, к примеру, даже попытка интерпретировать как таблицу картинку с упорядоченным размещением на нем текстовой информации. Гораздо чаще также новая версия пытается воссоздавать различные диаграммы и схемы на основе фонового рисунка, а не из отдельных графических и текстовых блоков.

Есть еще несколько новинок, призванных повысить в Abbyy FineReader 12 Professional качество распознавания. Как известно, одной из предпосылок для этого является качество оригинала, особенно если он получен с помощью не сканера, а фотокамеры. Именно поэтому в свое время в FineReader появились средства предварительной обработки оригиналов. В новой версии их список расширен, добавились обрезка по краям страниц, осветление и выравнивание яркости фона, удаление цветных элементов. Последнее может пригодиться, к примеру, для обработки документов с печатями и штампами. Кроме того, теперь пользователь может подключать различные методы индивидуально.

Abbyy FineReader 12

Улучшена также языковая поддержка. Во-первых, появился русский алфавит с ударениями, во-вторых, декларируется повышение качества распознавания китайского, японского и корейского (до 20%), арабского (до 60%), иврита (до 10%) — достигнуто это, по-видимому, за счет совершенствования и дополнительной тренировки классификаторов.

Abbyy FineReader 12

Ну и наконец, один из наиболее животрепещущих вопросов для многих читателей: выросла ли скорость работы программы? Аргументированно ответить на этот вопрос, тем более с цифрами, не так-то просто — слишком много языков, каждый из которых имеет свои нюансы; слишком велико разнообразие оригиналов; слишком много неизвестных нам факторов влияния на работу алгоритмов. Поэтому даже сами разработчики достаточно сдержанно говорят о росте производительности Abbyy FineReader 12 Professional на 10-15%.

Подобные цифры обычно получаются по результатам обработки достаточно больших массивов документов и, соответственно, представляют собой нечто вроде «средней температуры по больнице». Поэтому полезно подробнее изучить какие-нибудь показательные частные случаи, к примеру, подобные двум следующим:

  • отсканированные в цвете с разрешением 300 dpi 10 страниц полноцветного буклета формата A4. Качество хорошее, языки русский и английский, макет сложный;
  • PDF с графическими изображениями 138 страниц книги, содержащей небольшое количество цветных и черно-белых иллюстраций, несколько таблиц. Качество низкое (начиная, по-видимому, со «слепой» печати в бумажной книге), языки украинский и русский, макет простой.

Оба документа распознавались в цветном режиме, а второй также и в черно-белом, что имело целью имитировать процесс подготовки электронной книги. Все настройки по умолчанию оставлялись без изменений, за исключением набора языков и, соответственно, режимов работы. В качестве тестового полигона использовался ПК с процессором i5-3450 и 8 ГБ памяти. Результаты представлены в следующей таблице:

ДокументFineReader 11 ProfessionalFineReader 12 Professional
Первый прогонПовторные прогоныПервый прогонПовторные прогоны
Буклет0:150:110:130:09
PDF-книга (цветной режим)2:302:052:051:40
PDF-книга (ч/б режим)2:091:451:401:20

Как видно, для PDF ускорение даже превышает обещанные 15% — возможно, это как раз один из особых случаев, хорошо подходящих для последних оптимизаций в алгоритмах распознавания. При этом надо иметь в виду, что программы, вообще говоря, проделали разный объем работы. Взгляните хотя бы на иллюстрации выше к обработке таблиц — трудно сказать, какой из версий пришлось сложнее.

Что касается количества ошибок, то оно у обеих версий практически совпадало, хотя было заметно, что иногда сомнения вызывают разные фрагменты и символы — это, по-видимому, является свидетельством тренировки алгоритмов. В любом случае, большинство неуверенно распознанных символов абсолютно корректно идентифицировалось с помощью словарей, а «грубые» ошибки (некорректная интерпретация специальных и декоративных символов, текста на графике и пр.) совпадали. Так что разницу и вовсе можно считать исчезающей.

Другой вопрос, насколько подобное повышение производительности вообще имеет значение? По-видимому, выигрыш в полминуты на 138 страницах, которые все равно нужно проверять и, возможно, корректировать, немногого стоит. Если работы, подобные тестовым заданиям, предполагается выполнять от случая к случаю, то о производительности можно точно не переживать. Другое дело, если речь идет об автономной обработке больших объемов документов, которая доступна в Abbyy FineReader 12 Corporate. В таком случае экономия 15% времени уже вполне ощутима.

Резюме

Несмотря на то, что новый Abbyy FineReader 12 Professional не обещал ничего революционного, по крайней мере несколько изменений в нем заслуживают всяческой похвалы. Прежде всего, это усовершенствования технологии ADRT в части распознавания таблиц, диаграмм и вообще логической структуры страниц, что в некоторых случаях позволяет получать кардинально лучшие результаты, а также фоновый режим обработки, который открывает новые возможности для интерактивной работы с большими документами.

Других изменений также немало, хотя они и менее значимы. Движение в сторону поддержки сенсорного управления сегодня безусловно оправдано, однако путь выбран порочный — обеспечить в одном интерфейсе одинаково удобную работу мышью и пальцами вряд ли возможно. Впрочем, пока Windows-планшеты только пытаются пробиться на рынок, и у разработчиков из Abbyy еще есть время.

Цены на Abbyy FineReader 12 Professional:

  • коробочная версия: 4990 руб.;
  • версия для скачивания: 4490 руб.;
  • обновление: 2690 руб.

Как обычно, ответ на вопрос «стоит ли менять старую версию на новую?» зависит от ситуации. В любом случае стоит учитывать, что жизненный цикл у FineReader достаточно продолжительный, и если какое-то из описанных улучшений играет для вас сколько-нибудь существенную роль, то за 2-3 года затраты на обновление наверняка окупятся — если не материально, то морально. Решить же для себя этот вопрос окончательно поможет пробная версия.

Дополнительно

Нашли ошибку на сайте? Выделите текст и нажмите Shift+Enter

Код для блога бета

Выделите HTML-код в поле, скопируйте его в буфер и вставьте в свой блог.