Для работы проектов iXBT.com нужны файлы cookie и сервисы аналитики. Продолжая посещать сайты проектов вы соглашаетесь с нашей Политикой в отношении файлов cookie

Лучшие бесплатные OCR-сервисы для распознавания и конвертации PDF

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com

14 марта 2023, 11:08 | Обзор | ИИ, сервисы и приложения

Привет всем! Я расскажу о сервисах для распознавания текста или OCR. Считайте это небольшим рейтингом лучших OCR-утилит.

Оптическое распознавание символов (OCR - Optical Character Recognition) - механизм электронного или механического конвертирования изображения или печатного текста, например, с отсканированного документа, фотографии и т.д.

Я испытаю следующие программы и сервисы:

PDF - Adobe Acrobat Pro - эталон всех распознавателей.
PDF24 tools - богатый инструментарий для работы с PDF-документами, включает OCR.
NewOCR - заявляют себя как сервис конвертации в текст форматов: JPEG, PNG, GIF, BMP, TIFF, PDF, DjVu.
Img2txt - сервис отличается красивым интерфейсом, но спасёт ли его это?
Free Online OCR - простецкий онлайн-сервис для распознавания.

Чтобы результат был наглядным и достоверным, нужно протестировать. Для этого я подготовил специальные документы:

Фрагмент статьи “8 бесплатных аналогов платных программ для переводчиков”. Текст был написан в ворде, затем переведён в PDF. Сложность может представлять надпись нестандартным шрифтом, мелкие буквы, а также текст на эмблеме, но в целом документ простой и имеет текстовый слой.
Тот же фрагмент, но без текстового слоя - скрин, завёрнутый в PDF. Базовые сложности те же, только к ним ещё добавляется необходимость распознавания всего остального текста и необходимость сохранить форматирование.
Рекламная брошюра масел. Сложное и разное форматирование, местами текстовый слой есть, местами его нет. Отнюдь не простой документ. Посмотрим, справятся ли конкурсанты.

Adobe Acrobat Pro

Я попробую сравнить качество распознавания при конвертировании в редактируемый формат между бесплатными сервисами и эталоном - Adobe Acrobat DC.

Adobe Acrobat DC идёт первым как эталон, созданный для одной задачи - для работы с pdf-файлами.

Простой файл с текстовым слоем:

Ожидаемо. Никаких трудностей. Полная конвертация в редактируемый формат. Изображение по центре осталось нетронутым, но это невеликая проблема, можно подписать или обработать в Paint.

Простой файл без текстового слоя:

Нестандартный шрифт не распознался, но мелкий шрифт под звёздочкой распознался достаточно хорошо. Ещё пару букв пропустил, но допустимая погрешность для последующего ручного редактирования.

Сложный файл с непостоянным текстовым слоем:

Как сказать. Результат ожидаемо плохой, потому что файл очень сложный. Впрочем, отредактировать всё равно можно, лучше, чем ничего.

Почему я не взял на тест больше программ для ПК? А их нет. Существует несколько простых программ, которые распознают только изображения или устанавливают на компьютер мусор. Я пробовал: Free OCR, Simple OCR, CuneiForm OCR, Freemore OCR. Вторая категория - это титаны вроде Abbyy или Adobe, которых мы стараемся избежать в этой статье.

Итак, перейдём к онлайн-сервисам.

PDF24 tools

PDF24 tools - многогранный сервис. Он может распознать текст в PDF, но в результате всё равно выдаст PDF. На наше счастье среди утилит этого сайта есть и конвертер в Word. Они даже расположены рядом.

Простой файл с текстовым слоем:

Получилось очень плохо, но текст типа сохранён полностью. Изображение вырезано и половина страницы пустая. Ладно, сочтём, что так и должно быть.

Простой файл без текстового слоя:

С задачей сервис не справился. После распознавания и конвертации в ворд, я увидел пустой лист.

Сложный файл с непостоянным текстовым слоем:

Результат оказался таким же - пустой лист. Но сервис предлагает три режима конвертации:

Я попробовал все три, лучший результат выдал третий режим "только текст":

Распознался даже сложный шрифт!

Брошюра тоже распозналась, но легче мне от этого не стало:

Вердикт:

Спорный сервис. Конвертирует и распознаёт быстро и удобно, много разных утилит. Пусть будет, конечно, на крайняк покатит.

NewOCR

NewOCR - нашёл в одной из статей про лучшие сервисы распознавания символов на просторах интернета. Говорят, что сервис хороший.

Простой файл с текстовым слоем:

Текст распозанёт хорошо, но предлагает выбрать только формат .txt, не распознаёт картинку и даже не пытается сохранить форматирование.

Простой файл без текстового слоя:

Неплохо распознал основной язык - русский, но ужасно справился с английским. Вся латиница превратилась в какую-то кашу. С другой стороны распознать получилось даже нестандартный шрифт с картинки. Не без ошибок, нор всё же. А ещё удалось получить формат Word. От чего это зависит - не знаю.

Сложный файл с непостоянным текстовым слоем:

Брошюра тоже распозналась косячно. Вместо многих символов ужасные кракозябры, слова собрались в кашу, формат только .txt. Зачем мне нужно вот это? Легче отредактировать скриншоты в paint, чем так.

Вердикт:

Сервис неплохо справляется с распознаванием текста, но что-нибудь сложнее, чем абзацы текста ему не под силу. Если в тексте встречается несколько языков, то один из них обязательно будет воспринят неправильно. Даже если указать два языка в поле перед распознанием. Про форматирование можно забыть, его здесь не будет. А ещё мне не понравилось, что каждую страницу многостраничного документа придётся распознавать и скачивать отдельно. Документ на 50 страниц? Простите, но придётся выкачивать по одной странице за раз. А ещё придётся подождать 5 секунд перед распознанием очередной страницы. Не больше ни меньше. Если попытаетесь распознать быстрее, получите ошибку. А ещё не всегда с первого раза точно прицеливается в страницу, иногда выхватывает маленький фрагмент страницы и пытается его распознать.

Img2txt

Сервис Img2txt. Нашёл его где-то на просторах интернета в комментариях к статье о лучших сервисах.

Простой файл с текстовым слоем:

Крупный текст распознал, мелкий превратил в кашу. Решил, забить на текстовый слой и распознал только картинку. Странное решение. Зато предлагает много форматов.

Простой файл без текстового слоя:

Не сказать, что плохо, но и не сказать, что хорошо. Некоторые буквы перепутал, латиницу не распознал. Но по крайней мере можно скачать в вордовском формате.

Сложный файл с непостоянным текстовым слоем:

Слева оригинал, справа результат распознания

Куцый результат. Распозналось плохо, большая часть текста пропущена, слова в кашу превратились. Получилась бесполезная белиберда.

Вердикт:

Ещё один сервис, который распознаёт неплохо простые документы с большими абзацами текста. Раздражает, что сначала нужно загрузить файл, выбрать для него язык, потом файл обработается сервером, нужно снова выбрать для него язык и запустить распознавание. Я как-то ожидал, что загружая я уже достаточно чётко выражаю намерение распознать файл.

Ещё одна беда - это постраничное распознавание. Как и в случае с NewOCR каждая страница распознаётся отдельно, скачивается отдельным документом. Только тут ещё необходимо для каждой новой страницы повторно выбирать язык.

А ещё это единственный сервис с ограничением размера файла. Максимум - 8 мб.

Online OCR

Online OCR - сервис с самым непримечательным названием. Я упоминал этот сервис в статье про 8 бесплатных аналогов платных программ.

Простой файл с текстовым слоем:

Ого. Результат удивляет. Почти идеальный. Мало того, что распознание прошло почти мгновенно, так ещё и латиница распозналась там, где надо. Даже мои опечатки были распознаны правильно. То что текст вокруг картинки - это ерунда. Чуть-чуть не дотянул до уровня Adobe.

Простой файл без текстового слоя:

Снова в яблочко! В этот раз побольше промахов, но результат достойный. Хотя бы картинка сохранилась и часть мелкого текста с неё удалось распознать.

Сложный файл с непостоянным текстовым слоем:

Ух ты! Сервис справился с распознаванием и этого документа! Удивительно, но факт. Есть некоторые недочёты, но это очень хороший результат. С редактированием такого файла в ворде придётся очень сильно помучиться, зато распознаны все таблички, большинство надписей. Если в ваши обязанности не входит вёрстка, то это именно то, что нужно.

Я бы назвал это самым большим успехом. Даже Adobe по сравнению с этим меркнет:

Вердикт:

Это лучший сервис! К сожалению, без регистрации он не даст распознать PDF больше 15 страниц, большие изображения, ZIP-архивы и ещё что-то. Но после регистрации сервис даёт только 50 бесплатных страниц.

Я слышу слово "абьюз" или мне кажется? Раскрою секрет, как сделать сервис абсолютно бесплатным. Создатели сайта не придумали подтверждение почты при регистрации. Можно указать любой вымышленный адрес. Как только заканчиваются страницы, переезжаем на новый аккаунт и пользуемся 50 бесплатными. Забавно получается.

Читайте другие статьи переводческого цикла:

27 комментариев

Добавить комментарий

Аккуратно с секьюрностью. Все документы ваши будут храниться на чужом сервере. Думайте что отправляете

Ответить

Хорошее замечание, но не думаю, что у авторов сервисов есть желание копаться в каждом документе, который загружают им на сервер.

Ответить

За них это сделает нейросеть ;)

Ответить

Как вы это представляете, а главное, зачем? Загружаю я на сервис документ, чтобы распознать, включается нейросеть, чтобы проверить, а чего интересного Grolribasi нам загрузил. Скажем, я загрузил чертежи секретной ракеты. Они быстренько передадут это куда надо и меня накроют — так что ли?)
Да и вряд ли сервис, который не сделал нормальную регистрацию с проверкой почты, будет что-то у себя мониторить ещё и нейросетями.

Ответить

Спасибо за информацию, я сам об этом что-то и не подумал

Ответить

https://pdf.abbyy.com/pricing/ -> https://pdf.abbyy.com/pricing/?errorCode=404

Ответить

Так её не купить теперь. Из РФ перекидывает на 404.

Ответить

Если вы могли его позволить раньше и до сих пор можете оплачивать, то всё правильно.
Но для простого пользователя, у которого потребность в распознании страница в год, он очень дорогой.

Ответить

Он не бесплатный, а эта статья о бесплатных.

Ответить

Бесплатные тоже есть. Но их качество, конечно…

Ответить

Какие, кроме перечисленных в статье?
Я пользовался он-лайн файнридером, а когда они его закрыли, перепробовал всё изложеное выше, плюс фоксит и вандершер, но так и не нашел ничего приличного, пришлось купить стационарный. Работает, но интерфейс у стационарного весьма, как бы помягче сказать… экстравагантный.

Ответить

Приличного и нет. Есть Cuneiform, который фактически мёртв. Есть Tesseract, ну тоже… такое.
Десктопный софт дохнет потихоньку. Переводчики окончательно всё. Словари почти загнулись. «Офисы» пока держатся, но уже попахивают.

Ответить

Я пробовал:
Free OCR, Simple OCR, CuneiForm OCR, Freemore OCR, несколько других простых программ, которые распознают только картинки.
Ничто из перечисленного не даёт приличного качества.

Ответить

Бесплатно?

Ответить

Последняя условно бесплатная, так как можно входить под рандомными «почтами»

Ответить

Не получается входить под разными почтами. Похоже всё-таки что-то отслеживается. Может сам документ, может адрес, может конфигурация, может что ещё. Пишет: Невозможно зарегистрироваться. Без объяснения причин.(

Ответить

Проверил только что. Всё получилось. Правильный адрес сайта: https://www.onlineocr.net/
Может быть, ошибка где-то при регистрации — пароли не совпадают или ещё что-то.

Ответить

Попробую, спасибо. Просто первый раз без проблем и регистрация и распознавание, но все последующие не получалось. Но попробую ещё.

Ответить

Acrobat, на самом деле, достаточно посредственно изображения и файлы без текстового слоя распознает. Если с 1-2 файлом особых проблем не возникает, то, в случае, когда нужно распознать 50-100 страниц с небольшим количеством текста, а он корежит каждое 3 слово и верстку, выигрыша по времени с перепечатыванием почти нет

Ответить

Факты

Ответить

Мой личный опыт сканирования старых газет: Acrobat Pro выдаёт просто отвратительный результат, PDF24 (tesseract) — более менее неплохой. Качество самих сканов (фото) достаточно низкое, с учётом огромного объёма материала больше 1 мегабайта на лист А4 позволить себе не можем, DPI считайте при этом сами.

Ответить

Great article!

Ответить

Добавить комментарий

Сейчас на главной

Новости

Даже один удар головой по футбольному мячу запускает маркеры повреждения мозга

Наука и космос
15 минут назад
0

Курс биткоина опустился ниже $70 000 на фоне геополитической неопределенности

Финансы и криптовалюты
22 минуты назад
0

Компания Makita выпустила беспроводную 5 дюймовую плоско-шлифовальную машину GAG15

Apple устранила проблему с зарядкой на iPhone 17 и iPhone Air: вышло обновление iOS 26.5.1

Смартфоны и телефоны
57 минут назад
0

Samsung готовит одно из самых заметных изменений в системе безопасности One UI 9: для защиты смартфона хватит одного нажатия

Публикации

✦ ИИ Почему соломенные крыши не протекали: принципы конструкции и технологии укладки

Статья
2 часа назад
Оффтопик

Крыши из соломы — традиционный элемент архитектуры во многих регионах мира. Их успешно использовали веками: иногда заменять покрытие требовалось один раз в 50-80 лет. Разберём...

Обзор зарядного устройства Ugreen Nexode Pro 100W (X773) с дисплеем: Детальные тесты КПД, пульсаций и работы независимых преобразователей

Обзор
3 часа назад
Питание и аккумуляторы

Ugreen давно занял прочную позицию среди брендов, которым доверяют гики и технари — не за маркетинг, а за реальное качество железа. Nexode Pro 100W с моделью X773 — это не...

Zigbee или Wi-Fi: что выбрать для умного дома

Мнение
3 часа назад
Сетевое оборудование

Подключать весь умный дом к одной сети не всегда удобно. Камера, робот-пылесос и датчик открытия двери решают разные задачи, хотя на витрине все они называются умными устройствами. Wi-Fi подходит...

Посетил 2026 Greater Bay Area Auto Show. Какими автомобилями Китай удивляет в этом году

Обзор
3 часа назад
Мероприятия и выставки

Попасть на автомобильную выставку в Китае для меня всегда интересно не столько из-за самих автомобилей, сколько из-за возможности посмотреть, куда вообще движется местный рынок. За последние...

Обзор регистратора 70mai A410. Без аккумулятора и конденсатора, но зато с задней камерой

Обзор
3 часа назад
Авто и транспорт

Автомобильный видеорегистратор 70mai A410 — самый дешёвый регистратор с дисплеем и возможностью подключения задней камеры в линейке производителя. При этом устройство обладает...

Как прошла первая в истории России 12-часовая гонка на выносливость: заметки об этапе

Статья
3 часа назад
Оффтопик

23 мая на трассе Moscow Raceway в рамках Российской серии кольцевых гонок (РСКГ) состоялся 12-часовой заезд. Гонки такой длины и такого уровня раньше в России не проводились, и эта стала...