3 декабря 2013

ABBYY FineReader Express 8.4: распознавание текста с любых источников на лету (раздача кодов завершена)

Автор Лайфхакера

Цифровой контент и электронные версии документов окружают нас со всех сторон. Для бумаги в нашей жизни почти не осталось места. Газеты и журналы перешли в онлайн-формат, книги мы читаем на e‑ink ридерах или планшетах, обычные письма заменили email и sms. Но все же, иногда нам приходится сначала повозиться с бумажками, чтобы получить их электронную копию. Здесь нам на помощь приходят специальные программы, которые используют технологию оптического распознавания текста OCR (Optical Character Recognition). Самой известной из них, бесспорно является ABBYY

FineReader. С ее помощью можно преобразовать бумажные документы в редактируемые форматы и сохранить PDF с возможностью поиска по тексту. И сегодня у нас есть отличная возможность познакомиться с ней поближе.

* * *

Для Mac’ов, ABBYY предлагает только FineReader Express, тем не менее она обладает необходимой функциональностью. Ключевыми особенностями ABBYY FineReader Express является точность распознавания и сохранение оформления, поддержка большого количества языков (171 язык, до трех языков в одном документе), преобразование и создание PDF (конвертация PDF в редактируемые форматы), редактор для ручной разметки областей (текст, таблица, картинка) и простой, удобный интерфейс программы.

Первый взгляд

Рабочее окно FineReader Express довольно минималистично, здесь присутствуют только самые необходимые элементы. В боковой панели располагаются эскизы добавленных страниц, а на панели иснтрументов кнопки с выпадающими списками: для выбора языка и выходного файла. Еще есть кнопки конвертации и масштабирования. В остальном, интерфейс соответствует быстрой экспресс-версии, в которой сделана ставка на автоматическое выполнение операций, с минимумом настроек и участия пользователя.

Переходим к испытаниям

После запуска FineReader встречает нас компактным окошком с выбором сценария. Здесь нам предлагается выбрать источник захвата: сканер, факс или чтение из файла. Также рекомендуется указать язык документа (или языки, если их несколько) — это поможет улучшить точность распознавания исходного документа. Ну и собственно формат выходного файла, здесь все просто — выбираем, исходя из типа бумажного документа.

Сканера под рукой у меня не оказалось, но это даже к лучшему — используя в качестве источника фото сделаные с помощью iPhone, я усложнил задачу по распознаванию текста. В качестве примера текста я взял одну из книжек своей супруги, а в качестве примера таблицы — какую-то старую рабочую накладную из фотопленки айфона. Что ж, давайте приступим.

Распознаем страницу с текстом

За неимением сканера я просто сделал фото разворота книги — обычное фото при комнатном освещении, никаких штативов и прочих ухищрений. Вот оригинал:

Посмотрим, что с ним сможет сделать FineReader. Указываем, что хотим вытащить из фото текст, определяем язык как русский и запускаем процесс.

К чести приложения нужно сказать, что определился весь текст, включая случайно попавший с изгиба соседней страницы. Кусок стола, который я специально оставил в кадре, ожидаемо определился как картинка. Но это не страшно, так как мы можем вручную изменить области определения, указать их тип (если программа определит неверно) и удалить области, распознавание которых не требуется. Все манипуляции заняли у меня меньше минуты, а в итоге я получил вот такой, вполне приемлемый результат:

После небольшой вычитки и правки документ готов. Я считаю, что это достойный результат для такого быстрого, почти автоматического процесса распознавания.

Распознаем таблицу

В качестве подопытной таблицы выступает простенькая накладная, которая тоже была снята на айфон. Здесь уже используется украинский (заодно и проверим поддержку языков), что тоже полезно для нашего опыта. Выбираем новый сценарий (⌘N) указываем источник — чтение из файла, язык — украинский и файл на выходе — таблица.

Программа задумывается на несколько секунд и вот перед нами результат:

С таблицей программа справилась не так хорошо, но в принципе определение текста более-менее сносное, разве что почему дорисовались ячейки, которых не было в исходном документе. Тут придется повозиться немножко дольше, чтобы добиться финального вида отображения документа, но все же это проще чем набирать табличку с вручную с нуля.

Сохранение в PDF

При сохранении в PDF, к сожалению программа никак не улучшает исходное изображение (контраст, яркость) и оно помещается в PDF-документ как есть. Но тем менее, поиск по тексту присутствует, а это уже хорошо.

Итог

Как и любой инструмент, FineReader имеет свои плюсы и минусы. К сильным сторонам, помимо заявленных производителем характеристик, является то, что распознавание текста и таблиц работает достаточно неплохо, а конвертирование в PDF, как и обещано, поддерживает поиск по тексту. Минусом можно считать отсутствие настроек и очень скудные возможности по ручному управлению процессом. Но это отчасти оправдывается, тем что это экспресс-версия и работает она в автоматическом режиме.

Коды для программы FineReader Express выиграли Григорий Ушаров и Николай Блинов. Поздравляем! Проверяйте личные сообщения, коды отправлены.

Приложение не найдено

Это интересно

Мас-рестлинг, хуреш и ещё 5 необычных национальных видов спорта России

5 способов успокоиться, если вы переживаете за экзамены ребёнка сильнее, чем он сам

На что влияет сахар в крови? Отделяем мифы от фактов

Безопасные покупки: как Ozon бережёт вас от мошенников

Комментарии

sleepwater

03.12.13 13:26

https://twitter.com/sleepwater/status/407787395497869312

Григорий Ушаров

03.12.13 13:31

https://www.facebook.com/g.usharoff/posts/623832654339894

Виталий Семенов

03.12.13 13:34

https://twitter.com/v_semenov/status/407789447313244160

Alex Crane

03.12.13 13:35

https://twitter.com/CraneMJAC/status/407789948427718656

x-chel

03.12.13 14:15

https://twitter.com/edblazhnov/status/407800258559610880

Вячеслав Зайцев

03.12.13 14:36

https://twitter.com/Zaitsev_Slava/status/407804322701778944

Владимир Гончаров

03.12.13 15:05

http://vk.com/samolyotikov?w=wall6264410_461%2Fall

Владимир Гончаров

03.12.13 15:05

http://vk.com/samolyotikov?w=wall6264410_461%2Fall

Alex Delun

03.12.13 15:20

https://twitter.com/b0u5/status/407815872271511552

Владимир Пыженков

03.12.13 15:22

https://twitter.com/Smartman_ru/status/407816931153293313

scotch1692

03.12.13 15:33

https://twitter.com/scotch1692/status/407819348481294336

Заманов

03.12.13 16:05

https://twitter.com/SurashBatyr/status/407825395765874688

Konstantin Garkavyy

03.12.13 16:21

https://twitter.com/iDesertus/status/407831866004103169

Sergey Smurov

03.12.13 16:32

https://www.facebook.com/sergey.smurov.9/posts/269155443231866

Elena Kozlova

03.12.13 16:52

https://www.facebook.com/ms.beauty.doctor/posts/10202779810279214

Nik McCoy

03.12.13 18:25

https://twitter.com/ierom/status/407862947940409344

gsadh

03.12.13 18:58

https://twitter.com/AndreiPoskonnyi/status/407870823148449792

Blinov Nikolay

03.12.13 20:00

https://twitter.com/The_west_coast/status/407886884447059968

Дмитрий Красильников

03.12.13 20:20

https://twitter.com/3loy11/status/407891892366348289

_Prokhorov_

03.12.13 22:11

https://twitter.com/_prokhorov_/status/407919515243393024

sandy

03.12.13 22:49

https://twitter.com/sandy_komaroff/status/407929403876728833

Bogdan Kalchuk

04.12.13 00:28

https://www.facebook.com/bogdan.kalchuk

Artem Frolov

04.12.13 01:59

http://vk.com/wall16072575_857

Semen Litvinov

04.12.13 13:09

https://twitter.com/litvinio/status/408145689625903105

Blinov Nikolay

04.12.13 13:32

спасибо)

Dmitriy

24.03.14 11:23

https://twitter.com/kepetol/status/407918485247778817

Dmitriy

24.03.14 11:23

https://twitter.com/kepetol/status/407918485247778817

Dmitriy

24.03.14 11:23

https://twitter.com/kepetol/status/407918485247778817

Григорий Ушаров

24.03.14 11:23

https://www.facebook.com/g.usharoff/posts/623832654339894 https://twitter.com/g_usharoff/status/407788466387177474 http://vk.com/wall8944372_1071

Григорий Ушаров

24.03.14 21:50

https://www.facebook.com/g.usharoff/posts/623832654339894 https://twitter.com/g_usharoff/status/407788466387177474 http://vk.com/wall8944372_1071

Что вы могли пропустить

Минцифры разблокировало Roblox в России