Введение
Ещё совсем недавно бумага была единственным носителем информации. Однако в эпоху глобальной компьютеризации, которую мы все переживаем, всё больше информации предоставляется в удобной для человека цифровой форме, облегчающей хранение, передачу, обучение. И теперь огромные книжные стеллажи могут поместиться на одном CD, на флэш-брелоке. Но как быть, например, с тем огромным наследием истории в виде монографий, книг, энциклопедий учебников? Как быть, если нужно оперативно передать документы на большое расстояние, отредактировать их, а они в наличии лишь на бумаге? Не набирать же всё это вручную? Эта проблема решается специализированным программным обеспечением, производящим оптическое распознавание текста. Теперь достаточно отсканировать/сфотографировать ваши документы и с помощью этого программного обеспечения произвести распознавание полученных образов и преобразовать в удобный для дальнейшей работы формат.
Среди пользователей такого программного обеспечения хорошей репутацией и непоколебимым авторитетом пользуется продукция компании ABBYY. Её OCR-продукт (optical character recognition – оптическое распознавание текста) FineReader снискал большую популярность не в только сфере бизнеса, но и среди индивидуальных пользователей. И в октябре 2007 года на прилавках появилась новая версия программного продукта – ABBYY FineReader 9.0. Для тестов мы получили версию Professional Edition, предназначенную для индивидуального использования. Что же нового ABBY реализовала в FineReader 9.0?
FineReader 9.0 | Переработанный интерфейс
Нельзя сказать, что в предыдущих версиях программы интерфейс был непонятен или сложен. Наоборот, стоит отметить, что у ABBYY всегда всё было хорошо в отношении пользовательских интерфейсов во всех программных продуктах. Что касается интерфейса FineReader 9.0, то можно сказать, что он отличается, однако остался простым и интуитивно понятным. При запуске появляется уже стандартное для большинства современных приложений меню в стиле “сделай всё одним щелчком”, где пользователю предлагается без лишних трудностей выбрать один из стандартных сценариев.
Эти сценарии доступны также прямо из меню “Пуск”. При выборе какого-либо сценария сразу же запускается программа и выполняет его. Очень удобно.
Слева расположена функциональная боковая панель, которая скрывается влево за пределы экрана по нажатию на “Свернуть” в её верхнем правом углу. Для возврата панели обратно надо просто щёлкнуть по левой границе окна программы. На панели отображаются листы распознаваемого документа и ход распознавания.
В предыдущих версиях программы можно было воспользоваться Мастерами сканирования, распознавания и другими. Их пиктограммы находились под основным меню программы вдоль всего окна. Можно было выбрать дополнительные режимы. Здесь же окно полностью расчищено для увеличения рабочей области, а все действия могут быть легко выполнены с помощью боковой панели и настроек. По умолчанию все открываемые файлы сразу анализируются и распознаются.
Нажмите на картинку для увеличения.
Как можно видеть на скриншоте, на рабочих полях находятся пиктограммы для быстрого доступа к более глубоким настройкам и параметрам работы, которые, несомненно, оценят профессионалы. Работа с документами может затрудняться лишь малым разрешением вашего монитора – комфортная работа с полями программы возможна при разрешении более 1 280 х 800.
Кроме всего прочего, появился новый диалог для работы с изображениями. В нём собраны все необходимые инструменты.
В диалоге открытия документов теперь возможен предпросмотр.
Нажмите на картинку для увеличения.
FineReader 9.0 | Технология ADRT
Разработчики хорошо поработали над новой версией. В её основу легла новая технология распознавания – ADRT (Adaptive Document Recognition Technology), адаптивная технология распознавания текстов. В основе данной технологии лежит принцип цельного распознавания документа, то есть документ анализируется и распознаётся как единое целое, а не постранично.
Данная технология выделяет во всём документе логическую структуру. Анализируются и определяются сноски, ссылки, колонтитулы, номера страниц, стили, шрифты. В итоге полученный документ, по заверениям разработчиков, становится таким, будто его создал человек. Редактирование полученных результатов не сводится к работе с каждой страницей отдельно – вы продолжаете работать с документом целиком.
ADRT обеспечивает даже объединение таблиц и параграфов, разбитых границей страницы. То есть теперь распознанная таблица на двух отсканированных страницах представляет собой одно целое, а не две отдельные таблицы.
Мы решили это проверить и распознали PDF файл, содержащий большую таблицу. Ниже представлен скриншот из FineReader 9.0, где видно, что мы распознавали. Далее следует скриншот документа, который сохранился в формате Microsoft Word после распознавания.
Нажмите на картинку для увеличения.
Нажмите на картинку для увеличения.
Как можно видеть, таблица сохранилась как единый объект, так как часть таблицы со второй страницы исходного PDF примкнула к нижней части таблицы итогового документа в Word.
В немалой степени благодаря именно этой технологии, в девятой версии программы были улучшены характеристики точности сохранения оформления документов по сравнению с предыдущей версией: в отношении договоров и юридических документов – на 19%, в отношении книг – на 22%, газет и журналов – на 32%. Конечно, это данные внутренних исследований ABBYY, и они не могут претендовать на абсолютную объективность. Однако, поработав с программой, мы можем сказать точно: качество распознавания действительно улучшилось.
FineReader 9.0 | Новые возможности экспорта и импорта
В новой версии программы возможна работа не только с Microsoft Word, но и с Microsoft Exсel и Microsoft Outlook.
Для примера мы попробовали распознать страничку из книги и экспортировать её в Microsoft Exсel. Но мы страничку не сканировали, а сфотографировали. Предварительная настройка фотокамеры не производилась, а съёмки были сделаны при плохом освещении, чтобы усложнить задачу распознавания. Ниже можно увидеть исходное фото и скриншот из Microsoft Excel. Надо сказать, распознавание отличное.
Нажмите на картинку для увеличения.
Нажмите на картинку для увеличения.
FineReader 9.0 позволяет сохранять документы в форматах DOCX и XLSX, внедрённых корпорацией Microsoft в Office 2007. Кроме этих форматов, была дополнительно внедрена поддержка формата PDF/A.
FineReader 9.0 | Другие нововведения
Кроме перечисленных выше нововведений, безусловно, основных, в новую версию были включены и другие дополнения. Так, например, программа теперь сама определяет язык распознавания. Раньше приходилось переходить к настройкам и задавать язык (или комбинацию языков), на котором написан документ. Теперь же всё это автоматизировано. Кстати, количество языков распознавания увеличилось до 179.
В FineReader 9.0 была улучшена работа с юридической документацией – используется специальная технология распознавания юридических текстов, позволяющая снять точную копию документа. Благодаря данной технологии не придётся тщательно просматривать документ и выделять все подписи как картинку – теперь во время анализа подписи помечаются автоматически и копируются в распознанный документ без изменений.
Ну и конечно, FineReader 9.0, как любое серьёзное приложение в наше время, написана с использованием многопоточных технологий и оптимизирована под многоядерные процессоры. Это заметно на каждом этапе её работы. Ниже на скриншоте видно как во время распознавания параллельно обрабатываются две страницы на двуядерном процессоре. А в диспетчере задач на вкладке “Быстродействие” чётко видна работа обоих ядер.
Заключение
Разработчики FineReader 9.0 хорошо поработали. В программе продемонстрирован совершенно новый подход к распознаванию – технология ADRT, где распознавание основано на анализе документов в целом. И этот подход действенен – распознавание очень качественное. Отдельно надо отметить интерфейс – он прост для новичков, а профессионалы найдут всё, что нужно. Стоит отдельно отметить, что продукт обладает сертификатом на совместимость с Windows Vista. Поддержка распространённых форматов, качественное распознавание, ряд профессиональных возможностей делают ABBYY FineReader 9.0 незаменимой в бизнесе и других областях, где требуется быстрое и качественное распознавание текстов.
Редакция THG.ru благодарит компанию ABBYY за программу, предоставленную для тестирования.