FineReader: уже седьмая версия
Несмотря на проникновение в нашу жизнь большого количества электронных документов, бумажные источники не теряют актуальности – по-прежнему существуют газеты, журналы, книги, мы получаем факсы, письма отчёты. Но для дальнейшей работы часто необходимо эту информацию редактировать. И для этого предназначена программа FineReader, способная превратить полученный факс или письмо в документ Word.
Основные отличия “семёрки” от предыдущей версии (6.0) заключаются в повышенной, примерно на 25%, точности распознавания (в том числе документов сложной вёрстки), поддержке формата XML и достигнутой за счёт этого интеграции с Microsoft Office, добавлении нескольких специализированных словарей (юридическая и медицинская лексика), позволяющих заметно улучшить обработку документов соответствующей тематики. Кроме того, в систему добавлены возможности экспорта в Microsoft PowerPoint и Microsoft Word, а также в HTML; улучшен экспорт в PDF – получающиеся файлы теперь оптимизированы для постраничной загрузки из Интернета. Добавлено также несколько функций, которые раньше были доступны только пользователям версии Corporate Edition: распознавание штрих-кодов, инструменты для разбиения изображения, морфологический поиск, двухстороннее сканирование и поддержка новейших процессоров Intel.
Комплект поставки
В коробке ABBYY FineReader 7.0 находились: установочный диск, 112-страничное руководство пользователя, сокращённый вариант руководства (8-страничный буклет), лицензионный договор (по условиям которого разрешается использовать программу на двух компьютерах: одном настольном и одном портативном или одном офисном и одном домашнем) и регистрационная карточка.
Установка не вызвала никаких затруднений и заняла менее 10 минут, последующая активация через Интернет – менее 15 секунд.
Активация в FineReader 7.0 стала обязательной.
Надо отметить, что если предыдущие версии ABBYY FineReader можно было установить без активации, с помощью ключевой дискеты, то здесь без активации уже не обойтись.
Работа с программой
После запуска FineReader перед нами отображаются две панели инструментов: “Стандартная” и главная панель программы “Scan&Read”. На последней размещены четыре пронумерованные кнопки, обозначающие действия пользователя при переводе документа в текст.
Главная панель программы “Scan&Read”.
Кнопки на этой панели отображают основные операции: сканирование (либо открытие графического файла), распознавание, проверка и сохранение результатов распознавания. Каждое из этих действий можно произвести отдельно, или объединить все действия в одно, запустив Мастер “Scan&Read” нажатием левой кнопки. Мастер выполнит полный цикл работ и, в итоге, выдаст электронную версию бумажного документа.
Мастер “Scan&Read”
Для большинства пользователей мы рекомендуем пользоваться Мастером. За предыдущие версии ABBYY намного улучшила Мастер, поэтому никаких сложностей вы не испытаете.
Запускаем Мастер. Первый этап работы – сканирование (либо открытие графического файла).
Сканируем текст или получаем из файла.
Далее появляется интерфейс программы сканирования (на этом этапе надо проконтролировать установки сканирования – рекомендуется разрешение не меньше 150 dpi, чёрно-белый режим для документов высокого качества, серый – для большинства документов и цветной – при необходимости сохранения цветных картинок, цвета подложек и букв)
Интерфейс сканера. У каждой модели он свой.
Следующий шаг – распознавание. Сначала необходимо установить язык документа:
Выбираем язык.
Затем можно запускать распознавание. Наш тестовый листок с текстом дал следующий результат:
Так FineReader разбила наш текст на блоки.
Отметим, что FineReader разделяет содержимое страницы на три типа – распознаваемая часть попадает либо в текстовый блок (на рисунке блок с зелёной границей), либо в табличный блок (с синей границей), либо блок считается картинкой и не распознаётся (блок с красной границей). Картинки сохраняются в финальном документе в графическом формате. Если внутри картинки будет текст, он будет распознан, но саму картинку автоматически воспроизвести не удастся. Чтобы правильно обработать документ, где есть наложенный на картинку текст, нужно сделать следующее: вручную создать блок “Картинка”, содержащий всё изображение, а затем создать новый, текстовый блок, захватывающий весь интересующий вас текст. Тогда после распознавания FineReader вставит в документ картинку, а поверх неё наложит распознанный, редактируемый текст. Ниже мы рассмотрим выделение блоков подробнее.
Затем текст следует проверить:
Проверяем текст: всё ли распозналось правильно?
Наконец, последний этап – сохранение.
Здесь можно сохранить распознанный текст с картинками и таблицами в файл, либо передать в другое приложение.
Выбрав один из предложенных вариантов (например передачу в MsWord), получаем распознаваемый документ в привычном формате, который теперь можем редактировать.
Передаём файл в Microsoft Word.
Работа без Мастера
Многие пользователи предпочитают работать без Мастера, выбирая действия самостоятельно. Для этого следует воспользоваться кнопками главной панели “Scan&Read”, каждая из которых имеет несколько режимов работы. Выбрать один из них можно, нажав на стрелку справа от кнопки.
У каждой кнопки есть дополнительные режимы работы.
После получения изображения – либо путем сканирования, либо выполнением команды “Открыть изображение” (программа поддерживает следующие входные форматы: .bmp, .pcx, .dcx, .jpeg, jpeg 2000, .png, .tiff, .pdf) FR автоматически создаёт пакет. По сути, пакет – это папка (в нашем случае, например C:Documents and SettingssmsLocal SettingsTempUntitled0), в которой хранятся необходимые данные, в том числе открытые изображения, преобразованные в формат .tif. Пакет значительно облегчает работу с многостраничными документами: вы можете сделать перерыв на любом этапе (при сканировании, распознавании, редактировании) и сохранить пакет, а впоследствии в любой удобный момент продолжить работу с того же места.
При создании пакета перед нами появляется следующие 4 окна:
Четыре окна пакета.
Самое левое окно “Пакет” отображает страницы, находящиеся в открытом пакете. Возможны два режима отображения страниц – “Пиктограммы ” (по умолчанию), как на рисунке выше, либо вид “со свойствами” на рисунке ниже, когда вместо пиктограммы появляется дополнительная информация о страницах пакета. При выделении двойным щелчком страницы пакета она появляется в окне “Изображение”.
Режим отображения страниц “со свойствами”.
Окна “Изображение”, “Крупный план” и “Текст” связаны между собой. При выделении щелчком участка в окне “Изображение”, в окне “Крупный план” можно наблюдать, соответственно, (в зависимости от выбранного масштаба) увеличенное изображение участка. Причём, в окне “Текст” курсор переместится на текст выбранного участка (при условии, что данная страница распознана). Отметим, что увеличенное изображение бывает полезно для точного выделения блоков.
Пункты “Распознать” и “Проверить” мы подробнее рассмотрим ниже, в параграфе “Распознавание документов с большим количеством иллюстраций “.
Наконец, четвёртый пункт – “Сохранить”. Результат распознавания можно передать в приложения: MsWord (версии 6.0-11.0), Excel (версии 6.0-11.0), Power Point (версии 9.0 и 10.0), Corel WordPerfect (версии 7.0-11.0), Lotus Word Pro 9.5, 97, Millennium Editions, Star Writer 4.x, 5.x, 6.x, Promt 98 и во все приложения, поддерживающие стандарт ODMA, сохранить в файл HTML или PDF.
Настроить параметры сохранения можно в диалоге форматы (меню “Сервис>Форматы”) на соответствующей закладке.
Настраиваем формат сохранения.
В FineReader 7.0 появился новый формат сохранения – MsWord XML, который позволяет проверять и редактировать результат распознавания с помощью привычных инструментов Word, при этом можно сверить переданный текст с оригинальным изображением (окно “Крупный план” открывается прямо в Word):
Окно “Крупный план” открывается прямо в Word.
Помимо большой панели инструментов, в программе имеются еще две панели.
Панель “Стандартная”.
Кнопки панели “Стандартная” управляют работой с файлами и изображением (отмена и повтор действия, перемещение по страницам пакета, выбор языка распознавания).
Панель “Форматирование”.
Кнопки панели “Форматирование” позволяют изменить оформление распознанного текста.
Распознавание книг
Хотелось бы отметить очень полезную в данном случае опцию “Делить разворот книги”.
Опция “Делить разворот книги”.
Если включить эту опцию, то при добавлении отсканированных файлов в пакет FR мы получаем вместо текста в две колонки две обычных странички, с которыми потом работать значительно легче.
Текст в две колонки.
Текст в две страницы.
Сложный текст
Если мы работаем с текстом более сложным, чем двухстраничный разворот книги, например, у нас отсканировано несколько визитных карточек, то мы сможем разбить текст на отдельные страницы самостоятельно (меню “Изображение > Разбить изображение”)
Разбиваем сложный текст на страницы.
Распознавание документов с большим количеством иллюстраций
К распознаванию текста у нас не возникло никаких замечаний. К сожалению, ABBYY FineReader 7.0, как и предыдущие версии, не всегда корректно автоматически выделяет иллюстрации и подписи к ним, в результате чего приходится прибегать к ручному выделению.
Пример неудачного выделения иллюстраций и подписей.
На иллюстрации показан пример некорректного автоматического выделения. На первой странице одна иллюстрация просто проигнорирована, вторая, состоящая из 5 рисунков, снабжённых подписями, была распознана как три рисунка, часть подписей отошла к рисункам, часть была распознана как текст. Напомним, что блоки, помеченные как рисунок, не распознаются, поэтому в финальном документе они будут представлены картинками.
Таким образом, в работе с текстами, подобными приведённому на рисунке, не обойтись без ручной обработки блоков. Здесь очень хочется отметить несколько крайне полезных инструментов для работы с подобными текстами.
Кнопки для коррекции выделения текста.
Кнопки на приведённой панели подразделяются на три группы:
Верхняя группа “Создание новых блоков” – содержит кнопки “Выделить текстовый блок”, “Выделить табличный блок”, “Выделить изображение”, “Выбор объекта”. С помощью первых трёх кнопок вы можете самостоятельно выделить блок требуемого формата, а последняя кнопка позволяет выбрать один из существующих блоков на экране.
С помощью кнопок следующей группы “Редактирование формы и положение блоков” (“Добавить часть к блоку”, “Удалить часть блока”) можно создать блоки достаточно сложной формы, а на приведённом выше примеры переформировать блоки например так:
Удаляем созданные программой блоки и с помощью кнопки “Выделить рисунок”
создаем один прямоугольный блок,
затем с помощью кнопки
выделяем рисунок, не попавший в блок (так, чтобы граница выделения примыкала к границе выделенного блока):
и получаем блок такой формы:
Фигурно разбиваем страницу на блоки.
Следующая группа кнопок – “Редактирование табличных блоков” понадобится при формировании таблицы. Этими кнопками можно добавить недостающие границы ячеек, либо удалить ненужные.
Например, при плохом качестве печати (либо если в таблице границы просто не нанесены) часть границ в таблице может не распознаться:
Не все границы в таблице были определены.
Воспользуемся кнопкой
и добавим недостающую границу:
Теперь таблица правильная.
И последняя группа – кнопки поворота изображения по и против часовой стрелки (если вы неправильно расположили документ в сканере, то его можно не пересканировать) и “ластик”, позволяющий очистить изображение от мусора (помарки, тени при сканировании и т.д.).
Все инструменты данной панели можно использовать не только в окне “Изображение”, но и в окне “Крупный план”. Например, в окне “Изображение” мы видим картину страницы в целом, а в окне “Крупный план” аккуратно поправляем границы блоков:
Подправляем границы блоков.
Справочная система
Помимо обычной справки, хотелось бы обратить внимание на интересный раздел “Справка” > “Обучение на примерах”.
Обучение на примерах.
Здесь на примерах разобраны случаи, которые могут вызвать затруднение пользователя, и, соответственно, указаны пути решения проблем.
Выбираем тип документа:
и получаем описание ситуации при распознавании такого типа документов и указания по решению возможных проблем.
Заключение
Компания ABBYY вновь порадовала выпуском первоклассного продукта, который необходим каждому пользователю, работающему с распознаванием текста. Следует отметить, что ABBYY FineReader пользуется заслуженной популярностью не только в России, но и в мире. И причин тому немало: удобный интерфейс, поддержка многих языков, высокая точность и скорость работы.
Нас очень порадовала скорость работы программы – распознавание 200 страниц заняло порядка 10 минут – меньше, чем время, потраченное на сканирование.
К самому крупному недостатку можно отнести цену профессиональной версии FinerReader 7.0, которая довольно высока. Но за качество приходится платить. В то же время, для домашних пользователей есть более доступная версия – FineReader Home Edition. Она столь же успешно справляется с распознаванием несложно оформленных документов и сохранением их во всех популярных офисных форматах.
Информацию о функциональности FineReader Home Edition вы можете получить на странице http://www.abbyy.ru/finereader7/?param=35904, а версии FineReader Corporate Edition для корпоративных пользователей – по адресу http://www.abbyy.ru/finereader7/?param=28624.
Тестирование программы проводилось на платформе AMD. Редакция благодарит Российское представительство AMD за предоставленную платформу.