Клуб экспертов THG.ru

Клуб экспертов THG.ru (http://www.thg.ru/forum/index.php)
-   Девушка в мире IT (http://www.thg.ru/forum/forumdisplay.php?f=31)
-   -   Нужна программа для распознавания печатного текста (http://www.thg.ru/forum/showthread.php?t=32519)

Tefal 08.12.2008 00:33

Нужна программа для распознавания печатного текста
 
Доброй ночи.
Начну с главного, скачала книжку, она в WinDjView , каким-то случайным образом (вчера ночью, уже засыпала, не помню совершенно) сохранила в Adobe Reader. Сегодня нашла программку, чтобы Adobe Reader из перевести в обычный текстовый файл.

Все ЭТО нужно для того, чтобы читать книжки, скачанные в DjView на кпк.
Сразу скажу, что на кпк установлена DjView, но, книжку кто-то сделал таким образом, что читать просто невозможно, нужно постоянно увеличивать, двигать туда-сюда (книга сделана на развороте) - жутко неудобно, теряется мысль.

Помогите, пожалуйста, каким образом мне сохранить из DjView в Adobe Reader.

ill72 11.12.2008 15:44

Цитата:

Сообщение от Tefal (Сообщение 313875)
Помогите, пожалуйста

не проще будет заново скачать в нужом формате?

Doctor 11.12.2008 16:29

Tefal, данные в файлах DjView представляют из себя графику. Чтобы превратить графику в текст - нужен процесс распознавания, как это делает FineReader или CuneIForm. Документ Adobe PDF может содержать как текст, так и графику (вместе или по-отдельности). Программы, получающие из PDF обычный текст, обычно выбирают текст, имеющийся в PDF, и сохраняют его в текстовом файле.
Документ Adobe PDF, полученный из DjView, скорее всего содержит ТОЛЬКО графику. Поэтому, перевод книги в PDF, скорее всего, ни на шаг не приблизил Вас к получению обычного текстового файла.

Tefal 13.12.2008 05:49

Цитата:

Сообщение от ill72 (Сообщение 318125)
не проще будет заново скачать в нужом формате?

пока не вышло, но я активно ищу

Tefal 17.12.2008 22:28

Цитата:

Сообщение от Doctor (Сообщение 318178)
Tefal, данные в файлах DjView представляют из себя графику. Чтобы превратить графику в текст - нужен процесс распознавания, как это делает FineReader или CuneIForm. Документ Adobe PDF может содержать как текст, так и графику (вместе или по-отдельности). Программы, получающие из PDF обычный текст, обычно выбирают текст, имеющийся в PDF, и сохраняют его в текстовом файле.
Документ Adobe PDF, полученный из DjView, скорее всего содержит ТОЛЬКО графику. Поэтому, перевод книги в PDF, скорее всего, ни на шаг не приблизил Вас к получению обычного текстового файла.

Спасибо за полный ответ.

Да, нужна одна из вышеназванных программ....и, судя по тому, что мне их в инете не найти ( демо версии не подходят).книжки пока не читаются так активно, как хотелось бы=(
.нужно покупать, а стоят они..мда.

Doctor 18.12.2008 02:24

Цитата:

Сообщение от Tefal (Сообщение 325383)
Спасибо за полный ответ.

Да, нужна одна из вышеназванных программ....и, судя по тому, что мне их в инете не найти ( демо версии не подходят).книжки пока не читаются так активно, как хотелось бы=(
.нужно покупать, а стоят они..мда.

Компания Cognitive Technologies объявляет об открытие кода системы распознавания печатных текстов Cuneiform. Для распространения программы выбрана лицензия BSD (Berkeley Software Distribution). Исходный код доступен для скачивания со 2 апреля 2008 года на сайте www.cuneiform.ru.

Разработка и развитие OCR технологий - очень сложная и наукоемкая задача, имеющая более, чем 50-летнюю научную историю. Сегодня OCR массово востребованы не как отдельный продукт, а как части информационных систем (в том числе и офисных программ). Публикуя исходные коды системы Cuneiform с промышленным качеством распознавания, компания открывает возможность повсеместного использования OCR в различных программных продуктах и привлекает к развитию технологии сообщество Open Source.
Это событие - очередной этап реализации программы "Распознавание должно быть на каждом компьютере", в рамках которого к созданию OCR системы будет подключено сообщество разработчиков ПО с открытым кодом. Первый этап программы, когда OCR Cuneiform стала бесплатной, вызвал огромный общественный интерес. Об этом говорит тот факт, что только с сайта www.cuneiform.ru программу скачали более 300 000 раз. А всего по оценкам Cognitive Technologies за этот период количество скачиваний превысило 700 000.
Выбор лицензии BSD для открытия ядра OCR Cuneiform был обусловлен в первую очередь научно-исследовательской и образовательной направленностью проекта. В его рамках предполагается получить новые идеи и методы, которые смогут значительно усилить систему и повысить привлекательность OCR-технологий как сервиса. Для общества статус BSD означает возможность использования результатов работы в коммерческих проектах.
"По мере развития проекта мы планируем вести диалог с сообществом и рассматривать изменения условий лицензирования в сторону GPL (General Public License), как всего комплекса, так и его отдельных модулей.", - отмечает руководитель направления ПО с открытым кодом Cognitive Technologies В.В. Арлазаров.

На текущий момент заявку на участие в проекте уже подали более 30 человек из разных стран мира. В планах на 2008 год подготовка первой версии OCR с открытым кодом на базе Cuneiform, при разработке которой приоритетными направлениями будут: создание современного интерфейса, поддержка Linux и добавление новых языков распознавания.
Одновременно с открытием кодов Cognitive Technologies заканчивает работы по созданию web-сервиса, предоставляющего возможность распознавания текстов в сети Интернет без установки программного обеспечения на локальный компьютер.

Наберите в Гугле слово Cuneiform, и вы точно на одной из первых страниц найдёте где можно её загрузить (~33Мб)

HotBeer 06.02.2009 12:27

Tefal, у меня стоит finereader 9 с пару dll которые хорошо понимаю дежавю, с него можно и сохранять как нужно, ну естесственно как заметил Доктор после распознования

DYm00n 06.02.2009 13:01

ill72, не все книжки есть в нужном формате. Особенно если это техническая документация

Tefal 06.02.2009 19:42

Спасибо ВСЕМ ответившим=)
Все, установила файн ридер, все отлично.
Еще раз спасибо.


Часовой пояс GMT +4, время: 05:48.

Работает на vBulletin® версия 3.6.10.
Copyright ©2000 - 2020, Jelsoft Enterprises Ltd.
Перевод: zCarot