Fine. Reader 1. 2 — переход количества в качество. Как и в любой области человеческой деятельности, в мире софта нередко встречаются продукты, которые после яркого дебюта постепенно умирают. Читатель сам легко найдет примеры, когда все новые усовершенствования лишь загромождают некогда простую и изящную програмку, ничего не добавляя к основной ее функциональности. Наученный подобным горьким опытом на примере некоторых известных продуктов (не будем тыкать пальцем), я много лет не обращал внимания на регулярно появляющиеся новые версии самого, возможно, распространенного в мире произведения отечественных программистов: программы оптического распознавания символов (OCR, Optical Character Recognition) ABBYY Fine.
Reader. Распознает печатные тексты, если их засунуть в сканер — и ладно, а что еще можно от нее ждать? Вот когда «оно» научится распознавать рукописи Пушкина. Тогда пришлось оцифровать целую книжку, я даже приобрел официальную Pro- копию программы и был разочарован: этот процесс потребовал такого количества ручной работы, что собственно скорость и качество распознавания почти не играли никакой роли. Мало того, что программа с лету «кушала» PDF и DJVU, если в них ленивые оцифровщики разместили лишь слой изображения — она теперь научилась распознавать таблицы, помечать номера страниц, как колонтитулы, не мешая их с основным текстом, и даже (не поверите!) распознавать сноски, именно как сноски.
В результате подготовка новой электронной версии той же самой 3. Сейчас я бы справился еще быстрее — много времени ушло на изучение новых приемов работы с распознанным текстом. С тех пор Fine. Reader прошел необычайно большой путь — ему было куда совершенствоваться. Рассказывая о ней, я не буду подробно останавливаться на отличиях от предыдущей, 1. Здесь хочется просто остановиться на возможностях современных версий: современный Fine Reader отличается от себя самого десятилетием ранее, пожалуй, больше, чем выпускник технического вуза от юного члена кружка «Юных техников». Разобрать их все досконально мы не будем даже пытаться — для этого не хватит и целой книги, не то что журнальной статьи. Потому сосредоточимся на одной, но весьма востребованной сейчас задаче: подготовке электронных версий бумажных книг и брошюр.
Эта задача охватывает достаточно много функций программы, чтобы познакомится с ней подробно. Несмотря на распространение мобильных «читалок» (в последнее время, к сожалению, стремительно теряющих рынок в пользу универсальных планшетов), производители которых выдумали множество форматов электронных книг, базовым форматом для них остается старый добрый PDF. Он позволяет получить аутеничную копию бумажной книги, добавив к ней традиционные «электронные» удобства, такие, как полнотекстовый поиск или гиперссылки (в том числе интерактивное оглавление). Конкуренцию PDF может составить более компактный формат DJVU, но он менее распространен, и традиционно электронные книги в этом формате содержат лишь слой изображения. Программа Fine. Reader, как мы говорили, может воспринимать DJVU, как исходник для последующего распознавания (причисляя его к изображениям). Последовательно рассмотрим, какие действия нужно предпринять и какие подводные камни могут встретиться на этом пути. Сканирование. В принципе Fine.
Reader позволяет оригиналы переснимать фотокамерой, но для объемных документов я этот способ не посоветую: ручной работы по доводке, которой и без того достаточно, неизбежно окажется еще больше, чем в случае нормального сканера. Оригиналы могут быть цветными или монохромными, неважно — по умолчанию Fine. Reader 1. 2 все изображения переводит в оттенки серого.
Программа ABBYY FineReader предоставляет очень много. Если заранее ввести украинский язык в список автоматического .
Если требуется воспроизводить цветные иллюстрации, то при сканировании из самого Fine. Reader следует заранее проверить, включен ли цветной режим, иначе информация о цвете будет потеряна. В 1. 2- й версии кнопка включения цветного режима находится прямо на панели инструментов.
Разница в том, что при сканировании из Fine. Reader программа сама настроит оптимальный режим, а при сканирования из другой программы об этом придется позаботиться вам. В принципе условие только одно: для обычных книжных страниц должно быть установлено разрешение сканирования не ниже 3. Однако, есть случаи, когда предварительная ручная обработка сканов предпочтительнее, чем непосредственное сканирование из программы. Для примера рассмотрим ситуацию, когда вы хотите оцифровать документ, в оригинале представляющий собой пятую- шестую машинописную копию на пожелтевшей бумаге. В течение многих лет этот листочек служит у меня тестом для программ распознавания.
Если посмотреть на увеличенное слово «секретные» внизу, становится понятно, почему Fine. Reader вообще его пропустил: качество печати таково, что фактически перед нами вариант теста CAPTCHA, недоступный для распознавания. Надо сказать, что из попадавшихся мне OCR- программ только Fine. Reader представил хоть какой- нибудь результат для этого текста, и то только в последних версиях – десять лет назад он тоже выдавал сплошной набор нераспознанных штрихов и загогулин. Рис. Изображение шестого экземпляра машинописного экземпляра текста, ниже — результаты его распознавания в 1. Fine. Reader. Слева — необработанный оригинал, справа — он же, пропущенный через фильтр увеличения резкости Unsharp Mask, снижение шума и повышение контрастности.
Перевел на Украинский язык. По сути,требовать от программы возможностей fine reader с ББ глупо. ABBYY FineReader 10 поддерживает 186 языков распознавания. Один из восточнославянских языков. Официальный язык Украины. Распространен также в Джибути, Эфиопии, Кении. Носителей около 11 млн. Как подключить язык в FineReader?Первым делом проверьте не исключен ли ваш язык в панели программы,возможно что вы его не выбрали.Если вашего языка нет в списке поддерживаемых языков то переустановите.
Внизу для наглядности приведены увеличенные фрагменты проблемного слова в том и другом случае. Результаты распознавания стали куда более осмысленными, причем в 1. Fine. Reader они еще лучше, чем в предыдущих. Попеняю, к слову, разработчикам программы: в принципе в Fine. Reader есть все нужные инструменты для доводки изображения, но на практике они оказываются почти бесполезными. Во встроенном редакторе изображений ощутимый эффект дают лишь инструменты изменения яркости/контрастности и обрезки картинки, остальные в таких сложных случаях видимого действия не оказывают.
ABBYY FineReader Online - сервис онлайн-распознавания текста и конвертации PDF в Word. Работа с документами на любом из 193 языков.
Потому доводку подобных оригиналов и приходится делать во внешней программе. А обычную книжную страницу Fine. Reader в современных версиях распознает без каких- либо проблем — повозиться придется лишь с опечатками из- за дефектов оригинала, и, главное, с форматированием. В моем случае много времени ушло, когда в списке литературы в конце книги нашлось несколько позиций на смешанном русском и украинском языках. Если заранее ввести украинский язык в список автоматического распознавания, не придется терять время на ручную правку таких отрывков, как «з .
Правильная последовательность действий следующая: на панели инструментов рядом с большой кнопкой Распознать есть пункт Язык документа с выпадающим списком, в котором следует выбрать самый нижний пункт Выбор языков. Автоматически выбирать язык распознавания. Вероятность, что автоматика перепутает язык, невелика: по крайней мере для европейских языков мне ни разу не пришлось воспользоваться пунктом Указать языки распознавания вручную (см. Рис. Панель выбора языков распознавания.
Редактирование. Если распознаваемый документ имеет сложную структуру, то в Справке рекомендуется еще до сканирования отключить автоматическое распознавание (Сервис> Настройки. Тогда вы можете вручную указать расположение, тип и назначение областей для каждой страницы в отдельности.
Для нашей задачи — распознавание целой книги — такой прием использовать практически нереально: проще постфактум править отдельные неверно распознанные страницы. Чтобы в окне результатов распознавания видеть текст, более- менее приближенный к тому, что потом окажется в результирующем файле, следует выбрать нужную опцию из выпадающего списка Оформление документа (в нашем случае это будет Точная копия). Fine. Reader неизбежно будет пытаться разбить их на области различного типа, и тут без ручной правки не обойтись. Такие фрагменты текста, как математические формулы, проще выделить отдельно и объявить изображениями (особенно это касается рукописных вставок с формулами, характерных для оригиналов эпохи докомпьютерной верстки). Иногда целесообразно наложить текстовые области поверх картинки — они будут распознаны, но при соответствующем выборе конечного результата (см.
Иногда в этом случае стоит изображение выделить в область типа Фоновая картинка, и проследить, чтобы текст был распознан корректно. При всей своей «интеллектуальности», Fine. Reader самостоятельно не умеет распознавать текст, если он развернут так, как показано на рис. Для того, чтобы распознавание было верным, выделите область текста и внизу на панели свойств выберите из выпадающего списка Ориентация нужную позицию (на рис. Рис. При этом не ошибитесь и не запустите распознавание всего документа заново через кнопку Распознать на панели инструментов — вы можете потерять все результаты кропотливой ручной правки. Остановимся только на одном существенном моменте именно в случае сканирования книг: неприятно, если номера страниц в PDF- файле и в самой книге не будут совпадать. Если нет никакой возможности привести их в соответствие перенумерацией (см.
Для этого следует проверить, что все номера страниц распознаны, как колонтитулы (и при необходимости выделить их в отдельную текстовую область, которой в панели свойств области придать назначение Колонтитул — не забудьте потом запустить распознавание страницы или соответствующих областей заново!), а затем в меню Сервис> Настройки> Сохранить> PDF снять отметку с пункта Сохранять колонтитулы. Вот только без дополнительных действий создать его корректно не удастся: Fine.
Reader научился очень многим вещам, но правильно распознать уровни заголовков ему не под силу. И не только уровни: иногда он принимает за заголовки просто выделенный или крупный текст. В результате в автоматическом режиме распознавания вместо оглавления неизбежно получается совершенная каша. Приходится либо снимать эту отметку и обходится без оглавления, либо доводить полученный файл во внешних программах, причем найти удобный и недорогой инструмент для редактирования PDF — задача не из тех, что решаются с полпинка.
Fine. Reader 1. 2 — переход количества в качество . Рассказывая о ней, я не буду подробно останавливаться на ее отличиях от предыдущей, 1.
Просто познакомимся с возможностями современных версий. Читатель сам легко найдет примеры, когда все новые усовершенствования лишь загромождают некогда простую и изящную программку, ничего не добавляя к основной ее функциональности. Наученный подобным горьким опытом на примере некоторых известных продуктов (не будем тыкать пальцем), я много лет не обращал внимания на регулярно появляющиеся новые версии самого, возможно, распространенного в мире творения отечественных разработчиков — программы оптического распознавания символов (OCR, Optical Character Recognition) ABBYY Fine. Reader. Распознает печатные тексты, если их засунуть в сканер, — и ладно, а что еще можно от нее ждать? Вот когда «оно» научится распознавать рукописи Пушкина. Тогда мне потребовалось оцифровать целую книжку, и я даже приобрел официальную Pro- копию программы.
Но был ею разочарован: этот процесс потребовал такого количества ручной работы, что собственно скорость и качество распознавания почти не играли никакой роли. Работа, проделанная за пршедшее время компанией ABBYY, вызвала у меня искреннее восхищение. Мало того, что программа с лету «кушала» PDF и DJVU, если в них ленивые оцифровщики разместили лишь слой изображения, — теперь она еще научилась распознавать таблицы, помечать номера страниц как колонтитулы, не мешая их с основным текстом, и даже (не поверите!) распознавать сноски именно как сноски. В результате подготовка новой электронной версии той же самой 3. Сейчас я бы справился еще быстрее — много времени ушло на изучение новых приемов работы с распознанным текстом. С тех пор Fine. Reader прошла необычайно большой путь — ей было куда совершенствоваться.
Рассказывая о ней, я не буду подробно останавливаться на ее отличиях от предыдущей, 1. Здесь стоит просто остановиться на возможностях современных версий.
Нынешняя программа Fine Reader отличается от самой себя десятилетней давности, пожалуй, даже больше, чем выпускник технического вуза от члена кружка «Юных техников». Разобрать их все досконально мы здесь не будем даже пытаться — для этого не хватит и целой книги, не то что журнальной статьи. И потому сосредоточимся на одной, но весьма востребованной сейчас задаче: подготовке электронных версий бумажных книг и брошюр. Эта задача охватывает достаточно много функций программы, чтобы познакомится с ней подробнее. Несмотря на распространение мобильных «читалок» (в последнее время, к сожалению, стремительно теряющих рынок в пользу универсальных планшетов), производители которых выдумали множество форматов электронных книг, базовым форматом для них все же остается старый добрый PDF. Он позволяет получить аутеничную копию бумажной книги, добавив к ней традиционные «электронные» удобства, такие как полнотекстовый поиск или гиперссылки (в том числе интерактивное оглавление).
Конкуренцию PDF может составить более компактный формат DJVU, но он менее распространен, и традиционно электронные книги в этом формате содержат лишь слой изображения. Программа Fine. Reader, как уже было отмечено, способна воспринимать DJVU как исходник для последующего распознавания (причисляя его к изображениям). Последовательно рассмотрим, какие действия нужно совершить и какие подводные камни могут встретиться на этом пути. Сканирование. В принципе, Fine. Reader позволяет переснимать оригиналы фотокамерой, но для объемных документов я этот способ применять не посоветую: ручной работы по доводке, которой и без того достаточно, неизбежно окажется еще больше, чем в случае использования обычного сканера. Оригиналы могут быть цветными или монохромными, это неважно, — по умолчанию Fine.
Reader 1. 2 все изображения переводит в оттенки серого. Если требуется воспроизводить цветные иллюстрации, то при сканировании из самого Fine. Reader следует заранее проверить, включен ли цветной режим, иначе информация о цвете будет потеряна. В 1. 2- й версии кнопка включения цветного режима находится прямо на панели инструментов. Разница в том, что при сканировании из Fine. Reader программа сама настроит оптимальный режим, а при сканирования из другой программы об этом придется позаботиться уже пользователю. В принципе, условие только одно: для обычных книжных страниц должно быть установлено разрешение сканирования не ниже 3.
Однако бывают случаи, когда предварительная ручная обработка сканов предпочтительнее, чем непосредственное сканирование из программы. В течение многих лет этот листочек служит у меня тестом для программ распознавания. Если посмотреть на увеличенное слово «секретные» внизу, становится понятно, почему программа Fine. Reader вообще его пропустила: качество печати таково, что фактически перед нами вариант теста CAPTCHA, недоступный для распознавания. Надо отметить, что из попадавшихся мне OCR- программ только Fine. Reader представила хоть какой- нибудь результат для этого текста, и то только ее последние версии — десятилетие назад она тоже выдавала сплошной набор нераспознанных штрихов и загогулин. Здесь сканированный текст во внешней графической программе был пропущен через фильтр увеличения резкости Unsharp Mask, затем через фильтр снижения шума Median Cut, а потом через повышение контрастности.
Результаты распознавания стали куда более осмысленными, причем в случае применения 1. Fine. Reader они еще лучше, чем при использовании предыдущих. Попеняю, к слову, разработчикам программы: в принципе, в Fine.
Reader есть все нужные инструменты для доводки изображения, но на практике они оказываются почти бесполезными. Во встроенном редакторе изображений ощутимый эффект дают лишь инструменты изменения яркости/контрастности и обрезки картинки, остальные в таких сложных случаях видимого действия не оказывают. Поэтому доводку подобных оригиналов и приходится делать во внешней программе. А обычную книжную страницу Fine. Reader в современных версиях распознает без каких- либо проблем — повозиться придется лишь с опечатками из- за дефектов оригинала и, главное, с форматированием. В моем случае много времени ушло на обработку списка литературы в конце книги, где нашлось несколько позиций, в которых были смешаны русский и украинский язык.
Если заранее ввести украинский язык в список автоматического распознавания, то не придется терять время на ручную правку таких отрывков, как «з . Правильная последовательность действий следующая: на панели инструментов рядом с большой кнопкой «Распознать» есть пункт «Язык документа» с ниспадающим списком, в котором следует выбрать самый нижний пункт «Выбор языков». Автоматически выбирать язык распознавания». Через кнопку «Указать.
Вероятность, что автоматика перепутает язык, невелика: по крайней мере для европейских языков мне ни разу не пришлось воспользоваться пунктом «Указать языки распознавания вручную» (см. Редактирование. Если распознаваемый документ имеет сложную структуру, то в «Справке» рекомендуется еще до сканирования отключить автоматическое распознавание («Сервис». Тогда вы можете вручную указать расположение, тип и назначение областей для каждой страницы в отдельности. Для нашей задачи — распознавание целой книги — такой прием использовать практически нереально: проще постфактум править отдельные неверно распознанные страницы. Чтобы в окне результатов распознавания видеть текст, более- менее приближенный к тому, что потом окажется в результирующем файле, следует выбрать нужную опцию из ниспадающего списка «Оформление документа» (в нашем случае это будет «Точная копия»). Fine. Reader неизбежно будет пытаться разбить их на области различного типа, и тут без ручной правки не обойтись.
Такие фрагменты текста, как математические формулы, проще выделить отдельно и объявить изображениями (особенно это касается рукописных вставок с формулами, характерных для оригиналов эпохи докомпьютерной верстки). Иногда целесообразно наложить текстовые области поверх картинки — они будут распознаны, но при соответствующем выборе конечного результата (см. Иногда в этом случае стоит выделить изображение в область типа «Фоновая картинка» и проследить, чтобы текст был распознан корректно.
При всей своей «интеллектуальности», Fine. Reader самостоятельно не умеет распознавать текст, если он развернут так, как показано на рис. Для того чтобы распознавание было верным, выделите область текста и внизу на панели свойств выберите из ниспадающего списка «Ориентация» нужную позицию (на рис. При этом не ошибитесь и не запустите распознавание всего документа заново через кнопку «Распознать» на панели инструментов — вы можете потерять все результаты кропотливой ручной правки. Обратим внимание только на один существенный момент именно в случае сканирования книг: неприятно, если номера страниц в PDF- файле и в самой книге не будут совпадать. Если невозможно привести их в соответствие перенумерацией (см.
Для этого следует убедиться, что все номера страниц распознаны как колонтитулы (и при необходимости выделить их в отдельную текстовую область, которой в панели свойств области придать назначение «Колонтитул» — не забудьте потом запустить распознавание страницы или соответствующих областей заново!), а затем в меню «Сервис». Вот только без дополнительных действий создать его корректно не удастся: программа Fine. Reader научилась очень многому, но правильно распознать уровни заголовков ей не под силу.
И не только уровни: иногда она принимает за заголовки просто выделенный или крупный текст. В результате в автоматическом режиме распознавания вместо оглавления неизбежно получается совершенная каша. Приходится либо снимать эту отметку и обходится без оглавления, либо доводить полученный файл во внешних программах, причем найти удобный и недорогой инструмент для редактирования PDF — задача не из тех, что решаются с полпинка. Заметим, что проблема для других форматов электронных книг (aka FB2 и EPUB) еще острее, потому что там оглавление формируется всегда, без всяких дополнительных указаний, и доводить его потом придется так или иначе.