Краткое описание программы cuneiform. OCR CuneiForm

Жаропонижающие средства для детей назначаются педиатром. Но бывают ситуации неотложной помощи при лихорадке, когда ребенку нужно дать лекарство немедленно. Тогда родители берут на себя ответственность и применяют жаропонижающие препараты. Что разрешено давать детям грудного возраста? Чем можно сбить температуру у детей постарше? Какие лекарства самые безопасные?

Модуль поиска не установлен.

Система распознавания текстов CuneiForm 2000

Ольга Крылова, [email protected]

Покупкой сканера, как правило, преследуют одну из целей. Когда требуется перевод печатных изображений и фотографий в электронный вид, либо для переноса текстовой информации с бумажного оригинала в формат компьютерного редактора. Выбор и тестирование всевозможных программ, обеспечивающих интерфейс, обычно занимает уйму времени. Но с облегчением можно вздохнуть, узнав, что "продвинутых" программ, предназначенных для ввода и распознавания текста со сканера, всего две: это CuneiForm и Fine Reader.

Заполучив новый сканер, его обладатель может автоматически стать пользователем одной из этих программ, т. к. фирмы-производители давно внедряют свои продукты "в довесок" к оборудованию. Конечно же, лицензионный пакет ПО с набором последних разработок таким способом не распространяется. Купивший сканер получает бета-версию новой или устаревшую (но работающую без ограничения времени) модификацию программы.

Среди пользователей-профессионалов до сих пор не разрешен спор в пользу CuneiForm и Fine Reader. Каждый из продуктов в той или иной версии всегда опережает своего конкурента в каком-либо функциональном новшестве. Тем не менее, обобщенные оценки обеих программ практически равны. Пользователей системы Fine Reader больше, что отчасти объясняется маркетинговой политикой при ее распространении. Однако и программа распознавания текстов CuneiForm имеет немало своих сторонников, т. к. ее принципиально отличает от конкурента иная платформа, интерфейс и ряд незаменимых функций. Имея в арсенале CuneiForm 2000 и Fine Reader 5.0, пользователи часто проводят сравнение возможностей обеих программ, чтобы выбрать для себя наиболее удобную. Такая политика более оправдана, чем вера в слухи и воспеваемые дифирамбы конкретной распознавалке. Сколько компьютерщиков, столько, как говорится, и мнений!

Основной критерий, вызывающий восхищение пользователей во время сканирования, это соотношение скорость/качество. При масштабной работе с текстом, не обремененным таблицами и рисунками, ставка делается на возможность при помощи программы распознавания сэкономить массу времени. Максимально высокая скорость (а высоких показателей на сегодняшний день добивается любая современная система) достигается, когда рабочий документ идеального качества, с крупным ярким шрифтом. Не секрет, что этот фактор напрямую влияет и на качество распознанного текста. Если бумажная версия рабочего документа пропечатана плохо, то время на распознавание, естественно, увеличивается. Программа CuneiForm 2000, стремясь к идеальной формуле скорость/качество, подключает целую совокупность алгоритмов. Их взаимосвязанная работа позволяет системе после оценки отсканированного объекта подключить именно тот механизм, который быстрее справится с поставленной задачей. Тем самым интеллектуальная программа экономит время пользователя! Затратив несколько секунд на принятие и реализацию решения, система страхует от вторичного сканирования того же документа, изменения настроек и возможного ручного редактирования нераспознанных символов.

Еще один важный момент, который обеспечит максимальную скорость работы программы распознавания. Приобретая сканер и задаваясь целью максимально использовать его, не стоит скупиться на upgrade самого компьютера. Это очевидно: современные разработки программного обеспечения стремятся к максимальной эффективности (в нашем случае скорость/качество), требуя дополнительных аппаратных ресурсов. Переходя от версии к версии любимой программы распознавания текстов, нужно заботиться об увеличении памяти и мощности процессора вашего компьютера. При таких условиях будет легче прочувствовать новшества, введенные разработчиками, и полностью насладиться всеми функциями программы.

Однажды оценив легкость и полезность системы распознавания, уже невозможно от нее отказаться. Упразднив ручной набор, пользователь пытается доверить процессу распознавания со сканера все более и более сложные тексты. Обычное желание - сэкономить усилия при создании и верстке таблиц, а также поставить на поток перевод в цифровой формат многочисленных рисунков и формул. Если "в молодом возрасте" программа распознавания эту проблему решала с трудом, долго "скрипя" над поставленной задачей и иногда совершая ошибки, то сегодня CuneiForm 2000 выручает своих сторонников на все 100%. Иногда при вводе сложных текстов возникают некоторые нюансы, требующие доработки. Но не понравившийся результат всегда можно исправить, изменив методику: например, перейти на ручное выделение блоков, что часто прибавляет удобства при формировании таблиц. Очень быстро разрешит сомнения развернутая справочная система: воспользовавшись ею, можно за 2-3 итерации поставить на поток сканирование и распознавание идентичных по структуре страниц. Последнюю версию программы распознавания текстов CuneiForm 2000 сайт разработчика (http://www.cuneiform.ru) распространяет бесплатно. Программа работоспособна в течение 30 дней или 100 запусков, т.к. для дальнейшего использования требуется оплата программного продукта и регистрация. При обращении же к незарегистрированной копии на экране появляется запрос на ввод пароля и диалог-предупреждение о том, что программа не зарегистрирована. Однако времени, отведенного на эксплуатацию пробной версии системы CuneiForm 2000, вполне достаточно, чтобы оценить ее достоинства и недостатки. При этом функциональные возможности такой копии CuneiForm ничем не отличаются от ее зарегистрированного оригинала. В техническом руководстве к программе обозначено несколько отличий между двумя версиями: CuneiForm 2000 Professional и CuneiForm 2000 Master. Оценив эту разницу, можно уменьшить (увеличить) затраты на приобретение той или иной версии. Стоимость CuneiForm 2000 Professional составляет $129 (upgrade $39), Professional CuneiForm 2000 Master - $249 (upgrade $75). Обе модификации позволяют работать с 15 языками, распознавать таблицы, рисунки и, проверяя орфографию, сохранять обработанный текст в различных форматах, т. е. самые необходимые функции, не говоря уже о стабильном качестве и скорости распознавания. Пакет CuneiForm 2000 Master, в отличие от своего урезанного по возможностям собрата CuneiForm 2000 Professional, предоставляет еще и работу с пакетным распознаванием. Не менее полезная возможность - сканирование с удаленного сканера, что удобно при работе нескольких пользователей в сети.

Впервые приступая к сканированию и распознаванию текстов, полезно отметить для себя следующие моменты. При запущенной программе CuneiForm 2000 и подключенном сканере вся работа делится на 4 этапа. Каждый этап зафиксирован и запускается кнопкой в главной информационной панели системы распознавания (см. рисунок 1).

Кнопка "Получить изображение" отвечает за процесс сканирования, и при ее нажатии система вызывает управляющую сканером программу. Внешний вид программы зависит от модели сканера и входит в комплект поставки аппарата. На всякий случай отмечу, что к этому моменту документ уже должен находиться в сканирующем устройстве. Процесс считывания требует от пользователя ручного управления как минимум двумя функциями: предварительное сканирование и непосредственно сканирование. В промежутке можно настраивать параметры цветности, контрастности, разрешения, если требуется - поворот страницы и т.п. Как правило, этап сканирования самый длительный, его завершение фиксирует возврат в меню системы CuneiForm с появлением на экране отсканированного изображения.

При помощи кнопки "Разметка" главной панели вызывается этап разметки страницы. Целесообразно установить по умолчанию автоматический режим (что отмечается треугольной стрелкой в углу кнопки). Автоматическая разметка изображения выполняется обязательно (в противном случае пользователь переходит к ручной). При ее завершении происходит прямой переход к третьему этапу.

Для распознавания текста нужно нажать на кнопку "Распознавание" в главной панели инструментов (стрелка в углу, как принято в программе, означает автоматический режим и переход после выполнения к следующему этапу). Распознанный текст загружается в окно текстового редактора системы CuneiForm, в котором сомнительные слова и символы выделены цветом.

Дальнейшие действия следующие: редактирование обработанного текста в редакторе системы и вызов этапа сохранения кнопкой "Запись в файл". Упрощенный процесс сканирования и распознавания документа на этом завершен. Для экономии времени можно пренебречь проверкой, скопировав распознанный текст из редактора системы CuneiForm через буфер обмена в блокнот, Word или любой другой.

Итак, упрощенный процесс сканирования освоен и уже произведены некоторые первоначальные оценки. Теперь пользователю предстоит расширить диапазон освоения возможностей программы.

Чтобы получить навыки работы со сложным объектом, стоит взять при изучении системы что-нибудь сложное для распознавания: например, книгу с таблицами и рисунками. При этом текст будет располагаться двумя колонками (вы сканируете разворот двух страниц одновременно). Здесь, а также в других "многоколончатых" случаях не запрещайте системе CuneiForm 2000 "видеть" такое расположение текста. В противном случае можно потерять все форматирование. К примеру, установив флажок при задании опций пакетного распознавания (см. рисунок 2), - в целом пакете.

На этапе сканирования, в первую очередь предлагаю зафиксировать параметры системы, которые будут использоваться по умолчанию. Задать правильно все настройки распознавания поможет справочная система и "Мастер распознавания", в котором настраиваются следующие параметры: цветность, формат границ, разрешение, яркость, контраст и порог, язык распознавания, вид нераспознанного символа, сохранение, параметры разметки, наличие таблиц и картинок, словарный контроль. Режимы: колонка, факс, матричный принтер. Задав эти настройки в меню "Параметры" по умолчанию, в последующем не придется выбирать одни и те же опции при работе с данной книгой.

В окне изображения система позволяет управлять отсканированным объектом: просматривать в различных масштабах, отображать его фрагменты в окне увеличения, поворачивать, инвертировать. Отсканированный объект можно сохранить в файле. (А впоследствии - обработать при помощи пакетного распознавания.) Как и любой графический файл, изображение несложно распечатать.

Следующий этап тестирования возможностей системы - это настройка опций разметки. Часто бывает полезной замена автоматической разметки на ручную. Это пригодится в нашем случае с книгой, т.к. в тексте могут присутствовать объекты, которые не нужно включать в распознанный текст: колонтитулы, номера страниц, пометки на полях. Система CuneiForm 2000 игнорирует все находящееся за пределами размеченной области. Во-вторых, операция ручной разметки спасет наши таблицы: такие манипуляции сэкономят время на последующую верстку! Простой пример: даже такой интеллектуальной системе, как CuneiForm 2000, очень непросто "увидеть" в документе таблицу, которая не ограничена сеткой. Визуально такой объект выглядит как многоколончатый текст, и программа автоматически выделяет его так же.

Область распознавания выделяется курсором мыши, принявшим вид креста. Часть изображения, оставленная за пределами области распознавания, будет затенена, а область распознавания - нет. Средства ручной разметки задают размеры блоков текста и иллюстраций, формируют блоки таблиц. Блоки можно перемещать, изменять размеры, добавлять, удалять, упорядочивать, преобразовывать в блоки другого типа (в т. ч. многоугольные) и пр.

После автоматической разметки сложного текста происходит разбиение на несколько мелких блоков. Меню "Правка" позволяет объединять их и нумеровать, организуя порядок, в котором содержимое блоков переносится в текст. После выбора пункта "Пронумеровать блоки" в углу каждого блока высвечивается его номер. Последовательные щелчки мышью изменят номер блока, начав с первого и далее по порядку.

Все манипуляции в отношении блоков текста, таблиц и иллюстраций совершаются с помощью меню "Правка" и "Изображение". Причем любой блок разметки можно преобразовать в блок иллюстрации, выбрав опцию "Определить блок как рисунок".

После запуска распознавания готовый текст разместится в текстовом редакторе. В нем предусмотрена возможность последовательного просмотра сомнительных слов при помощи меню "Правка" или комбинаций клавиш Ctrl+F8, Ctrl+F7. Редактор системы CuneiForm 2000 позволяет управлять шрифтами, меняя их начертание, размер и пр. Есть также упрощенные возможности работы с абзацами.

Прежде чем запустить функцию распознавания, в меню "Параметры" кнопки "Распознавания" необходимо задать язык распознаваемого текста, допустим, для рассматриваемого примера сканирования страниц книги подойдет выбор "Русско-Английский". Эта операция важна для правильной работы функций словарного контроля, а также для исключения знаков переноса (однако в настройках можно указать и сохранение исходных переносов). Режим "Словарный контроль" включается в том же меню или в опциях "Общие параметры". Система CuneiForm 2000 имеет богатый словарь, но при отсутствии в нем какого-то слова знак переноса может оказаться в распознанном тексте. Эти слова будут отмечены цветом как сомнительные. Нераспознанные символы по умолчанию в программе заменяются знаком тильды - "~".

Чтобы облегчить работу программе, лучше заранее установить режим распознавания для документов, напечатанных на матричных принтерах или пришедших по факсу - они существенно отличаются от обычных текстов.

Распознанный текст можно записать в файл, а можно экспортировать в текстовый процессор Microsoft Word, электронные таблицы Microsoft Excel или в электронный архив "Евфрат". Для упрощения работы полезно включить автоматический вызов экспорта в нужную программу. Эти настройки задаются в диалоговом окне кнопки "Сохранение".

Запись распознанного текста в файл производится по обычной для текстового редактора схеме: выбор каталога, формата создаваемого файла, кодировки символов кириллицы. Чтобы в файле каждый абзац был разбит на отдельные строки, следует установить флажок "Сохранять концы строк внутри параграфа". Имя файла указывается без расширения. Сохраняя сложно отформатированный документ в текстовом формате, нужно при разметке правильно упорядочить блоки текста. В противном случае фрагменты текста из разных блоков могут быть записаны в файл с нарушением порядка.

Отсканировав несколько страниц книги с использованием вышеперечисленных советов, пользователь заметит, что процесс работы с системой CuneiForm 2000 принял поточный характер. В случае, когда те же самые итерации с одинаковыми настройками программы повторяются от страницы к странице, удобно затрачиваемые усилия переложить на плечи пакетного распознавания. Эта подпрограмма отлично экономит время при условии, что объединенные в пакет страницы не требуют ручного вмешательства. Суть метода заключается в том, что прошедшие 1 этап ("Сканирование") страницы (одна или несколько десятков) объединяются в каталог и откладываются на время. Пользователь сам выбирает момент для запуска следующих этапов для данного пакета (каталога). Объединенные в пакет файлы все, как один, получают единовременные настройки разметки, распознавания и сохранения. Эти настройки и есть последний шаг, предпринимаемый человеком в пакетном распознавании. Следующее его вмешательство - просмотр результатов.

Высвободившееся время лучше всего направить на работу с "непослушными страницами". Рациональнее не включать их в пакет и обработать "старым", уже изученным способом, выделяя вручную блоки, редактируя таблицы, рисунки и проблемные участки.

Пакетное распознавание в системе CuneiForm функционирует как самостоятельный модуль программы и запускается в отдельном окне. Чтобы стало понятнее, какими возможностями наделена эта подпрограмма, приведу формулировку из справочной системы. "Пакетом будем называть совокупность графических файлов, параметров их обработки программой пакетного распознавания, файлов с распознанным текстом и сообщений об ошибках, которые возникли при распознавании текста. Пакет может существовать только в оперативной памяти компьютера во время сеанса работы с программой пакетного распознавания, а может быть записан на диск в виде файла с расширением.CBF. В пакете хранятся только ссылки на файлы, сами же файлы хранятся на диске независимо от пакета. В пакете записаны полные пути к файлам, поэтому, скажем, перемещение пакета на другой диск или в другой каталог приведет к тому, что программа пакетного распознавания не найдет включенные в пакет файлы. В пакет можно добавить не только отдельные файлы, но и каталог, что бывает полезно, когда планируется обработка пакета в режиме ожидания. Жизненный цикл пакета начинается созданием последнего, в частности добавлением в него графических файлов. Для того чтобы распознать текст, находящийся в графических файлах, пакет следует обработать, при этом для каждого успешно обработанного графического файла создаются и включаются в пакет файлы с распознанным текстом. Поскольку эти файлы записываются непосредственно на диск и имеют стандартный формат, RTF или текстовый, необходимости сохранять или экспортировать распознанный текст нет: достаточно просто скопировать файлы с распознанным текстом в нужный каталог."

Как и при любом сотрудничестве с программой CuneiForm, управлять пакетным распознаванием очень просто. "Мастер пакетного распознавания" начинает работать после нажатия кнопки "Создание пакета" в подпрограмме. Вкратце опишу те действия, которые нужно предпринимать при работе с Мастером. Первое действие - задать имя пакету. Далее - настройки опций "Распознавание". Они идентичны уже знакомым нам со времен сканирования страниц книги параметрам. Здесь порядок таков: "Язык распознавания", "Словарный контроль", "Матричный принтер", "Факс", "Колонки", "Нераспознанный символ", "Таблицы", "Картинки", "Автоповорот" (см. рисунок 2), "Список файлов, составляющих пакет", "Параметры шрифтов" и "Тип распознанных файлов". Допустим, можно выбрать несколько "отложенных" после сканирования страниц, сохраненных в файлах формата.TIF. Мастер поинтересуется, что делать с обработанными графическими файлами (удалять, перемещать или ничего) и в каком формате сохранять распознанные тексты. После запуска распознавания окно программы будет содержать дерево пакетных файлов и индикатор процесса обработки (см. рисунок 3). При желании результаты можно записать в файл-протокол (LOG). Программа пакетного распознавания может обрабатывать несколько пакетов одновременно, а также в режиме ожидания, обработка в котором заканчивается только после вмешательства пользователя.

Резюме (краткое руководство)

1. Начинать работу с системой CuneiForm 2000 нужно с оценки качества текста и параметров сканирования, при которых достигается максимум качества/скорости. Для этого: отсканировать 1-2 страницы текста, задав параметры вручную. На основании проделанной работы задать "по умолчанию" опции сканирования (в частности, "цветность", "разрешение", "яркость"), все форматы распознавания и сохранения.

2. Позволить системе автоматическую разметку с последующим распознаванием отсканированного объекта. В случае удовлетворяющего вас результата выполнять эти этапы для идентичных страниц в режиме "Автомат". В случае возникших неточностей распознавания - перейти к ручной разметке и редактированию блоков, особое внимание уделяя таблицам и рисункам.

3. Отсортировать страницы, требующие "ручного управления". Для оставшихся выполнить этап "Сканирование", сохранить результат в графическом формате.

4. Выполнить весь объем работ порциями, используя возможности системы CuneiForm 2000. Сначала обработать страницы, требующие "ручного управления". Вторую порцию - средствами пакетного распознавания идентичные по оформлению графические файлы (см. п. 3), отсортированные в каталоги-пакеты.


Сегодня я расскажу и научу вас распознавать текст с картинок. Также для тех, кому нужна была программа для распознавания текста , ниже я предлагаю скачать русскую версию программы CuneiForm 12. А сейчас я более подробно расскажу, как с ней работать.

Зачем нужно распознавать тексты?

Например, вам задали написать доклад или реферат, полазив в интернете, вы нечего путного не нашли. Потом сходили в библиотеку и взяли книгу по теме доклада, но нужного текста в книге много и перепечатывания такого объема может занять у вас всё свободное время. Вот в таких случаях приходит на помощь программа CuneiForm 12 , от вас требуется от сканировать нужные страницы книги, а потом с помощью программы извлечь из картинок текст. Хочу заметить, что всё происходит очень быстро.

Программа для распознавания текста

Как я писал выше, мы будем работать с программой CuneiForm 12. Чем же она лучше других?

  • CuneiForm бесплатная , например программа ABBYY FineReader стоит 3990 рублей.
  • Высокая скорость работы и качество распознавания.
  • Распознавание текстов на 20 языках, в том числе смешанном русско-английском.
  • Работа с рисунками и таблицами.
  • Простота использования и интуитивно понятный интерфейс.
  • А также множество технических усовершенствований.

Но недостатки также имеются, так как это программа русских разработчиков, то красивым дизайном она не выделяется, но для меня главное, то что она правильно распознает текст.

Как работать с программой CuneiForm 12

После загрузки и установки программы, запустите CuneiForm 12. Вы должны увидеть вот такое окошко:

  1. Выбор картинки, с которой будет распознаваться текст.
  2. Выбор принтера.
  3. Кнопка «Распознавания».
  4. Кнопка «Сохранить».

Нажимаем на первую кнопку и выбираете нужную картинку или от сканированную страницу. В следующем окне выбираете язык текста, который находиться у вас на картинке. Следующие настройки не так важны, можете их пролистать.

После распознавания у вас должно появиться вот такое окошко:

В верхней части будет распознанный текст с выделенными ошибками, а ниже исходное изображение. Как вы видите, моя картинка была плохого качества, неровная, но программа распознала всё отлично. Кстати как видно на рисунке выше программа предлагает три варианта развития событий.

  • Оставить для редактирования.
  • Сохранить на диск.
  • Экспортировать в Word или в Excel.

Готово, теперь вы знаете, как это делается и у вас появилась программа распознавания текста со сканера.

Бесплатная программа для автоматического распознавания отсканированного текста. Вид у программы не карамельный, но дело своё она знает.

Компьютер уже уверенно вошел в жизнь рядового гражданина. Когда надо получить сравнительно небольшой объем печатной информации, проще всего набрать этот текст вручную при помощи текстового редактора.

Однако иногда надо «переписать» целую книгу. В таких случаях рациональнее всего использовать сканер. Но сам по себе сканер делает только фотокопию текста, которую никак нельзя редактировать. Для того, чтобы изменить информацию на полученном изображении следует провести распознавание документа.

Бесспорным лидером в этом деле является система OCR (англ. optical character recognition — оптическое распознавание текста) от Abbyy — FineReader. Но стоит она довольно дорого и не каждый может позволить себе иметь в своем арсенале такой инструмент. Сегодня мы познакомимся с бесплатной альтернативой Файн Ридера — программой CuneiForm . Приведу сравнительную таблицу возможностей обеих пакетов:

Сравнение распознавалки текста CuneiForm с платным аналогом FineReader

Как видим, если хочется бесплатно распознавать текст, придется кое в чем уступить. Первое, с чем придется смириться — неумение CuneiForm работать с некоторыми сканерами (в особенности сканерами МФУ). Поэтому придется сканировать документ при помощи стандартных функций Windows. Второе — надо следить за разрешением сканирования.

Это связано с тем, что CuneiForm не может обрабатывать большие файлы (свыше 100 Кбайт), а чем выше разрешение, тем больший размер файла-скана. Зато качество распознавания текста в программе намного выше, чем у платного конкурента, а поэтому оптимальным вариантом параметров скана будет 200 dpi (можно и больше, но тогда есть вероятность, что программа просто зависнет).

Количество языков тоже невелико, но основные есть. Более того, хоть комбинировать языки и нельзя, зато в CuneiForm есть смешанный англо-русский режим распознавания! На этом минусы заканчиваются:). Можно начинать установку.

Установка CuneiForm

Здесь сложностей нет, поскольку Вам поможет инсталлятор. Просто запускайте установочный файл и следуйте инструкциям. После установки в меню «Пуск» появится новый раздел. Открываем его и запускаем CuneiForm.

Интерфейс программы

Интерфейс CuneiForm намного проще, чем у Fine Reader, и почти не требует настройки. Программой можно полностью управлять благодаря кнопкам на панели инструментов. Рассмотрим их более детально:

Программа может работать в режиме мастера, который активируется первой кнопкой. Но если CuneiForm не поддерживает Ваш сканер, то от этого режима стоит отказаться. Следующая кнопка запускает процесс сканирования (опять же, если есть поддержка сканера). На этой и следующих кнопках Вы можете заметить небольшие стрелочки. Нажав на них, мы получим доступ к некоторым дополнительным функциям.

Работа с CuneiForm

Теперь давайте опробуем CuneiForm на практике. Если программа поддерживает Ваш сканер, то первой кнопкой, которую следует нажать, будет «Получить изображение». Если же такой возможности нет, то откроем уже готовый скан (поддерживаются форматы JPG, GIF, BMP, PNG (не всегда корректно), а также TIF (в полной мере)).

Теперь следует произвести разметку. Она помогает определить блоки, из которых состоит страница. Поддерживается распознавание блоков в виде текста (синяя рамка), рисунков (зеленая рамка) или таблиц (оранжевая рамка) (автоматическую разметку можно доработать вручную, используя контекстное меню блока).

Когда текст обозначен, самое время провести его распознавание. Для этого нажимаем следующую кнопку. По окончании процесса распознавания в рабочем окне отобразится текст, который можно редактировать в небольшом встроенном текстовом редакторе похожем на Microsoft Word. При этом Вы сразу сможете увидеть те слова, в которых программа «не уверена» (голубая подсветка) и в которых есть ошибка (сомнительная буква — розовая).

И, наконец, после успешного редактирования можно сохранить результат нашей работы. Кликаем последнюю кнопку на панели инструментов и сохраняем текст как RTF, HTML или TXT-файл.

Если же Вы желаете большего, то, нажав на стрелочку сбоку, Вы сможете выбрать опции экспорта в одну из предложенных программ (Microsoft Word, Excel или Евфрат).

Посмотрите на предыдущий скриншот. Наверняка вы обратили внимание, что в дополнительных меню кнопок, начиная с «Разметки» и заканчивая «Сохранением», есть в конце пункт «Автомат». Активирование этой опции освобождает Вас от нажатия выбранной кнопки. То есть можно автоматизировать процесс обработки скана до того, что Вы будете лишь открывать новый документ. Все остальное CuneiForm сделает сама!

Общие настройки CuneiForm

Программа изначально настроена самым оптимальным образом, но если Вы что-то захотите изменить, просто зайдите в меню «Файл» и выберите опцию «Общие параметры». Это может пригодиться для смены языка и некоторых других параметров распознавания, форматирования и сканирования текстов.

Пакетное распознавание

На этом можно было бы и закончить, если бы в пакет CuneiForm не входила еще одна утилитка. Откройте «Пуск» снова и в папке с программой обнаружите еще одно приложение — «Пакетное распознавание». Представьте, что Вы отсканировали целую книгу! и теперь надо ее распознать!!! Если открывать каждый файл-скан по отдельности на это уйдет уйма времени, пакетный же режим представляет возможность указать нужные файлы, а об остальном программа позаботится сама.

Для начала нужно создать новый пакет файлов. Нажимаем соответствующую кнопку и следуем подсказкам запустившегося мастера:

По окончании распознавания Вы сможете увидеть в основном окне все распознанные документы. Если распознавание прошло успешно, то в левой боковой панели Вы обнаружите активными только два списка: «Исходные» и «Обработанные». Если же будут файлы, которые не удалось распознать, их мы найдем в разделе «Ошибки».

Выводы

Потенциал у CuneiForm явно хороший, однако разработка ведется довольно медленно. Несмотря на открытый исходный код, компания Cognitive, видимо, очень требовательна к разработчикам, раз прогресс так долго не появляется. Остается только надеяться, что дело сдвинется с мертвой точки и программа станет еще лучше, а пока довольствуемся малым. Но такое ли уж оно и малое… Выбор за Вами!

подпишитесь на новые видеоуроки!

CuneiForm – бесплатная утилита, предназначенная для быстрого преобразования изображения в текстовый формат. Программа находит свое применение во многих сферах: в школах, в университетах, офисной работе, при оцифровке старых архивов, книг и прочих документов.

CuneiForm OpenOCR – лучшая альтернатива Abbyy Finereader

Чем же данный инструмент лучше Finereader для обычного пользователя? Прежде всего, бесплатностью. Стоимость вышеупомянутого софта составляет 5776 рублей, в то время, как за CuneiForm OpenOCR вы не платите ровным счетом ничего. Просто устанавливаем и пользуемся. Кстати, скачать CuneiForm вы сможете прямо на данной странице (внизу мы разместили ссылку на официальную версию программы). Сразу после установки открываем наш распознаватель и читаем небольшую инструкцию к нему:

Итак, как происходит преобразование картинки в текст? В данной программе будет очень просто работать и новичку, и профессионалу, ведь для распознавания нужно сделать всего пару действий. Во-первых, вам необходимо какое-то изображение (любого формата – PNG, BMP, JPEG и т.п.), поэтому открываем нужный объект.

Во-вторых, необходимо нажать на кнопку «Распознать». Далее, в CuneiForm запускается процесс распознавания текста. Это, как правило, происходит очень быстро, только в редких случаях нужно ждать больше 5-10 секунд.

После того, как инструмент распознал текст, открывается ваш стандартный текстовый редактор — Word, WordPad и т.п. Кстати, здесь же можно отредактировать полученный текст, ибо далеко не всегда утилита выдает точный результат, особенно при обработки испорченных, старых страниц.

Также далеко не всегда CuneiForm OpenOCR может выделить области текста, т.е. таблицы, абзацы, заголовки и прочие разделы. В такой ситуации вам необходимо вручную выполнить разметку страницы, для этого создан отдельный, удобный инструмент.

Для большего удобства разработчики добавили функцию сканирования. Ты просто кладешь в МФУ или сканер какой-то документ или книгу, сканируешь нужный участок, а после Кьюниформ автоматически преобразовывает текст в изображение — очень полезный инструмент.

Общих параметров здесь не так много, можно настроить всего 3 – разметка, сканирование и форматирование, но это компенсируется тем, что можно настраивать каждый модуль отдельно, так что пользователь все может настроить под себя. Кстати, сама утилита достаточно простая и совместима с любой ОС:

  • Windows XP;
  • Windows Vista, 7;
  • Windows 8, 8.1 и 10;
  • Mac OS;
  • Linux и другие.

Чтобы скачать CuneiForm бесплатно на русском, посетите официальный сайт разработчиков, там вы получите полную информацию о программе. Если вы уже поняли, как с ней работать, то просто нажмите на зеленую кнопку, и тогда вы получите отличный распознаватель текста, скачав его с официального сайта без вирусов и СМС-подписок.

Название программы : OCR CuneiForm

Версия : 12

Размер : 33,4 Мб

Язык : несколько языков в т.ч. русский

Тип программы : распознавание текста

Лицензия : свободная с открытым кодом

Описание программы

OCR CuneiForm может распознавать любые полиграфические, машинописные гарнитуры всех начертаний и шрифты, получаемые с принтеров за исключением декоративных и рукописных. В систему встроены специальные алгоритмы для распознавания текста с матричного принтера, плохих ксерокопий факсов и машинописи.

OCR CuneiForm это:

  • высокое качество распознавания;
  • высокая скорость работы;
  • распознавание текстов на русском, английском, смешанном русско-английском, украинском, немецком, французском, испанском, итальянском, шведском и других (всего более 20);
  • работа в режиме автофрагментации для поиска текстовых блоков, таблиц и изображений, а также мощное средство ручной и полуавтоматической фрагментации;
  • распознавание таблиц любой структуры и сложности, в том числе и без отображения линий табличной сетки;
  • автоматическое сохранение иллюстраций (черно-белых и цветных) и таблиц в получаемом на выходе документе;
  • полное сохранение топологии страницы;
  • поддержка пакетного режима сканирования и распознавания;
  • простота использования и интуитивный интерфейс, встроенные помощники по работе с программой;
  • встроенный текстовый редактор для работы с распознанным текстом;
  • совмещенный показ изображений и результатов распознавания.

В системе используется целый ряд уникальных технологий, среди которых адаптивное распознавание, нейронные сети, когнитивный анализ альтернатив распознавания и другие.

Вопросы и ответы по программе

Что такое CuneiForm? CuneiForm - это система оптического распознавания крупнейшего российского разработчика программного обеспечения Cognitive Technologies, которая обеспечивает быстрое и высококачественное преобразование бумажных документов и электронных графических файлов, получаемых, например, со сканера или факса, в редактируемый текст для последующей работы с ним в текстовых редакторах.

Для кого предназначена OCR CuneiForm? Система распознавания текстов CuneiForm предназначена для всех, кому приходится вводить в компьютер факсы, книги, газеты, машинописные страницы, тексты договоров и т.д. Для работы с системой достаточно положить страницу с текстом в сканер, нажать кнопку, и через несколько секунд Вы получите готовый результат в многофункциональном текстовом редакторе.

Какие шрифты распознает OCR CuneiForm, требуется ли обучение? CuneiForm - шрифтонезависимая (OmniFont) система. Алгоритмы, заложенные в CuneiForm, исходят из правил написания букв, из их топологии, и не требуют задания каких-либо эталонов, или обучения.

В системе используется технология интеллектуального самообучения на базе адаптивного распознавания символов.

Распознаются любые печатные шрифты - книги, газеты, журналы, распечатки с лазерных и матричных принтеров, тексты с пишущих машинок и т.п.

Не распознается рукописный текст и декоративные шрифты (готический, стилизованный под рукописный).

В CuneiForm существуют специальные настройки для распознавания текстов с матричного принтера и факсов 200x100 dpi.

Чем OCR CuneiForm отличается от других подобных программ?

  • качеством распознавания;
  • высокой скоростью работы;
  • использованием уникальных технологий, таких как адаптивное распознавание, нейронные сети, когнитивный анализ альтернатив распознавания и других;
  • простой использования и интуитивным интерфейсом;
  • функциональным наполнением, наличием многих дополнительных возможностей.

Поддерживает ли OCR CuneiForm работу с таблицами? Да. Программа автоматически находит в тексте таблицы различной структуры, в том числе без линий разграфки. Встроенный редактор поддерживает редактирование таблиц (можно уменьшать/увеличивать, удалять/создавать колонки и т.д.)

Как OCR CuneiForm отнесется к картинкам в тексте? Как пожелаете. Может просто проигнорировать их присутствие, а может сохранить в выходном документе в черно-белом, сером или цветном виде, в зависимости от вашего желания.

Ссылки для загрузки

  • Скачать установочную версию с depositfiles.

Информация взята с официального сайта программы

Поддержите проект — поделитесь ссылкой, спасибо!
Читайте также
Push-уведомления: что это такое и для кого мастхев? Push-уведомления: что это такое и для кого мастхев? Как в Excel переносить текст на другую строку внутри одной ячейки? Как в Excel переносить текст на другую строку внутри одной ячейки? Что такое расширение файла DOC? Что такое расширение файла DOC?