Распознавание текста со сканера – Программа для распознавания текста – после сканирования, оптического, лучшая, в Word, Abbyy Finereader

какие есть и что выбрать?

У профессионального офисного работника нередко появляется необходимость сканирования текста и его дальнейшего редактирования. Поэтому важно понимать, какая лучшая программа для распознавания текста со сканера есть. Желательно ориентироваться не только среди платных, но и бесплатных решений.

ABBY FineReader

Это программа, ориентированная на профессионалов. В спектр ее возможностей входит распознавание печатных документов, фотографий, PDF-файлов с высокой точностью и сохранением первоначальной верстки. Это означает, что приложение сохраняет расположение картинок, таблиц, нумерации страниц, экспортируя весь распознанный материал в разные форматы Microsoft Office, позволяя пользователю в дальнейшем редактировать их.

Приложение платное, но цена оправдывает возможности. Так, данный софт может распознавать 179 языков. Стоит она относительно недорого, но если появляется необходимость разового сканирования документов, можно установить бесплатную демонстрационную версию, которая позволит на протяжении 15 дней распознать 50 документов. Дальше придется ее зарегистрировать. Если же цена не устраивает пользователя, он может воспользоваться бесплатными программами.

CuneiForm

Преимуществом данного приложения на фоне предыдущего является цена (вернее, ее отсутствие), но при этом приложение располагает рядом интересных функций, способных сделать ее лучшим бесплатным решением. Данная программа для распознавания текста со сканера позиционируется авторами (а она разработана отечественным производителем) как интеллектуальная система оптического распознавания документов.

Ее преимуществом является сохранение шрифтов оригинала, благодаря чему можно просто его отсканировать, отредактировать и распечатать практически в неизменном виде. Данная программа имеет возможность и пакетного сканирования документов. А что насчет качества распознавания? С этим параметром все в порядке. Благодаря специфическому алгоритму этого приложения, основанному на анализе определенных частей сканируемого текста и их сравнении с внутренним словарем, в любом случае пользователь остается в выигрыше.

Бывает и такое, что необходимого слова нет в словаре. В этом случае можно просто пополнить его. А учитывая, что данная программа для распознавания текста со сканера понимает тексты на 20 языках, она становится незаменимым помощником при редактировании печатных документов на компьютере для представителей разных профессий.

WinScan 2 PDF

Данная программа для распознавания текста со сканера является невероятно простым решением для людей, которым надоело копаться в огромном количестве настроек, способных только запутать непрофессионала. Взаимодействие с этой утилитой (ее размер составляет всего несколько десятков килобайт) заключается всего лишь в одном нажатии кнопки сканирования. И при этом есть возможность превращения огромного количества печатных документов в текст только одним нажатием пальца. Преимуществом этой программы является отсутствие необходимости устанавливать это приложение.

Программа для распознавания рукописного текста со сканера: возможна ли?

К сожалению, на данный момент нет разработок, гарантирующих хотя бы нормальную точность при распознавании печатных документов, имеющих рукописный текст. Если еще приложения для ввода с помощью руки на смартфонах существуют более-менее работающие, то определять содержание уже написанных рукописей – задача временами сложная даже для человека.

Казалось бы, почему нельзя использовать наработки приложений для рукописного ввода в софте для распознавания текста, написанного от руки? Ведь там же используются простые картинки. А вот нет. Приложения для рукописного ввода анализируют движения пальца или стилуса по экрану мобильного телефона. А вот распознавать уже написанную букву они не способны.

fb.ru

Программа для распознавания текста CuneiForm, которая не дружит со сканерами

Недавно занялся поиском бесплатных приложений для распознавания отсканированного текста, или как их еще называют программы OCR.  Желание платить за популярного монстра ABBYY FineReader, совсем не было, но как оказалось, предлагают очень мало вариантов программ такого плана для бесплатного использования. Первый попавшийся вариант оказался FreeOCR,  пожалуй, одна из самых популярных программ для Windows, но в своем нынешнем виде не дружит с русским языком.  Один из читателей блога, предложил попробовать труды  отечественных разработчиков  CuneiForm.

Процедура установки стандартная, перечень из нескольких стандартных вопросов, где самое  запоминающееся это  лицензионное соглашения и  выбор папки, куда будут инсталлирована программа. Несколько секунд ожидания и все готово к работе. Ничего лишнего не устанавливается и дополнительно программные компоненты тоже не придется скачивать и устанавливать.

Запустив программу, получаем стандартный для OCR интерфейс, меню из нескольких пунктов, большие кнопки для доступа к основным функциям и основное окно разбито на две части для изображения и готового текста которые распознали.

Самая первая кнопка в панели инструментов, где нарисованная волшебная палочка, это мастер, запустив которые пройдем все этапы, начиная от сканирования и заканчивая готовым текстом пригодным для редактирования, которые заботливо будет предлагать выбрать нужные настройки. Получатся этакий полуавтоматический режим, делам только общие настройки, не вникая в нюансы.

Можно пойти по более сложному пути, пройдясь ручками по каждому пункту отдельно, зато сможете сделать кучу дополнительных правок и тонких настроек, которые позволят получить более качественный конечный результат.

С помощью кнопки, где нарисован сканер, можем отсканировать нужный документ или загрузить готовую картинку. После чего получим панель с инструментами с помощью, которой можем подкорректировать изображение, повернуть его и выбрать область для распознавания.

Кнопочка с циркулем, позволяет сделать разметку страницы, выделяя колонки, изображения и блоки с текстом. Все блоки, которые будут найдены, можно редактировать, передвигая их и изменяя размеры с помощью мыши. Поводите курсором около синих линий и увидите, как он будут менять свою форму, дальше, думаю, сами разберетесь.

Ионкой с очками, распознаем непосредственно текст, в подготовленных областях. После того как текст будет готов, щелкните по любой букве и увидите тот участок рисунка картинки, на котором она была найдена.

Кнопка с самолетиком предназначена для сохранения распознанного текста в файлы или в Word Excel, почему опять этот стандартный набор непонятно, ведь есть еще куча замечательных текстовых редакторов.

В зависимости от того на каком этапе будете находиться панель инструментов будет менять свое содержимое, предлагая нужные на конкретном этапе инструменты.

Теперь перейдем к печальному на  Windows 7 отказался работать со сканером, программа его видела, сканер даже начинал гудеть, и на мониторе бежала пунктирная линия свидетельствующая что идет передача данных, а в конце выбрасывала ошибку. Все пляски с бубном и чтения форумов не дало положительных результатов. В том числе редактирование файла «Face.INI», где по рекомендации было исправлено «TWAIN_TransferMode=memory-buffered» на TWAIN_TransferMode=memory-native». В итоге пришлось делать обходной маневр, сканировать текст стандартными средствами Windows, а в CuneiForm подсовывать готовую картинку.

Еще плохо, что не поддерживаются pdf фалы самой программой. Приходится прибегать к обходным маневрам, использовать сторонние программы чтоб из pdf документов делать картинки, а потом задействовать OCR. Но опять из-за низкого разрешения картинок, качество  распознавания текста очень низкое, поэтому потом приходится много  чего исправлять руками.

Чуть не забыл, первый запуск на Windows  Vista и 7 лучше делать от имени администратора, иначе программа впадет в транс на несколько минут, не подавая признаков жизни.

Программа действительно работает со всеми основными языками, их около 20 штуку включая русском, английском,  украинском, немецком, французском, испанском, итальянском и смешанном русско-английском.

CuneiForm оставила двоякое впечатление, вроде работает, но не полностью, скорей всего из-за того что работу на программой прекратили в 2007 году,  а после открытия исходных кодов команда которая могла дальше развивать проект так и не собралась. Приятно, что понимает русский язык, но придется немного приноровиться, пока научитесь подбирать нормальные параметры для сканирования, чтоб результаты распознавания удовлетворяли. Сейчас нахожусь именно на этом этапе.

В нынешнем виде не могу рекомендовать для использования обычным пользователям. Кто рискнул попробовать CuneiForm, морально подготовитесь, что  с первого раза хороших результатов не получится, и решение возникших проблем придется искать самим.

Работает в 32-х и 64-х битных операционных системах. Интерфейс полностью на русском языке, и похоже других вариантов не предлагается.

Официальный сайт CuneiForm http://www.cuneiform.ru/

Страница для бесплатного скачивания CuneiForm http://www.cuneiform.ru/downloads/index.html

Последняя версия  на момент написания CuneiForm V12

Размер программы:  архив 33,3Мб

Совместимость:  Windows  Vista и 7,  Windows  Xp

freevi.net

Программы распознавания текста со сканера: какие самые лучшие?

Чтобы не переписывать текст с картинки в Word, можно её отсканировать, а затем прогнать через нужную программу. На данный момент одной из лучших программ для распознавания текста со сканера считается

ABBYY Finereader. Но это не единственный софт и ниже мы также рассмотрим её конкурентов.

О программе ABBYY Finereader

Она не бесплатная, и имеет три вариации пакета: домашняя, профессиональная и корпоративная. Но в интернете, если хорошо поискать, то можно найти и скачать взломанные версии с торрентов, или варезников, и пользоваться бесплатно.

  • Домашняя версия предназначена для домашнего использования, если вам когда-никогда требуется перетянуть текст на компьютер из книг, газет или журналов. Интерфейс программы минимизирован, поэтому трудностей при использовании никаких не возникнет: программа работает по принципу «нажал кнопку старт и работа пошла».
  • Профессиональная версия уже содержит более продвинутый интерфейс, может распознавать PDF файлы. Программа способна сама проверять орфографию и предоставлять возможные ошибки вам.
  • Корпоративная версия обладает всеми функциями, что и профессиональная только ориентирована она на использование в сетевых сканерах; работать в этой программе может ни один человек.

Программа ABBYY Finereader способна работать с графическими файлами PNG, JPG, TIFF, PDF. Распознавать она может более 180 языков мира, но проверять орфографию она может только на 38 из них.

Бесплатная программа OCR CuneiForm

Программа OCR CuneiForm изначально выпускалась до 2007 года как коммерческий проект, но после передумала и решила распространять программу бесплатно. В 2008 году же она вообще открыла исходники всем-всем.

Она также качественно распознает языки, но поддерживает они их всего около 20 штук. Среди них есть английский, русский, чешский, сербский, французский и другие популярные языки мира. Нам хватит, в общем.

Работает программа довольно шустро. Кстати, этот софт прилагается ко многим принтерам и сканерам компании Canon и HP

. Да и технологии распознавания текста используются в популярном пакете Corel Draw.

Читайте также:

Иногда возникает вопрос «как открыть pdf файл«, т.к. нужного софта для открытия PDF файлов по-умолчанию в Windows не установлено. Читайте здесь какие программы подходят.

Что делать, если перестал заряжаться ноутбук смотрите в отдельной статье о причинах, по которым аккумуляторная батарея ноутбука может не заряжаться.

Как сделать Яндекс сделать стартовой домашней страницей в разных браузерах читайте по этой ссылке. Это будет полезно, если вы часто пользуетесь Яндексом и хотите, чтобы он сразу открывался при запуске браузера.

gidkomp.ru

Программа для распознавания текста со сканера: 3 лучших варианта

Очень часто в ходе работы с документами может потребоваться получить какой-либо из них в электронном виде, хотя на руках у пользователя имеется только бумажный распечатанный вариант.

В этом случае и используется сканер, так как изображение, полученное с него легко, например, отправить на электронную почту, тогда как факс есть уже далеко не у всех пользователей.

Ну а в случаях, когда документ требуется именно в текстовом виде, для того, чтобы не перепечатывать его вручную, пользователю нужна будет программа для распознавания текста со сканера.

Содержание:

Принцип действия

Что представляет из себя такая программа, как она работает и каков принцип ее действия?

Такие программы устанавливаются на персональный компьютер, к которому подключен сканер.

У таких программ имеется база возможных визуальных отображений тех или иных печатных символов на множестве мировых языков.

Важно! Обычно, абсолютно все программы поддерживают только русский и английский языки, список же других распознаваемых символьных групп может отличаться. По этой причине, если документ, который вам надо обработать, напечатан на каком либо достаточно редком языке, то перед тем как скачивать программу, убедитесь, что она поддерживает именно этот язык и у нее есть база его символьных групп.

После сканирования какого либо документа, пользователь отправляет это изображение программе, и она просит пользователя указать язык текста, а затем, основываясь на содержании своих баз, ищет соответствия между изображенными на картинке со сканера участками и печатными символами указанного языка.

Причем, если совпадений не найдено, то программа может начать искать их в базах других распространенных языков (например, когда в тексте содержатся ссылки или иные иностранные слова при преобладании другого языка).

<Рис. 1 Принцип работы>

вернуться к меню ↑

Виды

Есть такие программы, которые синхронизируют свои действия со сканером напрямую, то есть они работают совместно и изображение со сканера сразу попадает в программу.

Другие виды софта работают отдельно, то есть, в них можно загрузить любое текстовое изображение.

Кстати, именно они, обычно, могут работать не только с изображениями со сканера, но с любыми другими – с фотоаппарата, скриншота и т. п.

Кроме того, все эти программы можно разделить на те, что необходимо скачивать на свой компьютер, и те, что работают в режиме онлайн и представлены на сайтах в виде специальных сервисов (качество обработки и распознавания у них, обычно, ниже).

При этом софт, устанавливаемый на ПК, может быть как полностью офлайновым, то есть работать вообще без доступа в интернет, так и при необходимости подключаться к символьным базам на серверах своих разработчиков.

<Рис. 2 Методы распознавания>

вернуться к меню ↑

Сфера применения

Для чего же может потребоваться такое программное обеспечение и в чем его преимущество?

Во-первых, оно позволяет значительно экономить время на перепечатывание текста – это основная цель такого софта и его главное преимущество.

В каких случаях такая возможность бывает необходима?

  • При написании научных работ, когда есть необходимость в длительном цитировании;
  • При написании рефератов, докладов, выполнении анализа литературного произведения, когда также требуются цитаты;
  • При необходимости составить документ, используя текст, имеющийся в образце;
  • Пре необходимости перевода большого объема текста, имеющегося в бумажном виде для упрощения процесса его обработки;
  • Когда нужно провести редактирование большого объема текста, имеющегося у редактора только в напечатанной форме и т. д.

Таким образом, можно сказать, что данная программа необходима во всех тех случаях, когда пользователю нужно так или иначе обработать или поместить в документ некоторое количество текста, которое есть у него в распечатанном виде.

При этом ручная печать может занимать много времени и сил, хотя стоит отметить, что и распознанный таким программным обеспечением текст также нуждается в последующей редакции вручную.

<Рис. 3 Ход использования>

вернуться к меню ↑

Недостатки

Какие же отрицательные стороны имеют данные программы?

Стоит сказать, что идеальной программы, поддерживающей одинаково качественно большинство относительно распространенных языков, не существует.

Программы могут работать лучше или хуже с какими-то конкретными языками или при некоторых особенностях (например, качественная обработка только первой страницы текста, а затем – существенное снижение качества и т. п.).

И так, в большинстве самых широко распространенных программ пользователи отмечают следующие недостатки:

  • Сложно найти программу, которая бы поддерживала тот или иной редкий язык;
  • Низкое качество работы с языками азиатских групп, что связано с высокой сложностью символов, которые, именно из-за их высокой сложности, нормально программа распознать не может;
  • Неодинаковое качество работы с разными языками, форматированиями, шрифтами – иногда то, что является объектом форматирования, распознается как шрифт и наоборот, может вовсе не обрабатываться какой либо конкретный шрифт;
  • Снижение качества работы при большом объеме текста – тогда как первая страница расшифровывается и преобразовывается максимально качественно, то качество предобразования последующих падает от страницы к странице;
  • Невозможность нормально работать с грязными или потрепанными бумагами, старыми пожелтевшими книгами с нечеткой печатью – софт может просто не распознавать такие буквы;
  • Ошибки такого типа, когда буквы имеют внешнее сходство (в том числе, в разных языках) и распознаются ошибочно. В этом случае в некотором софте не помогает даже указание языка исходного документа;
  • Ошибки, когда один символ принимается за два или наоборот, обычно, при этом, путаются таким образом именно буквы в разных языках (например, Jl может распознаваться, как русская буква Л и наоборот), причем, при использовании некоторых определенных шрифтов такие неполадки и неточности возникают чаще;
  • В документе на выходе часто отсутствует полностью или имеется, но очень некачественное, форматирование.

Нужно понимать, что многое в этом смысле зависит и от сканера. От качества изображения, полученного с него – настройки качества изображения должны быть максимальными для наиболее качественного распознавания.

Но если сканер старый, то изображение он может давать нечеткое, в результате чего качество распознавания будет очень низким.

Интересно, что перечисленные недостатки в большей или меньшей степени характерны почти для всех программ, работающих в режиме онлайн или оффлайн.

<Рис. 4 Низкое качество работы>

вернуться к меню ↑

Где взять такую программу?

Как уже говорилось выше, могут иметься онлайновые сервисы обработки фото с текстом таким образом.

Они обладают более низким качеством работы, чаще всего, но зато не занимают память компьютера.

Программы, устанавливаемые на ПК, обычно нужно скачивать.

Ссылки на скачивание такого программного обеспечения будут размещены ниже, отдельно для каждой конкретной программы.

Иногда такие программы поставляются прямо при покупке сканера в пакете его программного обеспечения.

вернуться к меню ↑

Abby Fine Reader

Программа хороша тем, что имеет многоязыковой интерфейс, в том числе можно выбрать и русский язык для удобства использования меню.

Такое программное обеспечение рассчитано для работы в системах Windows,  оно имеет хорошие рейтинги и отзывы среди пользователей и также не занимает много памяти.

Какие же еще преимущества имеет этот софт?

1Не оказывает значительной нагрузки на аппаратную часть компьютера;

2Работает с разными типами изображений, как с PDF (что актуально для старых операционных систем. Базовые программы для просмотра PDF у которых не давали возможности копирования текстового содержимого), так и с изображениями со сканера и цифрового фотоаппарата;

3Документ на выходе имеет формат, который открывается во всех версиях и видах текстового редактора;

4С большей или меньшей степенью точности он способен сохранять форматирование исходного документа в документе на выходе;

5Работает синхронизировано со сканером или многофункциональным устройством. А также, отдельно от него, при этом поддерживает большинство современных моделей таких устройств;

6Софт может работать со сканером, оснащенным автоподатчиком бумаги, то есть при автоматическом сканировании – нужно лишь правильно выставить настройки.

Работает с форматами PDF, BMP, PCX, DCX, JPEG, JPEG2000, TIFF, PNG, DjVu. Может самостоятельно обрабатывать фото, повышая их качество для улучшения распознавания.

<Рис. 5 Распознавание>

вернуться к меню ↑

OCR CuneiForm

В отличие от программы, описанной выше, у которой бесплатно работает только демо-версия на 15 дней, эта предоставляется полностью бесплатно и в этом ее значительный плюс.

Однако имеется и минус – качество распознавания текста у нее гораздо ниже, чем у предыдущей программы.

Но все же функционал достаточно значительный, особенно, для бесплатной программы.

Программа способна распознавать не только текст, но и изображения, и даже таблица (как разлинованные, так и не разлинованные), списки.

Такие возможности вообще недоступны некоторым платным программам.

Приложение даже может сохранить краткие данные об оформлении исходного текста на фото – его шрифт, размер, интервалы и т. п. (интересно, что эта функция доступна даже при распознавании текста, напечатанного на пишущей машинке).

К недостаткам программы, помимо неточности в работе, можно отнести малое количество поддерживаемых языков, по сравнению с аналогичным софтом.

К преимуществам относится способность работать с копиями плохого качества, достаточно грязными ксерокопиями. Использование словарей для контроля орфографии и, конечно, бесплатное распространение.

<Рис. 6 Abby Fine Reader>

вернуться к меню ↑

WinScan2PDF

Это скорее не программное обеспечение, а утилита, которая не требует установки. Рабочий файл очень легкий, так что она почти не занимает память компьютера и не оказывает нагрузки на его аппаратную часть.

Распознавание и обработка происходят очень быстро даже по сравнению с двумя программами, описанными выше. Однако готовый результат сохраняется только в формате PDF.

Управление предельно простое – нужно только запустить программу. Указать файл и указать, куда сохранить результат, а затем нажать на кнопку запуска процесса.

Языковой пакет достаточно значительный, утилита, несмотря на свою простоту, рассчитана на работу с большими объемами текста.

<Рис. 7 OCR CuneiForm>

К плюсам утилиты относятся высокая скорость работы, простота в применении и высокая портативность, мобильность, малый вес.

Существенный недостаток – только один формат файла с обработанным текстом.

3 лучших программы для распознавания текста со сканера

Проголосовать

geek-nose.com