Для чего используются программы оптического распознавания текста ответ
Оптическое распознавание символов
Оптическое распознавание символов (англ. optical character recognition, OCR ) — механический или электронный перевод изображений рукописного, машинописного или печатного текста в текстовые данные — последовательность кодов, использующихся для представления символов в компьютере (например, в текстовом редакторе). Распознавание широко используется для конвертации книг и документов в электронный вид, для автоматизации систем учёта в бизнесе или для публикации текста на веб-странице. Оптическое распознавание текста позволяет редактировать текст, осуществлять поиск слова или фразы, хранить его в более компактной форме, демонстрировать или распечатывать материал, не теряя качества, анализировать информацию, а также применять к тексту электронный перевод, форматирование или преобразование в речь. Оптическое распознавание текста является исследуемой проблемой в областях распознавания образов, искусственного интеллекта и компьютерного зрения.
Системы оптического распознавания текста требуют калибровки для работы с конкретным шрифтом; в ранних версиях для программирования было необходимо изображение каждого символа, программа одновременно могла работать только с одним шрифтом. В настоящее время больше всего распространены так называемые «интеллектуальные» системы, с высокой степенью точности распознающие большинство шрифтов. Некоторые системы оптического распознавания текста способны восстанавливать исходное форматирование текста, включая изображения, колонки и другие нетекстовые компоненты.
Содержание
История
В 1929 году Густав Таушек (Gustav Tauschek) получил патент на метод оптического распознавания текста в Германии, после чего за ним последовал Гендель (Paul W. Handel), получив патент на свой метод в США в 1933. В 1935 году Таушек также получил патент США на свой метод. Машина Таушека представляла собой механическое устройство, которое использовало шаблоны и фотодетектор.
В 1950 году Дэвид Х. Шепард (David H. Shepard), криптоаналитик из агентства безопасности вооружённых сил Соединённых Штатов, проанализировав задачу преобразования печатных сообщений в машинный язык для обработки компьютером, построил машину, решающую данную задачу. После того как он получил патент США, он сообщил об этом в «Вашингтон Дэйли Ньюз» (27 апреля 1951) и в «Нью-Йорк Таймс» (26 декабря 1953). Затем Шепард основал компанию, разрабатывающую интеллектуальные машины, которая вскоре выпустила первые в мире коммерческие системы оптического распознавания символов.
Первая коммерческая система была установлена на «Ридерс Дайджест» в 1955 году. Вторая система была продана компании «Стандарт Ойл» для чтения кредитных карт для работы с чеками. Другие системы, поставляемые компанией Шепарда, были проданы в конце 1950-х годов, в том числе сканер страниц для национальных воздушных сил США, предназначенный для чтения и передачи по телетайпу машинописных сообщений. IBM позже получила лицензию на использование патентов Шепарда.
Примерно в 1965 году «Ридерс Дайджест» и «Ар-Си-Эй» начали сотрудничество с целью создать машину для чтения документов, использующую оптическое распознавание текста, предназначенную для оцифровки серийных номеров купонов «Ридерс Дайджест», вернувшихся из рекламных объявлений. Для печати на документах барабанным принтером «Ар-Си-Эй» был использован специальный шрифт OCR-A. Машина для чтения документов работала непосредственно с компьютером RCA 301 (одна из первых полупроводниковых ЭВМ). Скорость работы машины была 1500 документов в минуту: она проверяла каждый документ, исключая те, которые она не смогла обработать правильно.
Почтовая служба Соединённых Штатов с 1965 года для сортировки почты использует машины, работающие по принципу оптического распознавания текста, созданные на основе технологий, разработанных исследователем Яковом Рабиновым. В Европе первой организацией, использующей машины с оптическим распознаванием текста, был британский почтамт. Почта Канады использует системы оптического распознавания символов с 1971 года. На первом этапе в центре сортировки системы оптического распознавания символов считывают имя и адрес получателя и печатают на конверте штрих-код. Он наносится специальными чернилами, которые отчётливо видимы в ультрафиолетовом свете. Это делается, чтобы избежать путаницы с полем адреса, заполненным человеком, которое может быть в любом месте на конверте.
В 1974 году Рэй Курцвейл создал компанию «Курцвейл Компьютер Продактс», и начал работать над развитием первой системы оптического распознавания символов, способной распознать текст, напечатанный любым шрифтом. Курцвейл считал, что лучшее применение этой технологии — создание машины чтения для слепых, которая позволила бы слепым людям иметь компьютер, умеющий читать текст вслух. Данное устройство требовало изобретения сразу двух технологий — ПЗС планшетного сканера и синтезатора, преобразующего текст в речь. Конечный продукт был представлен 13 января 1976 во время пресс-конференции, возглавляемой Курцвейлом и руководителями национальной федерации слепых.
В 1978 году компания «Курцвейл Компьютер Продактс» начала продажи коммерческой версии компьютерной программы оптического распознавания символов. Два года спустя Курцвейл продал свою компанию корпорации «Ксерокс», которая была заинтересована в дальнейшей коммерциализации систем распознавания текста. «Курцвейл Компьютер Продактс» стала дочерней компанией «Ксерокс», известной как «Скансофт».
Первой коммерчески успешной программой, распознающей кириллицу, была программа «AutoR» российской компании «ОКРУС». Программа начала распространяться в 1992 году, работала под управлением операционной системы DOS и обеспечивала приемлемое по скорости и качеству распознавание даже на персональных компьютерах IBM PC/XT с процессором Intel 8088 при тактовой частоте 4.77 МГц. В начале 90-х компания Hewlett-Packard поставляла свои сканеры на российский рынок в комплекте с программой «AutoR». Алгоритм «AutoR» был компактный, быстрый и в полной мере «интеллектуальный», то есть по-настоящему шрифтонезависимый. Этот алгоритм разработали и испытали ещё в конце 60-х два молодых биофизика, выпускники МФТИ — Г. М. Зенкин и А. П. Петров. Свой метод распознавания они опубликовали в журнале «Биофизика» в номере 12, вып.3 за 1967 год. В настоящее время алгоритм Зенкина-Петрова применяется в нескольких прикладных системах решающих задачу распознавания графических символов.
Текущее состояние технологии оптического распознавания текста
Точное распознавание латинских символов в печатном тексте в настоящее время возможно только если доступны чёткие изображения, такие как сканированные печатные документы. Точность при такой постановке задачи превышает 99%, абсолютная точность может быть достигнута только путем последующего редактирования человеком. Проблемы распознавания рукописного «печатного» и стандартного рукописного текста, а также печатных текстов других форматов (особенно с очень большим числом символов) в настоящее время являются предметом активных исследований.
Точность работы методов может быть измерена несколькими способами и поэтому может сильно варьироваться. К примеру, если встречается специализированное слово, не используемое для соответствующего программного обеспечения, при поиске несуществующих слов, ошибка может увеличиться.
Распознавание символов он-лайн иногда путают с оптическим распознаванием символов. Последний — это офф-лайн метод, работающий со статической формой представления текста, в то время как он-лайн распознавание символов учитывает движения во время письма. Например, в он-лайн распознавании, использующем PenPoint OS или планшетный ПК, можно определить, с какой стороны пишется строка: справа налево или слева направо.
Он-лайн системы для распознавания рукописного текста «на лету» в последнее время стали широко известны в качестве коммерческих продуктов. Алгоритмы таких устройств используют тот факт, что порядок, скорость и направление отдельных участков линий ввода известны. Кроме того, пользователь научится использовать только конкретные формы письма. Эти методы не могут быть использованы в программном обеспечении, которое использует сканированные бумажные документы, поэтому проблема распознавания рукописного «печатного» текста по-прежнему остается открытой. На изображениях с рукописным «печатным» текстом без артефактов может быть достигнута точность в 80 % — 90 %, но с такой точностью изображение будет преобразовано с десятками ошибок на странице. Такая технология может быть полезна лишь в очень ограниченном числе приложений.
Ещё одной широко исследуемой проблемой является распознавание рукописного текста. На данный момент достигнутая точность даже ниже, чем для рукописного «печатного» текста. Более высокие показатели могут быть достигнуты только с использованием контекстной и грамматической информации. Например, в процессе распознания искать целые слова в словаре легче, чем пытаться проанализировать отдельные символы из текста. Знание грамматики языка может также помочь определить, является ли слово глаголом или существительным. Формы отдельных рукописных символов иногда могут не содержать достаточно информации, чтобы точно (более 98 %) распознать весь рукописный текст.
Для решения более сложных проблем в сфере распознавания используются как правило интеллектуальные системы распознавания, такие как искусственные нейронные сети.
Оптическое распознавание символов (optical character recognition, OCR). Программы для оптического распознавания символов: ABBYY FineReader, CuneiForm
Технология OCR (Optical Character Recognition) может быть использована для преобразования печатной копии документа в электронную версию. Например, если сканируется многостраничный экземпляр в файл TIFF, то его загружают в OCR-программу, которая распознает текст, и далее переводят в редактируемый файл. Некоторые приложения позволяют сканировать страницы и преобразовывать содержимое в документ за один шаг.
Хотя технология изначально была разработана для оптического распознавания печатных символов, она также может использоваться для рукописных. Например, почтовые службы, такие как USPS, используют программное обеспечение OCR для автоматической обработки писем и посылок, считывая адрес.
Области применения OCR
Вам будет интересно: Замена Microsoft Office: альтернативные системы, рейтинг лучших, рекомендации и отзывы
OCR расшифровывается, как Оптическое Распознание Символов. Это широко распространенная технология распознавания текста внутри изображений в виде отсканированных документов и фотографий. Технология используется для преобразования практически любого типа изображений, содержащих письменный, рукописный или напечатанный текст в машиночитаемые текстовые данные.
OCR стала популярной в начале 1990-х годов при попытке оцифровки исторических материалов. С тех пор метод претерпел значительные улучшения, и в настоящее время обеспечивает практически идеальную точность оптического распознавания символов. Расширенные методики, такие как Zonal OCR, используются для автоматизации сложных рабочих процессов на основе преобразования машинописных текстов в цифровые документы. После того как отсканированный материал прошел обработку, текст можно редактировать с помощью программ, таких как Microsoft Word или Google Docs, которые являются текстовыми редакторами.
Вам будет интересно: Lightshot: как пользоваться программой
До того как появилась эта технология, единственным вариантом оцифровки печатных документов был ручной набор текста. Это не только занимало много времени, но и приводило к неточностям и ошибкам при воспроизведении копии. OCR часто используется в качестве «скрытой» технологии во многих известных системах и службах, включающих автоматизацию ввода данных и индексацию для поисковых систем, автоматическое оптическое распознавание символов номерных знаков, а также помощь слепым и слабовидящим людям.
Процесс определения точности текста
Каждый шаг процесса OCR важен для определения точности окончательного текста. Он начинается с преобразования печатного документа. Если на нем есть следы, пятна и плохая контрастность, программное обеспечение при распознавании будет делать ошибки, а результат получится некорректным. Чтобы избежать этих проблем, можно сделать улучшенную ксерокопию печати.
Вам будет интересно: Программы для учебы: обзор. Обучающие программы для школьников
Вторым этапом является определение символов. Скорость этого процесса зависит от используемой программы OCR. Большинство из них анализируют каждый элемент один за другим. Целью приложения является определение знаков, но хорошие программы распознают не только текст, но и таблицы, и другие элементы макета.
Процесс не идеален, так как есть много факторов, которые влияют на точность. Какие программы предназначены для оптического распознавания символов, рассмотрим ниже. А пользователю самостоятельно выбирать, что лучше. OCR имеют встроенные средства проверки правописания и выделяют слова с ошибками. Некоторые из них настолько сложны, что отмечают несоответствие слов и грамматические ошибки, пользователю остается лишь выполнить необходимую корректировку.
Оптическая технология для Брайля
Технология Optical Character Recognition (OCR) предоставляет слепым или слабовидящим людям возможность определить текст и произносить его вслух. При этом используется речевой вывод, а также отображается информация на дисплее Брайля.
Существует три основных элемента систем оптического распознавания символов: получение изображения, распознавание и чтение текста. Сначала распечатанный документ захватывается камерой, затем программное обеспечение OCR преобразует его в распознанные символы и слова, а после этого синтезатор в системе произносит определенный материал вслух или отображает на дисплее Брайля. Информация может быть сохранена в электронном формате на устройстве, на котором запущено ПО OCR, или в памяти автономного устройства.
Процесс учитывает логическую структуру языка. Система сделает вывод, что, например, союз «этом» в начале предложения является ошибкой и должен читаться, как «это». Она использует лексикон и применяет методы проверки правописания, аналогичные тем, которые используются во многих текстовых редакторах.
Все системы OCR создают временные файлы, содержащие символы и макет страницы. В некоторых системах они могут быть преобразованы в форматы, которые можно найти с помощью широко используемых компьютерных приложений, таких как текстовый редактор, электронная таблица и базы данных.
Выбор программ для распознавания текста
Рекомендуется осознано подойти к выбору программного обеспечения для распознавания текста. Лучше провести собственное тестирование или учесть мнение продвинутых пользователей.
Тестирование проводят с учетом следующих факторов:
Популярное ПО для мобильных устройств
Вам будет интересно: Что такое в «Фотошопе» смарт-объект? Его назначение
OCR отлично подходит для переноса текста из физических источников непосредственно в цифровой документ. Существуют различные типы программ и приложений для настольных и мобильных устройств. Они различны по цене и имеют свои ключевые отличительные функции.
Наиболее популярные «Андроид»-сканеры:
Документы Google
Для тех, кто уже знаком с документами Google, можно использовать OCR, встроенный в Google Drive. Для достижения наилучших результатов шрифт должен быть установлен на Arial или Times New Roman. Можно улучшить результат, убедившись, что сканированное изображение имеет равномерное освещение и четкую контрастность. Фотоматериалы могут обрабатываться индивидуально в файлах: jpg, png, gif или в многостраничных документах PDF. Расширение поддерживает большинство языков.
У Google есть много обучающих программ и возможностей облачной обработки. Многие пользователи считают, что у сервиса нет достаточно продвинутых функций и опций. Тем не менее, если используется приложение Google Drive для Android, можно сканировать страницы прямо из приложения, используя камеру на смартфоне. В противном случае загружают документы с помощью сканера, подключенного к компьютеру, или любым другим способом, чтобы начать обработку распознавания в Google Диске. Для физических лиц на Google Диске предлагается бесплатный уровень хранения около 19 ГБ с возможностью расширения до 100 ГБ через Google One за 1,99 долл. США.
Оптическое распознавание Abbyy
Abbyy FineReader работает с документами уже давно. Это комплексное решение, как для бизнеса, так и для обычных пользователей. В нем можно получить все необходимые функции для извлечения содержания текстов из сканера с полной читаемостью, аккуратно организованные оцифрованные материалы. Помимо распознавания текстов и преобразования в PDF, Microsoft Office или другие форматы, программа также может сравнивать их, добавлять аннотации и комментарии.
Abbyy FineReader может конвертировать материал в пакетном режиме и обрабатывать множество выходных форматов на 192-х различных языках. Есть сопутствующие мобильные приложения, когда нужно выполнить быстрое сканирование с телефона.
Программное обеспечение не самое современное, но оно простое, функциональное и отлично справляется со своей работой. Утилита имеет прочную репутацию одного из лучших вариантов в области оптического распознавания символов. Можно воспользоваться бесплатной пробной версией. ПО стоит от 199,99 долл. США за стандартную разовую бессрочную лицензию.
Облачный сервис Adobe Acrobat
Adobe Acrobat отвечает всем требованиям и предлагает впечатляющий список возможностей и опций, хотя цена немного круче, чем у конкурентов. Для всех функций оптического распознавания текста выбирают Pro версию Adobe Acrobat. DC означает «Облако документов», и довольно четко интегрируется с облачным решением Adobe, если нужно получить доступ к своим файлам с любого компьютера. Также есть простая и бесшовная интеграция со всем остальными сервисами Adobe, например, таким как Photoshop.
Если пользователь решит оплатить Pro версию Adobe Acrobat DC, он получит все инструменты распознавания текста, возможность добавлять комментарии и отзывы к содержанию, специализированный сервис для сканирования таблиц, возможность быстрого сравнения двух документов вместе. Материалы можно редактировать прямо на экране через несколько секунд после их сканирования.
Знак Adobe гарантирует определенный уровень качества, и пользователи впечатлены интуитивностью и возможностями Adobe Acrobat DC. Подписка на сервис начинается с 12,99 долл. США.
Лучшее бесплатное программное обеспечение
Двигатель Tesseract был первоначально разработан Hewlett Packard Labs в 1985-1994 годах. Некоторые изменения были внесены в него в 1996 году. В 1995 году он был включен в тройку лучших механизмов распознавания. Он работает с Windows, Linux и Mac OS X. FreeOCR может обрабатывать изображения, имеющие многоколонный и многоязычный текст. Он обрабатывает форматы PDF и поддерживает устройства TWAIN такие, как сканеры, имеет широко распространенный интерфейс с двойным окном, настройки которого легко понять.
Free OCR to Word может сэкономить много времени без необходимости повторного ввода уже написанного произведения. Программа берет документ, отсканированный объект или изображение и преобразует его в читаемый, редактируемый и точный материал. ПО можно бесплатно загрузить в Word. OCR to Word оптимизирован для работы со всеми типами сканеров и имеет рейтинг точности 98 %, современный интерфейс, который позволяет легко получить доступ ко всем задачам, имеются функции поворота на случай, если фото не помещается на экране правильно. ПО извлекает текст из захваченных снимков с помощью смартфонов или цифровых камер с высокой точностью и качеством.
Распознавание символов в Linux
Набор OCRFeeder предоставляет удобный графический интерфейс Linux, который в основном является внешним интерфейсом для некоторых изображений, OCR и текстовых инструментов таких, как распечатка или проверка орфографии. Он не считывает символы сам по себе, но вместо этого использует другие приложения OCR через так называемые настройки «механизмов распознавания». Он имеет предопределенные параметры для Tesseract, CuneiForm, GOCR и Ocrad.
Технология оптического распознавания печатных символов «Тессеракт» в начале могла распознавать текст только на английском языке, версия 2.x сделала ее многоязычной. При необходимости можно установить более одного словаря. Новые версии оцифровывают текст на основе ISO 963-2.
После успешной установки используют команду «tesseract>путь к изображению>базовое имя выходного файла». Tesseract автоматически придаст выходному документу расширение «.txt», можно указать опцию «-l», за которой следует код языка. Для версий Tesseract более ранних, чем третья, очень важно, чтобы изображение было в формате файла тегового значения и имело расширение «.tif», а не «.tiff». Командная строка должна выглядеть следующим образом:»$ tesseract
Программа оптического распознавания текста
Оптическое распознавание символов— это механический или электронный перевод изображений рукописного, машинописного или печатного текста в последовательность кодов, использующихся для представления в текстовом редакторе. Распознавание широко используется для конвертации книг и документов в электронный вид, для автоматизации систем учета в бизнесе или для публикации текста на веб-странице. Оптическое распознавание текста позволяет редактировать текст, осуществлять поиск слова или фразы, хранить его в более компактной форме, демонстрировать или распечатывать материал, не теряя качества, анализировать информацию, а также применять к тесту электронный перевод, форматирование или преобразование в речь. В настоящее время больше всего распространены так называемые «интеллектуальные» системы, с высокой степенью точности распознающие большинство шрифтов. Некоторые системы оптического распознавания текста способны восстанавливать исходное форматирование текста, включая изображения, колонки и другие нетекстовые компоненты.
Точное распознавание символов в печатном тексте в настоящее время возможно только если доступны чёткие изображения, такие как сканированные печатные документы. Точность при такой постановке задачи превышает 99%, абсолютная точность может быть достигнута только путем последующего редактирования человеком.
Для решения более сложных проблем в сфере распознавания используются как правило интеллектуальные системы распознавания, такие какискусственные нейронные сети.
На стадии подготовки и обработки информации, особенно при компьютеризации предприятия, автоматизации бухучета, возникает задача ввода большого объема текстовой и графической информации в ПК. Основными устройствами для ввода графической информации являются: сканер, факс-модем и реже цифровая фотокамера. Кроме того, используя программы оптического распознавания текстов, можно вводить в компьютер (оцифровывать) также и текстовую информацию. Современные программно-аппаратные системы позволяют автоматизировать ввод больших объемов информации в компьютер, используя, например, сетевой сканер и параллельное распознавание текстов на нескольких компьютерах одновременно.
Большинство программ оптического распознавания текста (OCR Optical Character Recognition) работают с растровым изображением, которое получено через факс-модем, сканер, цифровую фотокамеру или другое устройство. На первом этапе OCR должен разбить страницу на блоки текста, основываясь на особенностях правого и левого выравнивания и наличия нескольких колонок. Затем распознанный блок разбивается на строки. Несмотря на кажущуюся простоту, это не такая очевидная задача, так как на практике неизбежны перекос изображения страницы или фрагментов страницы при сгибах. Даже небольшой наклон приводит к тому, что левый край одной строки становится ниже правого края следующей, особенно при маленьком межстрочном интервале. В результате возникает проблема определения строки, к которой относится тот или иной фрагмент изображения. Например, для букв j, Й, ё при небольшом наклоне уже сложно определить, к какой строке относится верхняя (отдельная) часть символа (в некоторых случаях ее можно принять за запятую или точку).
Потом строки разбиваются на непрерывные области изображения, которые, как правило, соответствуют отдельным буквам; алгоритм распознавания делает предположения относительно соответствия этих областей символам; а затем делается выбор каждого символа, в результате чего страница восстанавливается в символах текста, причем, как правило, в соответствующем формате. OCR-системы могут достигать наилучшей точности распознавания свыше 99,9% для чистых изображений, составленных из обычных шрифтов. На первый взгляд такая точность распознавания кажется идеальной, но уровень ошибок все же удручает, потому что, если имеется приблизительно 1500 символов на странице, то даже при коэффициенте успешного распознавания 99,9% получается одна или две ошибки на страницу. В таких случаях на помощь приходит метод проверки по словарю. То есть, если какого-то слова нет в словаре системы, то она по специальным правилам пытается найти похожее. Но это все равно не позволяет исправлять 100% ошибок, что требует человеческого контроля результатов.
Встречающиеся в реальной жизни тексты обычно далеки от совершенства, и процент ошибок распознавания для нечистых текстов часто недопустимо велик. Грязные изображения здесь наиболее очевидная проблема, потому что даже небольшие пятна могут затенять определяющие части символа или преобразовывать один в другой. Еще одной проблемой является неаккуратное сканирование, связанное с человеческим фактором, так как оператор, сидящий за сканером, просто не в состоянии разглаживать каждую сканируемую страницу и точно выравнивать ее по краям сканера.
Если документ был ксерокопирован, нередко возникают разрывы и слияния символов. Любой из этих эффектов может заставлять систему ошибаться, потому что некоторые из OCR-систем полагают, что непрерывная область изображения должна быть одиночным символом.
Страница, расположенная с нарушением границ или перекосом, создает немного искаженные символьные изображения, которые могут быть перепутаны OCR.
Основное назначение OCR-систем состоит в анализе растровой информации (отсканированного символа) и присвоении фрагменту изображения соответствующего символа. После завершения процесса распознавания OCR-системы должны уметь сохранять форматирование исходных документов, присваивать в нужном месте атрибут абзаца, сохранять таблицы, графику ит.д. Современные программы распознавания поддерживают все известные текстовые и графические форматы и форматы электронных таблиц, а некоторые поддерживают такие форматы, как HTML и PDF.
Работа с OCR-системами, как правило, не должна вызывать особых затруднений. Большинство таких систем имеют простейший автоматический режим сканируй и распознавай (Scan&Read). Кроме того, они поддерживают и режим распознавания изображений из файлов. Однако для того, чтобы достигнуть лучших из возможных для данной системы результатов, желательно (а нередко и обязательно) предварительно вручную настроить ее на конкретный вид текста, макет бланка и качество бумаги.
Очень важным при работе с OCR-системой является удобство выбора языка распознавания и типа распознаваемого материала (пишущая машинка, факс, матричный принтер, газета ит.д.), а также интуитивная понятность пользовательского интерфейса. При распознавании текстов, в которых использовано несколько языков, эффективность распознавания зависит от умения OCR-системы формировать группы языков. В то же время в некоторых системах уже имеются комбинации для наиболее часто используемых языков, например: русский и английский.
На данный момент существует огромное количество программ, поддерживающих распознавание текста как одну из возможностей.
FineReader кроме того, что знает огромное количество форматов для сохранения, включая PDF, имеет возможность прямого распознавания из PDF-файлов. Новая технология Intelligent Background Filtering (интеллектуальной фильтрации фона) позволяет отсеять информацию о текстуре документа и фоновом шуме изображения: иногда для выделения текста в документе используется серый или цветной фон. Человеку это не мешает читать, но обычные алгоритмы распознавания текста испытывают серьезные затруднения при работе с буквами, расположенными поверх такого фона. FineReader умеет определять зоны, содержащие подобный текст, отделяя текст от фона документа, находя точки, размер которых меньше определенной величины, и удаляя их. При этом контуры букв сохраняются, так что точки фона, близко расположенные к этим контурам, не вносят помех, способных ухудшить качество распознавания текста. Даже таблицы распознаются с максимальной точностью, сохраняя при этом все возможности для редактирования.
OCR CuneiForm способна распознавать любые полиграфические и машинописные гарнитуры всех начертаний и шрифтов, получаемые с принтеров, за исключением декоративных и рукописных. Также программа способна распознавать таблицы различной структуры, в том числе и без линий и границ; редактировать и сохранять результаты в распространенных табличных форматах. Существенно облегчает работу и возможность прямого экспорта результатов в MS Word и MS Excel (для этого теперь не нужно сохранять результат в файл RTF, а затем открывать его с помощью MS Word).
Также программа снабжена возможностями массового ввода возможностью пакетного сканирования, включая круглосуточное, сканирования с удаленных компьютеров локальной сети и организации распределенного параллельного сканирования в локальной сети.
Readiris Pro7 профессиональная программа распознавания текста. Oтличается от аналогов высочайшей точностью преобразования обычных (каждодневных) печатных документов, таких как письма, факсы, журнальные статьи, газетные вырезки, в объекты, доступные для редактирования (включая файлы PDF). Основными достоинствами программы являются: возможность более или менее точного распознавания картинок, сжатых по максимуму (с максимальной потерей качества) методом JPEG, поддержка цифровых камер и автоопределения ориентации страницы. Поддержка до 92 языков (включая русский).