OCR как предмет первой необходимости. Многоуровневый анализ документа

Представление кадра в цифровом формате

Стандартный поток видео, который мы привыкли наблюдать на экране телевизора, в кинотеатре представляет собой поток быстро сменяющих друг друга картинок. Человеческий глаз способен воспринять 24 кадра в секунду, поэтому везде, где мы видим видео - это есть поток кадров с частотой 24 Гц.

Программный комплекс распознавания номеров работает с потоком видео. Он выявляет из потока кадры, которые нужно проанализировать и преобразует графическое представление номера вагона в цифровое. При этом используется видео камера, которая снимает в черно-белом режиме, 255 градаций серого цвета.

Для компьютера кадр - это матрица n x m, где n и m - разрешение видео камеры, каждый элемент которой несет информацию о своём уровне яркости. Таким образом, работа с изображением заключается в оперировании с данными матрицы.

Общие принципы и этапы работы систем оптического распознавания

Как уже отмечалось ранее, для компьютера нет никакой разницы, какую информацию несет изображение. ЅУчатЅ компьютер понимать картинку с текстом (переводить из одного формата в другой) специальные программы - системы оптического распознавания символов. Перечислим основные этапы процесса распознавания.

Во-первых, главным условием успеха ЅпрочтенияЅ кадра, является четкое изображение, при соблюдении которого система сделает меньше ошибок. Например, если ЅфотографияЅ получится очень светлой (высокая яркость), то символы на ней в тонких перешейках будут иметь разрывы, и буква ЅоЅ превратиться в букву ЅсЅ. А на тёмной ЅфотографииЅ (низкая яркость) соседние буквы склеятся с друг другом, и будет сложно понять, где начинается одна буква и заканчивается другая.

Это можно объяснить простым примером из жизни. Представьте себе, как трудно учителю научить ребёнка читать, если текст в книге напечатан не четко, расплывчато, на каждой букве приходиться спотыкаться, выяснять её. То же самое и с компьютером. Системы оптического распознавания символов - OCR(optical character recognition) - не любят ЅгрязныеЅ изображения.

После того как изображение от камеры передано в систему OCR, установленную на компьютере, начинается процедура сегментирования. Если кадр снят с наклоном, то программа выравнивает его.

Далее изображение поступает на распознавание. Распознавание - ядро любой системы OCR. От его качественной работы, то есть малого количества допущенных ошибок, зависит время, которое придется потратить на их исправление. Если ошибок будет слишком много, то польза автоматического ввода вообще становиться сомнительной: проще набрать сам текст, чем исправлять бесконечные ошибки. Распознавание текста начинается с выделения на изображении (или его части) строк, затем слов и наконец символов. Каждый символ идентифицируется. Система OCR хранит знания о символах в виде эталонов, с которыми сравнивает выделенный объект. Наиболее подходящий эталон будет соответствовать нашему символу. Распознавание осложняют дефекты печати, о которых мы говорили ранее, - склеенные и разорванные символы.

Вопрос идентификации объектов давно интересовал учёных. Как, например, мы отличаем одну букву от другой, стол от стула, собаку от кошки? Без ответа на этот вопрос невозможно и искусственную систему научить различать объекты.

Наблюдая за человеком и животными, учёные выдвинули гипотезу об используемых Ѕживыми системамиЅ принципах распознания предметов. А затем применили эти принципы при проектировании компьютерных программ. Первыми на этом пути считаются исследования М. Мински и П. Уинстона в Массачусетском технологическом институте в конце 60-х начале 70-х годов. В России этими вопросами занимались в НИЦ электронной и вычислительной техники (НИЦЭВТ).

В 1977 году группой исследователей под руководством А. Шамиса (ныне сотрудника компании ABBYY) были сформулированы важнейшие принципы распознавания: целостность, целенаправленность и адаптивность.

Согласно принципу целостности, каждый объект (например, человек) состоит из значимых частей (голова, руки, ноги туловище), находящихся в определенных отношениях друг с другом (голова находится наверху туловища, руки - на противоположных сторонах туловища, ноги не могут быть выше рук). Если нам нужно распознать объект, мы должны найти все составляющие его части и проверить, выполняются ли заданные для них отношения.

Второй принцип - целенаправленность. Распознавание строится как процесс выдвижения и доказательства или опровержения гипотез. Например, услышав шорох в углу темной комнаты, мы делаем предположение, что это кошка. И пытаемся опровергнуть нашу догадку или подтвердить её. Мы говорим себе: «Если это кошка, то у неё должна быть голова кошки, лапы кошки, кошачий хвост и она должна мяукать». Когда мы разглядим в темноте все перечисленные части и удостоверимся, что они соответствуют нашим представлениям о кошке, мы ЅраспознаемЅ кошку. Таким образом, мы не просто наблюдали объект, а в начале выдвинули гипотезу о том, что он собой представляет, и начали целенаправленно искать черты, присущие этому объекту. Такова природа процесса распознавания, которое, по сути, не что иное, как классификация. В систему заложены описания эталонов (или классов), и исследуемый объект соотносится с одним из них. Система не может распознать объект вообще, она только может сказать, относится ли он к одному из известных ей классов. И если да, то к какому именно.

И третий принцип - адаптивность, способность системы самообучаться. Когда человек разбирает непонятное слово, написанное незнакомым подчерком, он находит похожие закорючки в других, уже прочитанных словах и запоминает, как автор письма пишет, например букву ЅдЅ. Затем возвращается к вызвавшему затруднение слову и читает его, обладая уже новыми знаниями о написании конкретных букв данным подчерком.

Эти три принципа делают живые организмы идеальными системами распознавания, способными идентифицировать сотни объектов за считанные доли секунды. И если использовать те же принципы при построении искусственных систем, можно рассчитывать на высокие результаты. разница в том, что человеческий мозг совершает эту работу с помощью сложных биохимических реакций, а компьютер - путем вычислений.

Традиционно существуют три метода распознавания (или типа классификаторов): шаблонные, признаковые и структурные.

ь Шаблонные классификаторы преобразуют исходное изображение символа в набор точек и затем накладывают его на шаблон, имеющиеся в базе системы. Шаблон, имеющий меньше всего отличий, и будет искомым. У этих систем достаточно высокая точность распознавания дефектных символов (склеенных или разорванных). Недостаток - невозможность распознать шрифт, хоть немного отличающийся от заложенного в систему (размером, наклоном или начертанием).

ь Признаковые классификаторы по каждому символу вычисляют набор чисел (признаков). И сравнивают эти наборы. Но так как набор признаков никогда полностью не соответствует объекту, то заведомо часть информации о символе будет теряться.

ь Структурные классификаторы хранят информацию о топологии символа. Например, буква ЅоЅ описывается как непрерывная кривая, не имеющая пересечений. Этот способ тоже имеет свои недостатки: как только вы представите ЅразорваннуюЅ из-за дефектов печати букву ЅоЅ, она уже не подойдет под своё описание и может быть распознана как ЅсЅ или ЅпЅ.

Общие принципы работы систем OCR работают и применительно к данному дипломному проекту. Ввиду того, что системе не нужно распознавать тексты, сложные по структуре документы, не все принципы распознавания легли в основу разрабатываемого комплекса.

Поставленная в дипломном проекте задача распознавания номеров вагонов требует описания всего десяти классов, цифры от 0 до 9. Номера на большинстве вагонов написаны одинаковым шрифтом, поэтому было принято решение использования шаблонного метода распознавания, обойдя при этом недостатки этого метода.

Этапы работы модуля распознавания показаны в приложении 2:

1. Сегментация (поиск на изображении номера вагона и разбиение его на символы).

2. Масштабирование, приведение символа к размеру эталона.

В 2007 году компания

Cognitive Technologies представила новое ядро распознавания Cognitive Forms 2007 для IDR- технологии CogniDocs .

Генеральный директор Cognitive Technologies , член-корреспондент РАН Владимир Львович Арлазаров: появление IDR стало естественным шагом на пути развития технологий распознавания образов " от распознавания символов к пониманию документов" .

29.12.2009 Компания Cognitive Technologies предоставила права использования за вознаграждение компании «Яндекс» синтаксический анализатор , который позволяет определить, какими синтаксическими отношениями связаны слова предложения. Его использование для больших корпусов текста позволяет определять и изучать статистические закономерности языка (встречаемость слов и конструкций) при разрешении неоднозначностей (например «ключ упал на пол» и «в камнях забил ключ»), возникающих во время синтаксического разбора, а также при построении статистических моделей языка для распознавания слитной речи.

С интаксический анализатор позволяет проводить сравнение текстов на основе встречаемости в них различных слов и конструкций и разрабатывать методы понимания текстов, извлечения данных из текстов, а также другие приложения.

На основе синтаксического анализатора Cognitive Technologies создан ряд интеллектуальных программных продуктов, например системы определения авторства и стиля документа.

29.12.2009 Компания Cognitive Technologies показала свое умение решать классическую задачу "отличить кошку от собаки".

В 1967 году известный советский кибернетик Михаил Моисеевич Бонгард опубликовал книгу "Проблемы узнавания ", посвященную проблемам теории распознавания образов.

В ней был "Задачник для узнающей программы" – перечень из сотни задач распознавания ("тесты Бонгарда") которые легко решаются человеком, но не имеют чётких критериев для их описания в виде алгоритма.

Одной из этих задач и было – "отличить кошку от собаки", задача, которую любой ребенок, даже ещё не научившийся говорить, решает с полувзгляда.

Если вы захотите поиграться в вопросы-ответы на эту тему, то быстро обнаружите, что любая черта, характерная для кошачьих (или, наоборот, собак), не может служить однозначным и стопроцентным критерием для отличия во всех случаях. Убираемые когти? Кошка может их выпустить в любой момент, но от этого мы её с собакой не перепутаем. Вертикальный зрачок? Кошку с зажмуренными глазами мы также легко отличаем. И так далее.

Представители Cognitive заранее предложили всем желающим принести изображения кошек и собак на флэшках, и на компьютере, установленном в холле гостиницы, где проходила пресс-конференция, демонстрировали работу программы. Ни одной ошибки сделано не было – программа уверенно (с соотношением 30:8) определяла собаку даже на фотографии лохматого шпица.

Демонстрация эта, по словам представителей компании, была лишь иллюстрацией к решению общей задачи классификации изображений. Пока не существует программ, с достаточной для практического применения уверенностью решающих даже простейшие задачи такого рода: например, выделить все женские портреты из некоторой галереи, или ещё проще – найти из всех картин только пейзажи.

Все реально работающие системы поиска и классификации изображений сводятся главным образом к анализу текстового контекста (как в поиске Google по картинкам), а если и пытаются что-то распознавать (Face Search , Exalead и прочие), то по очень ограниченным критериям и с решительно недостаточной релевантностью результатов. Даже системы по элементарному поиску дубликатов одного и того же изображения нередко спотыкаются на простом изменении соотношения сторон при обрезке картинок. А про фиаско, которое потерпели системы выявления разыскиваемых лиц по изображениям, полученным от следящих видеокамер (вроде популярной некогда программы FaceIT ), пресса писала неоднократно .

Переоценить последствия от нахождения общей методики распознавания изображений и отнесения их к одному из заданных классов сложно. Это переворот не только в обычном поиске по картинкам в Сети, но и в криминалистике, в научных приложениях (в геоинформационных системах, в биологии, в медицине), в военной области. Так что можно лишь пожелать компании всяческих успехов в этом направлении. Но заодно стоит и предостеречь от необоснованного оптимизма: как известно, и задачу машинного языкового перевода ещё полвека назад полагали почти что решённой. А как это работает на практике и по сей день, мы все хорошо знаем...

Любой современный человек, постоянно работающий с документами, время от времени задает себе злободневный вопрос: зачем повторно набирать текст, если ранее это уже кто-то сделал? У многих пользователей такая регулярно повторяющаяся задача вызывает раздражение с примесью обиды за то, что приходится бессмысленно дублировать чью-то работу. Естественно, разработчики программного обеспечения не могли остаться равнодушными к столь типичной ситуации, ликвидация которой к тому же обещала солидные прибыли. Так были созданы системы известные в России как системы оптического распознавания текста , а в англоговорящих странах - как OCR .

Сегодня область применения программного обеспечения OCR существенно расширилась: вначале оно применялось преимущественно в финансово-банковской сфере, решая специфические задачи автоматизации по вводу анкетных и опросных данных, но сегодня OCR -программы применяются уже повсеместно для работы с любыми документами. Трудно переоценить значение OCR-систем, превратившихся в такой необходимый софт и для офисного, и для домашнего компьютера.

Давайте кратко пройдемся по всем основным на рынке OCR -системам и выделим главные и характерные для них особенности.

Перед тем как начать рассмотрение OCR -систем, давайте сначала хотя бы минимально приведем их классификацию для удобства дальнейшего рассмотрения. На данный момент выделяют OCR -системы (Optical character recognition, OCR ) , а также ICR -системы (I ntelligent C haracter R ecognition, ICR ). Несколько упрощая суть отличий между ними, можно считать, что ICR -системы - это следующее поколение в развитии OCR -систем.В ICR гораздо более активно и серьёзно используются возможности искусственного интеллекта, в частности, ICR -системы часто используются для распознавания рукописных текстов, декоративных непостоянных шрифтов, а также, как самый яркий пример, преодолению тех же систем по защите от спам-ботов - каптч (captcha ). Третий, пока ещё только теоретический уровень качества распознавания текста, это IWR (Intelligent word recognition, IWR), в которой считываются и распознаются не отдельные символы/точки, а считываются и распознаются связные фразы целиком.

Существует несколько систем, причисляющих себя к категории ICR . Это, преждевсего, FineReader, OmniPage Professional, Readiris Corporate, Type Reader Desktop. Давайте сравним их всех и рассмотрим возможные альтернативы.

Известные отечественные продукты

Зарубежные продукты

Три других известных продукта, получившие малое распространение на территории СНГ в силу полного отсутствия представителей и маломальского маркетинга на этих бескрайних кириллических территориях, но известные на Западе и достойные хотя бы краткого упоминания, хотя бы потому, что также позиционируют себя как продукты ICR-класса. В нише некириллического распознавания они вполне могут составить здоровую конкуренцию даже лидеру рынка - FineReader.

Первый их них, это пакет от компании I.R.I.S. Group, представляет собой очень серьёзный OCR -продукт. Достаточно сказать, что начиная с c ентября 2006 года технология от компании I .R .I .S . была лицензирована и используется в продуктах Adobe systems . Согласно внутреннему тестированию самой Adobe эта технология оказалось самой удачной из всех рассмотренных на рынке.

Нужно отметить, что это удачное стороннее решение “похоронило” свою собственную разработку Adobe - родного OCR -движка, - которая поставлялась многие годы в рамках решения , и вот теперь новый OCR Adobe доступен в виде отдельного в другие популярные продукты Acrobat . Последняя версия Readiris v12 поддерживает все версии Windows и MacOS X , а всего поддерживается работа с более чем 120 языками.

Следующая крупная разработка от американской компании - . Этот движок разработан в тесном сотрудничестве с Университетом Невада в Лас-Вегасе. Этот движок распространяется по миру сразу во многих формах, начиная от интегрирования его в крупные западные системы документооборота (D ocument I maging M anagement, DIM), и заканчивая участием во многих американских программах по автоматической обработке форм (F orms P rocessing S ervices, FPS).

Например, в 2008 году газета Los Angeles Times после собственного тестирования ведущих мировых OCR выбрала для своего внутреннего использования как раз именно TypeReader. Хочется заметить, что данный продукт доступен как в традиционном десктопном исполнении (Windows , MacOS , Linux ), в виде корпоративного web -сервиса, так и в форме облачного арендуемого приложения, способного обрабатывать любые объемы распознаваемого текста в очень короткие сроки.

Бесплатные OCR-решения

Интересный собственный движок развивает и Google . - это первоначально закрытый коммерческий OCR -движок который создала Hewlett -Packard , работая над ним в промежутке между 1985 и1995 годами. Но после закрытия проекта и прекращения его развития, HP выпустило его код как open source в 2005 году. Разработку сразу подхватила Google , лицензируя уже свой продукт под свободной лицензией Apache . На данный момент Tesseract считается одним из самых точных и качественных бесплатных движков из всех существующих.

Нужно при этом четко представлять, что Tesseract - это классическая OCR для “сырой” обработки текста, т.е. в нем нет ни графической оболочки для удобного управления процессом,ни многих других дополнительных функций. Это обычная консольная утилита (есть версии для Windows , MacOS , Linux ), на вход которой подается изображение в формате TIFF , а на выходе Tesseract выдает “чистый текст”. При этом никакого анализа компоновки текста или стилей оформления здесь не производится, это процесс распознавания в его простейшей форме.

Для большего удобства работы, в качестве графического фронтенда, с этим движком можно использовать многие утилиты, например известные или . Но все же хочется отметить, что качество бесплатного C uneiForm/OpenOCR немного превосходит показатели Tesseract , хотя во многом это полностью аналогичные продукты.

Кроме бесплатного Tesseract ещё стоит упомянуть и . SimpleOCR очень достойное решение для OCR , и хотя оно не развивается уже с 2008 года, но оно как минимум ничем не уступает Tesseract . Продукт бесплатен для любого некоммерческого использования, и поставляется для Windows всех версий. Из сильных минусов - поддержка только двух языков: английского и французского.

Кроме традиционных десктоповых бесплатных решений, существует множество альтернативных онлайновых сервисов, бесплатно предлагающих OCR качество распознавания существенно ниже их коммерческих аналогов. Для успешного решениябизнес задач (и других серьёзных повседневных задач) лучше ориентироваться на коммерческие системы ICR -класса, которые были рассмотрены в первой половине этой статьи.

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Системы оптического распознавания документов

Введение

Принцип работы сканера состоит в следующем: в результате преобразования света получается электрический сигнал, содержащий информацию об активности цвета в исходной точке сканируемого изображения. После оцифровки аналогового сигнала в АЦП цифровой сигнал через аппаратный интерфейс сканера идет в компьютер, где его получает и анализирует программа для работы со сканером. После окончания одного такого цикла (освещение оригинала -- получение сигнала -- преобразование сигнала -- получение его программой) источник света и приемник светового отражения перемещается относительно оригинала.

При работе с первоисточниками (или, как принято говорить при описании офисных технологий, с исходными документами) наиболее оптимальным может оказаться ввод какой-либо первичной текстовой информации без помощи клавиатуры. Такой способ может быть реализован получением данных из глобальных или локальных компьютерных сетей, посредством распознавания речи или оптического распознавания текста. В данной статье пойдет речь о последнем из названных способов.

Имея текст, напечатанный в типографии, на пишущей машинке, на принтере, копировальном аппарате, в факс-машине, то есть буквально текст любого происхождения, теперь - даже написанным от руки, Вы можете без помощи клавиатуры получить его в электронном виде для последующего редактирования, перевода или хранения на компьютере. Для этого Вам потребуются сканер и программа, называемая системой оптического распознавания - OCR. Каждый такой программный продукт имеет простейший автоматический режим "сканируй и распознавай", реализованный с помощью одной кнопки. Однако для того, чтобы достигнуть лучших из возможных для данной системы результатов, желательно (а нередко и обязательно) предварительно заниматься "ручной" настройкой системы распознавания на конкретный вид текста, а точнее на способ и качество начертаний букв и других знаков. Чтобы проделывать такие настройки, в меню программ обязательно отражены соответствующие регуляторы, но пользоваться ими удобнее при некотором знакомстве с принципами оптического распознавания.

Оптическое распознавание символов -- это механический или электронный перевод изображений рукописного, машинописного или печатного текста в последовательность кодов, использующихся для представления в текстовом редакторе

Как работает система оптического распознавания

Оптическое распознавание текста позволяет редактировать текст, осуществлять поиск слова или фразы, хранить его в более компактной форме, демонстрировать или распечатывать материал, не теряя качества, анализировать информацию, а также применять к тесту электронный перевод, форматирование или преобразование в речь.

Фактически, когда Вы читаете (например книгу), то не представляете, какую работу делает Ваш мозг, чтобы преобразовать образцы чернильных или типографских меток в осмысленный текст. Компьютеры, однако, еще борются за решение этой одной из основных задач при создании машинного интеллекта.

OCR-системы могут достигать наилучшей точности распознавания свыше 99 процентов для качественных изображений, составленных из обычных шрифтов. Хотя это число кажется почти совершенным, уровень ошибок все же удручает, потому что, если имеется приблизительно 1500 символов на странице, то даже при коэффициенте успешного распознавания 99,9% получается одна или две ошибки на страницу, требуя человеческого контроля результатов для гарантирования правильности соответствия оригиналу. Встречающиеся в жизни тексты порой весьма далеки от совершенных, и процент точности распознавания для "плохих" текстов часто недопустим для большинства приложений. Грязные изображения - здесь наиболее очевидная проблема, потому что даже малые пятна могут затенять определяющие части символа или преобразовывать один в другой.

Если документ был ксерокопирован, нередко возникают разрывы и слияния символов (такие тексты нередко возникают и при сканировании). Любой из этих эффектов может заставлять ошибаться, потому что некоторые из OCR систем полагают, что каждая соединенная черная метка должна быть одиночным символом.

Страница, расположенная с нарушением границ или перекосом, создает немного искаженные символьные изображения, которые могут путать программное обеспечение распознавания. Даже, когда изображения - чистые, странные или декоративные начертания могут вызывать проблемы, потому что они растягивают символы в различные формы для художественного эффекта. Кроме того буквы могут иметь вариации среди начертаний того же самого наименования шрифта, когда, к примеру, символы, воспроизведенные принтером HP DeskJet, отличны от символов, которые напечатаны на Apple LaserWriter.

Разработка алгоритмов, которые позволяют распознавать символы, несмотря на эти проблемы - трудная задача. Разработчики должны сбалансировать потребность в гибкости ПО с требованием его точности. Если программное обеспечение не достаточно гибко, то оно будет неточно сегментировать символ, когда будет сталкиваться с различными вариациями начертания. С другой стороны, слишком много гибкости может также вызывать ошибки. К примеру, отличие между "b" и "h" в нижнем регистре не очень большое, и гибкий алгоритм может спутать их.

Одна из наиболее недорешенных задач в OCR - сегментация отдельных символов. Это происходит потому, что границы между буквами часто нечеткие, штрихи соседних букв соприкасаются, и это мешает делить слова на символы. Например, две или более буквы распознаются как одна, или одна - как две или три. Существуют шрифты, у которых, несмотря на общее хорошее качество печати, встречаются склейки (например, в шрифте Tense). Порою, увидев отсканированное изображение, в котором буквы сливаются на большей площади листа с текстом, можно заранее сказать, что данный текст не распознается корректно, и сэкономить свое время, даже не запустив программу на распознавание.

Образ страницы и распознавание по шаблонам

Программное обеспечение OCR обычно работает с большим растровым изображением страницы из сканера. Изображения со стандартной степенью разрешения получаются сканированием с точностью 300x300 пикселей на дюйм. Изображение бумажного листа формата A4 (11 формата) при этом разрешении занимает около 1 Мбайт памяти. Изображения c более тонким разрешением возможны с применением более дорогих сканеров, но они часто непрактичны для OCR-приложений из-за большой требуемой памяти для изображений или длительности самого процесса сканирования. Кроме того, увеличение разрешения сканера не приносит пользы, если качество оригинала недостаточно хорошее. Анализируя изображения, исходящие из факсимильных машин, подбирают разрешение, проверяя отличия от имеющихся шаблонов символов (самая маленькая их величина при самом близком соответствии).

По этой причине, большинство систем имеет шаблоны, созданные для различных начертаний. После нескольких слов, программное обеспечение определяет основное используемое начертание и ищет соответствующие пары только с этим начертанием. В некоторых случаях программное обеспечение использует численные значения частей символа (пропорций), чтобы определить новый шрифт. Это может улучшать эффективность распознавания до других стилей печати, типа курсива или жирного начертания слова, найденного на странице.

Таким образом, при распознавании по шаблонам представление описания похоже на представление входных объектов, и описание сравнивается с ними непосредственно.

Программа распознавания TypeReader фирмы ExperVision использует машинно-зависимые алгоритмы, чтобы найти наиболее важные пиксели для различения символов. Берется 30 различных вариантов символа (которые исходят из 30 различных документов) и в каждом из этих примеров анализируется по 100 пикселей, чтобы определить то, какие из них наиболее вероятно должны быть характеристикой для специфического символа (к примеру, пиксели на нижней части "A" всегда чисты и т. д.). Краевые элементы изображения вдоль границ символа часто исключаются этим анализом, потому что они могут быть темны в чистых изображениях, но чисты в страницах с пониженной четкостью. Машинный алгоритм ранжирует 100 пикселей от более до менее непротиворечивых для каждого из символов.

Однако этого шага не достаточно из-за подобия между буквами. Например, в нижнем регистре "h", "k", "f", "l", и "t" имеют общие длинные вертикальные штрихи слева, и пиксели вдоль этого штриха не будут передавать различия этих символов. По этой причине, программное обеспечение фирмы ExperVision находит 24 пикселя, которые являются наиболее непротиворечивыми у всех символов в алфавите, и удаляет их из списка для индивидуальных символов. Пиксели, которые оставлены, должны с наибольшей вероятностью быть уникальными.

Таким образом, требуется создать шаблон целостного описания символа, так чтобы любое изображение буквы в него попадало, а любые допустимые изображения других букв - нет. В чистом виде шаблонное описание может применяться только для распознавания печатных символов. Заметим, что рукописные шрифты тоже распознаются с применением шаблонов (только "более хитрых"), но одновременно со структурным подходом.

Структурный подход и Контекстное распознавание

оптический распознавание текст шаблон

Самая продаваемая в мире система OCR - Caere OmniPage Professional использует алгоритм, который не должен настраиваться на индивидуальное начертание, потому что он основан на нахождении общих специфических особенностей символов. Эта система содержит 100 различных "экспертных систем", которые в действительности являются только алгоритмами для идентификации 100 различных символов: верхнего и нижнего регистра от "A" до "Z", записи чисел и символов пунктуации. Каждая из этих экспертных систем ищет "особенности" начертаний типа "островов", "полуостровов", точек, прямых оттисков и дуг. Экспертные системы также рассматривают горизонтальные и вертикальные проекции оттисков буквы и обращают внимание на основные особенности в созданных кривых, суммируя в них число темных пикселей.

Корпорация Xerox имеет один из наиболее сложных пакетов программ с контекстным анализом. Пакет, называемый Lexifier (сокращение для "лексический классификатор"), содержит большинство главных правил записи буквенных структур или принятых образцов номеров телефонов. Он помогает интерпретировать имена собственные типа Lexifier, которые кажутся совершенно правильно английскими, но не находятся в словаре. Этот эффект особенно заметен в российской программе FineReader, который чаще, чем в среднем по всем символам, ошибается в словах, которые отсутствует в его словаре (к примеру, названия фирм ему даются тяжело).

Таким образом, алгоритм распознавания в самом общем виде состоит в последовательном выдвижении и проверке гипотез, причем порядок их выдвижения управляется заложенными в программу знаниями об исследуемом предмете и результатами проверки предыдущих гипотез (производится дополнительный анализ объекта в рамках выдвинутой гипотезы).

Основное требование к предварительной обработке - не потерять о входном объекте существенную информацию. Поскольку для выделения целого требуются его части, а для нахождения частей требуется целое, целостный процесс восприятия может происходить только в рамках гипотезы о воспринимаемом объекте - в целом.

Как было показано в примерах, целостное описание класса объектов восприятия должно удовлетворять двум свойствам: во-первых, все объекты данного класса должны удовлетворять этому описанию, во-вторых, ни один объект другого класса не должен удовлетворять описанию.

Заключение

Главный вывод в данном разговоре об OCR - это то, что описываемые системы многое умеют и являются полноправными системами в пакете программ "электронного офиса". Их надо иметь.

Если же делать выводы о закономерностях в построении программ OCR, то можно сказать следующее.

Шаблонное описание проще и эффективней в реализации, но, в отличие от структурного, не позволяет описывать объекты с высокой степенью изменчивости. В простейшем случае, шаблонное описание может применяться для распознавания печатных символов, а структурное - для рукописных. Отметим, что все современные российские программы распознавания - Autor, CuneiForm и FineReader - являются структурно-шаблонными. По-видимому, только сочетание этих двух методов обеспечивает приемлемую надежность. Целостность процесса восприятия программных продуктов OCR предполагает, что все исследуемый объект должен представляться и обрабатываться по возможности весь сразу, а источники знания должны работать по возможности одновременно: каждая фраза подвергается распознаванию, словарной и контекстной обработке (для создания обратной связи от контекстной обработки к распознаванию).

Список литературы

1. Новиков Ф., Яценко А. Microsoft Office 2000 в целом. СПб., 1999.

2. Рабин Ч. Эффективная работа с Microsoft Office 2000. СПб., 2000.

3. Айден К., Фибельман Х., Крамер М. Аппаратные средства РС. СПб., 1997.

Размещено на Allbest.ru

...

Подобные документы

Как работает система оптического распознавания. Деление текста на символы. Образ страницы и распознавание по шаблонам, особенности коррекции ошибок. Увеличение скорости бесклавиатурного ввода документов в технологиях электронного документооборота.

контрольная работа , добавлен 29.04.2011

Оптическое распознавание символов как механический или электронный перевод изображений рукописного, машинописного или печатного текста в последовательность кодов. Компьютерные программы для оптического распознавания символов и их характеристика.

презентация , добавлен 20.12.2011

Необходимость в системах распознавания символов. Виды сканеров и их характеристики. Оптимальное разрешение при сканировании. Программы распознавания текста. Получение электронного документа. FineReader - система оптического распознавания текстов.

презентация , добавлен 15.03.2015

Методы предобработки изображений текстовых символов. Статистические распределения точек. Интегральные преобразования и структурный анализ. Реализация алгоритма распознавания букв. Анализ алгоритмов оптического распознавания символов. Сравнение с эталоном.

курсовая работа , добавлен 20.09.2014

Оптико-электронная система идентификации объектов подвижного состава железнодорожного транспорта. Автоматический комплекс распознавания автомобильных номеров. Принципы и этапы работы систем оптического распознавания. Особенности реализации алгоритмов.

дипломная работа , добавлен 26.11.2013

Обзор существующих алгоритмов для обнаружения лиц. Выравнивание лица с помощью разнообразных фильтров. Использование каскадного классификатора Хаара для поиска лиц на изображении. Распознавание лиц людей с использованием локальных бинарных шаблонов.

дипломная работа , добавлен 30.09.2016

Понятие и особенности построения алгоритмов распознавания образов. Различные подходы к типологии методов распознавания. Изучение основных способов представления знаний. Характеристика интенсиональных и экстенсиональных методов, оценка их качества.

презентация , добавлен 06.01.2014

Проектирование приложения на языке С# в среде Microsoft Visual Studio 2008: составление алгоритмов сегментации текста документа и распознавания слова "Указ" в нем, создание архитектуры и интерфейса программного обеспечения, описание разработанных классов.

курсовая работа , добавлен 05.01.2011

Понятие системы распознавания образов. Классификация систем распознавания. Разработка системы распознавания формы микрообъектов. Алгоритм для создания системы распознавания микрообъектов на кристаллограмме, особенности его реализации в программной среде.

курсовая работа , добавлен 21.06.2014

Процессы распознавания символов. Шаблонные и структурные алгоритмы распознавания. Процесс обработки поступающего документа. Обзор существующих приложений по оптическому распознаванию символов. Определение фиксированного шага и сегментация слов.