Вы здесь

Что такое оптическое распознавание символов, и какие есть программы для OCR?

Опубликовано: чт, 27/06/2019 - 18:34
OCR

Сегодня мы поговорим о технологии OCR - оптическом распознавании символов. Она используется при переводе рукописного или печатного текста в текстовые данные для компьютера.

Технология OCR используется для оцифровки книг, для публикации статей на сайтах, а также для автоматизации систем бизнес-учета. Оцифровка физических носителей (книг, журналов, рукописей) облегчает хранение информации, ее каталогизирование, изменение, а также перевод в речь и на другие языки.

Раньше для распознавания текста требовалось загружать в систему OCR изображение каждого символа, что ограничивало распознавание лишь одним шрифтом. Современные системы стали более интеллектуальными: они способны работать со множеством шрифтов, причем точность распознавания очень высока. Зачастую удается сохранить даже форматирование текста, включая картинки и колонки.

Несмотря на все совершенство нынешних технологий распознавания символов (по сравнению со своими предшественниками), файл источника (к примеру, отсканированной книги) должен обладать достаточной четкостью. При этом точность будет превышать 99%, однако для идеального результата файл после OCR программы должен быть отредактирован человеком.

Сложнее дело обстоит с распознаванием рукописного текста. Тут обычно используется распознавание целых слов, нежели символов. И это становится возможно благодаря использованию словарей и грамматических баз. Зачастую для этой задачи применяются и интеллектуальные системы распознавания - нейронные сети.

Приложения для Windows

Среди приложений для OCR-распознавания для системы Windows можно выделить следующие:

  • ABBYY Fine Reader,
  • CuneiForm,
  • Adobe Acrobat Pro,
  • Freemore OCR,
  • Readiris Pro,
  • Scanitto Pro,
  • RiDoc.

К сожалению, практически все они платные (разве кроме что Freemore OCR и CuneiForm).

Linux-программы

Для платформы Linux можно выделить следующие программы:

  • Cuneiform,
  • Tesseract,
  • Finereader Engine.

Онлайн-сервисы

Однако есть и онлайн-сервисы по распознаванию. К примеру, img2txt.com - бесплатный и быстрый. Вы легко можете его найти в Google, к примеру, по запросу Copy text from pictures.

Интерфейс данного онлайн-сервиса достаточно прост и интуитивен - справится даже ребенок. Достаточно выбрать нужный файл, установить язык и нажать кнопку "Начать распознавание".

img2txt 

Этот сервис хорош тем, что он не требует установки приложений на ПК, и при этом он совершенно бесплатен.

Мы рассмотрели основные нюансы технологии OCR и приложения, которые используются для распознавания символов.