Вы здесь

Распознавание текста в Ubuntu. Как установить Tesseract OCR?

Опубликовано: вт, 07/12/2021 - 19:37
OCR

Tesseract OCR - это отличный движок распознавания текста, который в свое время (еще в 80-ых) был разработан HP, потом на длительное время заброшен, в позже выкуплен Google. Последняя принялась доводить его до совершенства, так что прогресс движется семимильными шагами, и программа уже вовсю способна составить конкуренцию какому-нибудь Fine Reader.

На текущий момент существует две ветки Tesseract, стабильная 4 и только-только вышедшая 5-ая. Сейчас мы разберемся, как установить ту или другую.

Tesseract 4

Стабильный PPA предлагает пакеты Tesseract (4.1.3 на текущий момент) под Ubuntu 21.10, 20.04, 18.04, 16.04 и даже 14.04. Для добавления PPA следует выполнить команду:

sudo add-apt-repository ppa:alex-p/tesseract-ocr

Tesseract 5

Если вы желаете попробовать самую последнюю версию - Tesseract 5, можно воспользоваться PPA для разработчиков. Там есть пакеты под Ubuntu 18.04, 20.04 и 21.04. Под последнюю Ubuntu 21.10 пакетов почему-то пока нет. Используйте команду для добавления:

sudo add-apt-repository ppa:alex-p/tesseract-ocr-devel

Также у Tesseract есть репозитории под Debian.

Установка Tesseract

Используйте следующие команды для установки Tesseract:

sudo apt update
sudo apt install tesseract-ocr tesseract-ocr-rus

Использование Tesseract

У программы есть множество сторонних надстроек GUI. К примеру, можно использовать GTK-надстройку gImageReader, она есть в официальных репозиториях:

gImageReader

Однако программу легко можно использовать и из терминала (как видим по результату, надо было устанавливать не только русский, но и английский для распознавания):

tesseract input.jpg output -l rus

Tesseract

Удаление Tesseract и его PPA

Удалить программу можно командой:

sudo apt remove --autoremove tesseract-ocr tesseract-ocr-*

Репозиторий PPA можно удалить командой add-apt-repository с флагом --remove, либо из апплета "Программы и компоненты" - Другое ПО:

удаление


Добавить комментарий