Tesseract OCR - это отличный движок распознавания текста, который в свое время (еще в 80-ых) был разработан HP, потом на длительное время заброшен, в позже выкуплен Google. Последняя принялась доводить его до совершенства, так что прогресс движется семимильными шагами, и программа уже вовсю способна составить конкуренцию какому-нибудь Fine Reader.
На текущий момент существует две ветки Tesseract, стабильная 4 и только-только вышедшая 5-ая. Сейчас мы разберемся, как установить ту или другую.
Tesseract 4
Стабильный PPA предлагает пакеты Tesseract (4.1.3 на текущий момент) под Ubuntu 21.10, 20.04, 18.04, 16.04 и даже 14.04. Для добавления PPA следует выполнить команду:
sudo add-apt-repository ppa:alex-p/tesseract-ocr
Tesseract 5
Если вы желаете попробовать самую последнюю версию - Tesseract 5, можно воспользоваться PPA для разработчиков. Там есть пакеты под Ubuntu 18.04, 20.04 и 21.04. Под последнюю Ubuntu 21.10 пакетов почему-то пока нет. Используйте команду для добавления:
sudo add-apt-repository ppa:alex-p/tesseract-ocr-devel
Также у Tesseract есть репозитории под Debian.
Установка Tesseract
Используйте следующие команды для установки Tesseract:
sudo apt update
sudo apt install tesseract-ocr tesseract-ocr-rus
Использование Tesseract
У программы есть множество сторонних надстроек GUI. К примеру, можно использовать GTK-надстройку gImageReader, она есть в официальных репозиториях:
Однако программу легко можно использовать и из терминала (как видим по результату, надо было устанавливать не только русский, но и английский для распознавания):
tesseract input.jpg output -l rus
Удаление Tesseract и его PPA
Удалить программу можно командой:
sudo apt remove --autoremove tesseract-ocr tesseract-ocr-*
Репозиторий PPA можно удалить командой add-apt-repository с флагом --remove, либо из апплета "Программы и компоненты" - Другое ПО:
Добавить комментарий