Tesseract — это свободно доступный инструмент распознавания текста с открытым исходным кодом, также известный как OCR (оптическое распознавание символов). Он в основном используется для идентификации и извлечения текста из изображений. Он будет считывать текст из данных изображения и записывать вывод в новый файл .txt. Tesseract также работает под Python, так как в основном используется для распознавания рукописного текста с изображений. Он использует модель LSTR (длинная кратковременная память). Tesseract работает под лицензией Apache 2.0.
В этом блоге мы подробно расскажем о способе установки Tesseract в Windows.
Итак, приступим!
Как установить Тессеракт на Windows?
Tesseract — это инструмент командной строки, который используется для извлечения текста из изображений. Чтобы установить Tesseract в Windows, вам необходимо выполнить приведенные ниже инструкции.
Шаг 1: Загрузите установщик Tesseract
Во-первых, перейдите по приведенной ниже ссылке и загрузите установщик Tesseract в соответствии со спецификацией вашей системы:
https: // github.com / UB-Мангейм / тессеракт / неделя
Шаг 2: Запустите установщик Tesseract
Посетить ' Загрузки », куда загружается установщик Tesseract. Чтобы установить Tesseract в Windows, запустите программу установки Tesseract, дважды щелкнув по ней:
Шаг 3: Выберите язык
Установщик Tesseract поддерживает многие языки. Чтобы взаимодействовать с пользовательским интерфейсом установщика, выберите « Английский ” в качестве вашего языка и нажмите “ ХОРОШО ”:
Шаг 4: Установите Тессеракт
После этого на экране появится мастер настройки Tesseract OCR. Чтобы начать установку Tesseract, нажмите « Следующий ' кнопка:
Чтобы принять « Лицензионное соглашение ', нажмите кнопку ' Я согласен ' кнопка:
Выберите « Установить для всех, кто использует этот компьютер ” и нажмите кнопку “ Следующий ' кнопка:
Если вы хотите добавить данные сценария или включить другой язык, отметьте соответствующие флажки и нажмите « Следующий ' кнопка. Поскольку нам не нужны дополнительные сценарии данных или язык, мы продолжим с выбранными параметрами по умолчанию:
Выберите место установки и нажмите кнопку « Следующий ' кнопка:
Если вы не хотите создавать ярлык в меню «Пуск», то отметьте « Не создавать ярлыки » и нажмите кнопку « Установить ' кнопка:
После этого начнется установка Tesseract. Дождитесь завершения установки и нажмите « Следующий ' кнопка:
Наконец, нажмите « Заканчивать ' кнопка:
Шаг 5: Установите переменную среды
После установки вам необходимо установить переменную окружения файла Tesseract. Для этого сначала зайдите в каталог, в который вы установили Tesseract, и скопируйте путь из « Адрес ' бар:
Сделайте поиск по запросу « Переменные среды ' в ' Запускать » меню и откройте « Отредактируйте системные переменные среды ”:
В настройках перейдите к пункту « Передовой меню настроек и нажмите кнопку « Переменные среды ' кнопка:
Выбрать ' Дорожка ” Переменная из “ Системные переменные ” и нажмите кнопку “ Редактировать ' кнопка:
После того ' Изменить переменную среды на экране появится окно. Нажмите ' Новый ” и вставьте сюда скопированный путь к каталогу установки Tesseract. Наконец, нажмите « ХОРОШО ' кнопка:
Шаг 6: Проверьте установку Tesseract
Чтобы проверить установку Tesseract, откройте командную строку Windows, выполнив поиск « Командная строка ' в ' Запускать меню:
Проверьте версию Tesseract с помощью предоставленной команды:
> тессеракт --версия
Приведенный ниже вывод показывает, что мы успешно установили версию Tesseract « v5.2.0 ” в Windows:
Давайте продолжим, чтобы узнать, как использовать Tesseract в Windows.
Как использовать Тессеракт в Windows?
Tesseract используется для чтения рукописного текста или извлечения текста из изображений. Давайте посмотрим, как это работает:
Шаг 1: выберите изображение
Выберите изображение, из которого вы хотите извлечь текст. Как мы выбрали» 1.png ”:
Шаг 2: извлеките текст из изображения
После открытия CMD. Используйте « CD », чтобы изменить каталог, в котором хранится изображение. Затем запустите « тессеракт ” и определите имя файла изображения, как мы указали “ 1.png ». “ Текст Параметр показывает, что обозначает имя выходного файла:
> CD C:\Users\anuma\OneDrive\Pictures\Сохраненные изображения> тессеракт 1 .png 'Текст'
Шаг 3. Проверьте извлечение текста
Чтобы проверить извлечение текста, перейдите в каталог, в котором находится файл изображения. Вы можете видеть, что выходной файл « Текст ” также сохраняется здесь. Дважды щелкните выходной файл, чтобы проверить, извлек ли тессеракт текст из изображения или нет:
Вы можете видеть, что мы успешно извлекли текст с помощью инструмента командной строки Tesseract:
Мы продемонстрировали технику установки и использования Tesseract в Windows.
Вывод
Чтобы установить Tesseract в Windows, необходимо загрузить установщик Tesseract. Для этого следуйте первому сеансу этой статьи. Затем установите переменную среды Path для использования и доступа к Tesseract из командной строки Windows. Затем выберите файл изображения и используйте кнопку « Тессеракт ” для распознавания и извлечения текста из изображения. Здесь вы научились устанавливать, а также использовать « Тессеракт » на окнах.