OCR с неязыковым текстом

Мне интересно использовать OCR для распознавания текста из документа, который не содержит слов. Скорее, это документ с длинной строкой "случайных" печатных символов. Я пытался использовать tesseract для сканирования текста, но, похоже, он ищет слова. Есть ли способ заставить tesseract просто распознавать символы?

2 ответа

Решение

Да, вы можете отключить словари, определив файл конфигурации, содержащий:

load_system_dawg F
load_freq_dawg F

и укажите это с помощью команды.

Тессеракт не работает должным образом, поскольку он ожидает слов и естественного языка.

В вашем случае мне удалось добиться успеха с gocr.

Я могу декодировать 15 тысяч случайных символов со 100% точностью, см. https://www.monperrus.net/martin/store-data-paper .

Другие вопросы по тегам