OCR с неязыковым текстом
Мне интересно использовать OCR для распознавания текста из документа, который не содержит слов. Скорее, это документ с длинной строкой "случайных" печатных символов. Я пытался использовать tesseract для сканирования текста, но, похоже, он ищет слова. Есть ли способ заставить tesseract просто распознавать символы?
2 ответа
Решение
Да, вы можете отключить словари, определив файл конфигурации, содержащий:
load_system_dawg F
load_freq_dawg F
и укажите это с помощью команды.
Тессеракт не работает должным образом, поскольку он ожидает слов и естественного языка.
В вашем случае мне удалось добиться успеха с gocr.
Я могу декодировать 15 тысяч случайных символов со 100% точностью, см. https://www.monperrus.net/martin/store-data-paper .