OCR с неязыковым текстом

Question

OCR с неязыковым текстом

Мне интересно использовать OCR для распознавания текста из документа, который не содержит слов. Скорее, это документ с длинной строкой "случайных" печатных символов. Я пытался использовать tesseract для сканирования текста, но, похоже, он ищет слова. Есть ли способ заставить tesseract просто распознавать символы?

5

ocr tesseract-ocr

Источник

Daniel 28 авг '13 в 15:00

2 ответа

Решение

Тессеракт не работает должным образом, поскольку он ожидает слов и естественного языка.

В вашем случае мне удалось добиться успеха с gocr.

Я могу декодировать 15 тысяч случайных символов со 100% точностью, см. https://www.monperrus.net/martin/store-data-paper .

0

Источник

Martin Monperrus 25 апр '20 в 10:30

Другие вопросы по тегам ocr tesseract-ocr

nguyenq 08 окт '13 в 01:17 2013-10-08 01:17 · Accepted Answer · 2013-10-08 01:17

Да, вы можете отключить словари, определив файл конфигурации, содержащий:

load_system_dawg F
load_freq_dawg F

и укажите это с помощью команды.

4

Источник

nguyenq 08 окт '13 в 01:17