Как извлечь текст из PDF-файла на основе изображений с помощью Cuneiform в терминале

Question

Как извлечь текст из PDF-файла на основе изображений с помощью Cuneiform в терминале

клинопись -l рус -f текст -o outocr.txt input.pdf

Приведенная выше команда при запуске в терминале выводит только текст моей титульной страницы PDF в файл outocr.txt. Что я должен сделать, чтобы он распознал весь текст в 120-страничном PDF? Я использую Fedora Linux 25 (x86_64).

0

linux pdf fedora ocr

Источник

codezombie 31 янв '17 в 09:27

1 ответ

Другие вопросы по тегам linux pdf fedora ocr

gantner 15 авг '17 в 15:37 2017-08-15 15:37 · Answer 1 · 2017-08-15 15:37

В этом посте приведен пример сценария для чтения множества отдельных страниц и создания многостраничного PDF. Cuneiform сама по себе не создает многостраничных документов. Как извлечь текст с OCR из PDF на Linux?

2

Источник

gantner 15 авг '17 в 15:37