pdftotext дает зашифрованный вывод

Question

pdftotext дает зашифрованный вывод

если бы кто-нибудь мог помочь, я был бы признателен

Я пытаюсь вывести текст через pdftotext из нескольких файлов PDF. К сожалению, мои результаты продолжают выглядеть так: "* * * $ * # 2 %

Сначала я думал, что проблема в том, что шрифт Arial, поэтому я установил шрифт Arial, но это не дало никаких изменений. Использование разных вариантов кодирования также не дает лучшего результата. Перед установкой шрифтов Arial evince не мог отображать текст в PDF-файле, но после установки PDF-файл отображается нормально, поэтому я подумал, что это основная проблема, но, видимо, нет.

Я использую Centos 6.7

Заранее благодарим вас за любые отзывы.

0

pdf fonts xpdf

Источник

looser 31 окт '21 в 05:24

1 ответ

Другие вопросы по тегам pdf fonts xpdf

jvb 31 окт '21 в 06:59 2021-10-31 06:59 · Answer 1 · 2021-10-31 06:59

Не уверен, что это так, но PDF-файл может даже использовать произвольную кодировку символов, ссылаясь на встроенные глифы просто по их индексу (0, 1, ...). Этого достаточно для правильного рендеринга (=визуального вида), но для практических целей текст будет потерян.

В этом случае использование OCR в PDF-файле — практически единственный способ получить исходный текст. Или угадать одноалфавитную замену для каждого PDF, если это действительно важный документ.