pdftotext дает зашифрованный вывод

если бы кто-нибудь мог помочь, я был бы признателен

Я пытаюсь вывести текст через pdftotext из нескольких файлов PDF. К сожалению, мои результаты продолжают выглядеть так: "* * * $ * # 2 %

Сначала я думал, что проблема в том, что шрифт Arial, поэтому я установил шрифт Arial, но это не дало никаких изменений. Использование разных вариантов кодирования также не дает лучшего результата. Перед установкой шрифтов Arial evince не мог отображать текст в PDF-файле, но после установки PDF-файл отображается нормально, поэтому я подумал, что это основная проблема, но, видимо, нет.

Я использую Centos 6.7

Заранее благодарим вас за любые отзывы.

1 ответ

Не уверен, что это так, но PDF-файл может даже использовать произвольную кодировку символов, ссылаясь на встроенные глифы просто по их индексу (0, 1, ...). Этого достаточно для правильного рендеринга (=визуального вида), но для практических целей текст будет потерян.

В этом случае использование OCR в PDF-файле — практически единственный способ получить исходный текст. Или угадать одноалфавитную замену для каждого PDF, если это действительно важный документ.

Другие вопросы по тегам