pdftotext дает зашифрованный вывод
если бы кто-нибудь мог помочь, я был бы признателен
Я пытаюсь вывести текст через pdftotext из нескольких файлов PDF. К сожалению, мои результаты продолжают выглядеть так: "* * * $ * # 2 %
Сначала я думал, что проблема в том, что шрифт Arial, поэтому я установил шрифт Arial, но это не дало никаких изменений. Использование разных вариантов кодирования также не дает лучшего результата. Перед установкой шрифтов Arial evince не мог отображать текст в PDF-файле, но после установки PDF-файл отображается нормально, поэтому я подумал, что это основная проблема, но, видимо, нет.
Я использую Centos 6.7
Заранее благодарим вас за любые отзывы.
1 ответ
Не уверен, что это так, но PDF-файл может даже использовать произвольную кодировку символов, ссылаясь на встроенные глифы просто по их индексу (0, 1, ...). Этого достаточно для правильного рендеринга (=визуального вида), но для практических целей текст будет потерян.
В этом случае использование OCR в PDF-файле — практически единственный способ получить исходный текст. Или угадать одноалфавитную замену для каждого PDF, если это действительно важный документ.