Экспортируйте все файлы PDF в виде текста с помощью Adobe Acrobar Pro DC
Вопрос: Как заставить Adobe Acrobat Pro DC экспортировать все файлы PDF в папку в виде текстовых файлов?
С помощью мастера действий в меню "Инструменты" Adobe Acrobat Pro DC мне удалось создать собственную команду, которая позволила мне экспортировать (OCR) тысячи изображений в виде файлов PDF. Теперь я хочу экспортировать эти изображения; которые теперь доступны для поиска в виде текстовых файлов. Однако я не могу найти подобный набор инструментов для этого.
Примечание: есть кнопка экспорта, которая позволяет мне экспортировать файлы по одному в виде текстового файла, но я не могу найти что-то, что позволило бы мне выполнить команду для всей папки.
РЕДАКТИРОВАТЬ: я позвонил в службу поддержки, и возможный обходной путь - объединить все файлы в один гигантский файл PDF, а затем экспортировать файл PDF. С другой стороны, мне нужен отдельный идентификатор для каждого файла PDF, экспортируемого в виде текста, так что это не вариант.
1 ответ
Вы можете использовать PowerShell в сочетании с Xpdf.
Xpdf установит программу под названием pdftotext
, который может быть вызван из сценария PowerShell, например:
$FILES= ls *.pdf
foreach ($f in $FILES) {
& "C:\Program Files\xpdf\bin32\pdftotext.exe" -enc UTF-8 "$f"
}
Подобный пакетный сценарий может быть вызван из .bat
файл без использования PowerShell:
for /f %%G in ('dir /b') do {
"C:\Program Files\xpdf\bin32\pdftotext.exe" -enc UTF-8 "%%G"
)
(Примечание. Ни один из сценариев не был протестирован.)