Экспортируйте все файлы PDF в виде текста с помощью Adobe Acrobar Pro DC

Вопрос: Как заставить Adobe Acrobat Pro DC экспортировать все файлы PDF в папку в виде текстовых файлов?

С помощью мастера действий в меню "Инструменты" Adobe Acrobat Pro DC мне удалось создать собственную команду, которая позволила мне экспортировать (OCR) тысячи изображений в виде файлов PDF. Теперь я хочу экспортировать эти изображения; которые теперь доступны для поиска в виде текстовых файлов. Однако я не могу найти подобный набор инструментов для этого.

Примечание: есть кнопка экспорта, которая позволяет мне экспортировать файлы по одному в виде текстового файла, но я не могу найти что-то, что позволило бы мне выполнить команду для всей папки.

РЕДАКТИРОВАТЬ: я позвонил в службу поддержки, и возможный обходной путь - объединить все файлы в один гигантский файл PDF, а затем экспортировать файл PDF. С другой стороны, мне нужен отдельный идентификатор для каждого файла PDF, экспортируемого в виде текста, так что это не вариант.

1 ответ

Решение

Вы можете использовать PowerShell в сочетании с Xpdf.

Xpdf установит программу под названием pdftotext, который может быть вызван из сценария PowerShell, например:

$FILES= ls *.pdf
foreach ($f in $FILES) {
    & "C:\Program Files\xpdf\bin32\pdftotext.exe" -enc UTF-8 "$f"
}

Подобный пакетный сценарий может быть вызван из .bat файл без использования PowerShell:

for /f %%G in ('dir /b') do {
  "C:\Program Files\xpdf\bin32\pdftotext.exe" -enc UTF-8 "%%G"
)

(Примечание. Ни один из сценариев не был протестирован.)

Другие вопросы по тегам