Как я могу преобразовать DJVU в PDF с сохранением слова для поиска?

У меня есть файл djvu, в котором я могу искать конкретные слова. Однако, если я преобразую его в pdf (я пробовал использовать cutePDF и онлайн - инструмент djvu-pdf), возможность поиска слов будет потеряна.

Как я могу преобразовать файл djvu в PDF, сохраняющий слово для поиска?

7 ответов

Я написал сценарий, чтобы сделать это давным-давно. Это по сути склеенный код вокруг нескольких утилит, которые делают тяжелую работу. Разница между моим сценарием и другими инструментами того времени заключается в том, что мой единственный был единственным, который выполнял все следующие действия:

  • имеет степень сжатия, аналогичную исходному файлу DjVu (размер в 1,5-2 раза вместо размера в 10-20 раз)
  • сохраненные метаданные закладок / оглавления (для навигации в программе чтения PDF)
  • сохранил встроенный текстовый слой для поиска

При этом, это очень примитивно. Я просто убедился, что он хорошо работает для всех моих файлов и с тех пор не работал с ним.

Скрипты виндваки vindvaki упаковал в образ докера с необходимыми зависимостями. Вы можете попробовать это с:

        docker run --rm -u $(id -u):$(id -g) -v $(pwd):/opt/work ilyabystrov/djvu2pdf filename.djvu filename.pdf

Подробности смотрите в djvu2pdf-docker.

Этот конвертер DjVu в PDF определенно сохраняет возможность поиска слов в случае, если исходный DjVu доступен для поиска. Это также производит меньшие выходные файлы, чем калибр.

Откройте PDF-файл в PDF-XChange Viewer и выполните распознавание текста (я думаю, что поддерживаются только четыре языка). Это требует времени, но это чертовски хорошо (даже в двухколоночных документах).

На Mac и Linux вам понадобится Wine.

Вы пробовали Калибр? Участник Caliber упоминает, что текст OCR в djvu поддерживается. Таким образом, он может быть преобразован в PDF с возможностью поиска текста.

Все эти ответы предлагают просто снова выполнить OCR!?

Лучший инструмент для этой работы (ИМХО) — бесплатное приложение под названием Djvutoy form:https://www.mediafire.com/folder/oajr60vu7zcls/MJ_Stronghorse_Apps

Лучший сайт-конвертер, который я нашел

https://www.pdf2go.com/ + опция распознавания текста

Другие вопросы по тегам