Как я могу преобразовать DJVU в PDF с сохранением слова для поиска?
7 ответов
Я написал сценарий, чтобы сделать это давным-давно. Это по сути склеенный код вокруг нескольких утилит, которые делают тяжелую работу. Разница между моим сценарием и другими инструментами того времени заключается в том, что мой единственный был единственным, который выполнял все следующие действия:
- имеет степень сжатия, аналогичную исходному файлу DjVu (размер в 1,5-2 раза вместо размера в 10-20 раз)
- сохраненные метаданные закладок / оглавления (для навигации в программе чтения PDF)
- сохранил встроенный текстовый слой для поиска
При этом, это очень примитивно. Я просто убедился, что он хорошо работает для всех моих файлов и с тех пор не работал с ним.
Скрипты виндваки vindvaki упаковал в образ докера с необходимыми зависимостями. Вы можете попробовать это с:
docker run --rm -u $(id -u):$(id -g) -v $(pwd):/opt/work ilyabystrov/djvu2pdf filename.djvu filename.pdf
Подробности смотрите в djvu2pdf-docker.
Этот конвертер DjVu в PDF определенно сохраняет возможность поиска слов в случае, если исходный DjVu доступен для поиска. Это также производит меньшие выходные файлы, чем калибр.
Откройте PDF-файл в PDF-XChange Viewer и выполните распознавание текста (я думаю, что поддерживаются только четыре языка). Это требует времени, но это чертовски хорошо (даже в двухколоночных документах).
На Mac и Linux вам понадобится Wine.
Вы пробовали Калибр? Участник Caliber упоминает, что текст OCR в djvu поддерживается. Таким образом, он может быть преобразован в PDF с возможностью поиска текста.
Все эти ответы предлагают просто снова выполнить OCR!?
Лучший инструмент для этой работы (ИМХО) — бесплатное приложение под названием Djvutoy form:https://www.mediafire.com/folder/oajr60vu7zcls/MJ_Stronghorse_Apps
Лучший сайт-конвертер, который я нашел
https://www.pdf2go.com/ + опция распознавания текста