OCR, который добавляет сгенерированный текст в исходные файлы PDF и DJVU?
Моя ОС - Ubuntu.
Я обнаружил, что некоторые приложения могут распознать файл PDF или DJVU, создавая другой текстовый файл.
Но мне было интересно, как добавить текст OCRed в исходные файлы pdf или djvu, чтобы сделать его текстовым для выбора в исходных файлах pdf или djvu, как это делает Adobe Acrobat в Windows?
2 ответа
Я начал проект Bash на github, чтобы помочь конвертировать PDF в PDF+OCR и DjvU + OCR. Это основано на ответе @meda-beda и некоторых изменениях, которые я добавил.
Это оболочка из pdfSandwich и pdf2djvu.
Он был разработан и протестирован под Ubuntu-12.10, я считаю, что работа над опцией настройки результирующего файла (иногда больше, чем оригинал) еще предстоит проделать.
Для PDF есть pdfsandwich
pdfsandwich генерирует pdf-файлы "сэндвича" OCR, то есть pdf-файлы, содержащие только изображения (без текста), будут обрабатываться с помощью оптического распознавания символов (OCR), а текст будет добавляться на каждую страницу незаметно "за" изображениями.
Это двухэтапный процесс:
Добавьте текст OCR в новый файл PDF с помощью (здесь я использую движок Tesseract OCR с французским языком):
pdfsandwich -sloppy_text -tesseract /path/to/tesseractbin -tesso -l fra ./original.pdf -o ./ocr.pdf
Затем преобразуйте PDF/OCR в DjVu с помощью:
pdf2djvu -o ./ocr.djvu ./ocr.pdf