Как сделать OCR на PDF-документе?
Возможный дубликат:
Как извлечь текст с OCR из PDF на Linux?
У меня есть несколько документов на английском и иврите, которые я отсканировал и преобразовал в формат PDF.
Есть ли какая-нибудь бесплатная или дешевая утилита, которая может обрабатывать отсканированный PDF и делать OCR, по крайней мере, на английском языке, предпочтительно также на иврите?
Спасибо!
3 ответа
Я нашел список бесплатных программ для распознавания текста для Windows.
- FreeOCR
- Тессеракт
- WeOcr Tesseract Веб-интерфейс
- GOCR
- Windows GUI для GOCR
- OCR Desktop
- Простое распознавание текста
- TopOCR
Однако эти программы нуждаются в вводе изображения, а не в вводе PDF. Для этого попробуйте конвертер PDF в JPG.
Я нашел интересную идею, которая позволяет Google делать всю работу по распознаванию PDF-файлов для вас.
Лично я бы использовал Ghostview для преобразования их в изображение, а затем Tesseract для преобразования их в текст. Это полностью бесплатное кроссплатформенное решение с открытым исходным кодом, с которым я добился очень хороших результатов при попытке конвертировать простой текст. Я не использую это для сложных документов с таблицами и тому подобным, но для простого текста вы не можете превзойти цену.