Как сделать OCR на PDF-документе?

Возможный дубликат:
Как извлечь текст с OCR из PDF на Linux?

У меня есть несколько документов на английском и иврите, которые я отсканировал и преобразовал в формат PDF.

Есть ли какая-нибудь бесплатная или дешевая утилита, которая может обрабатывать отсканированный PDF и делать OCR, по крайней мере, на английском языке, предпочтительно также на иврите?

Спасибо!

3 ответа

Решение

Я нашел список бесплатных программ для распознавания текста для Windows.

  1. FreeOCR
  2. Тессеракт
  3. WeOcr Tesseract Веб-интерфейс
  4. GOCR
  5. Windows GUI для GOCR
  6. OCR Desktop
  7. Простое распознавание текста
  8. TopOCR

Однако эти программы нуждаются в вводе изображения, а не в вводе PDF. Для этого попробуйте конвертер PDF в JPG.

Я нашел интересную идею, которая позволяет Google делать всю работу по распознаванию PDF-файлов для вас.

Лично я бы использовал Ghostview для преобразования их в изображение, а затем Tesseract для преобразования их в текст. Это полностью бесплатное кроссплатформенное решение с открытым исходным кодом, с которым я добился очень хороших результатов при попытке конвертировать простой текст. Я не использую это для сложных документов с таблицами и тому подобным, но для простого текста вы не можете превзойти цену.

Другие вопросы по тегам