Как сделать OCR на PDF-документе?

Question

Как сделать OCR на PDF-документе?

Возможный дубликат:
Как извлечь текст с OCR из PDF на Linux?

У меня есть несколько документов на английском и иврите, которые я отсканировал и преобразовал в формат PDF.

Есть ли какая-нибудь бесплатная или дешевая утилита, которая может обрабатывать отсканированный PDF и делать OCR, по крайней мере, на английском языке, предпочтительно также на иврите?

Спасибо!

6

pdf ocr hebrew english

Источник

Shaul Behr 16 фев '10 в 16:40

3 ответа

Решение

Я нашел интересную идею, которая позволяет Google делать всю работу по распознаванию PDF-файлов для вас.

1

Источник

eleven81 16 фев '10 в 16:47

Лично я бы использовал Ghostview для преобразования их в изображение, а затем Tesseract для преобразования их в текст. Это полностью бесплатное кроссплатформенное решение с открытым исходным кодом, с которым я добился очень хороших результатов при попытке конвертировать простой текст. Я не использую это для сложных документов с таблицами и тому подобным, но для простого текста вы не можете превзойти цену.

0

Источник

Dennis 16 фев '10 в 16:47

Другие вопросы по тегам pdf ocr hebrew english

eleven81 16 фев '10 в 16:54 2010-02-16 16:54 · Accepted Answer · 2010-02-16 16:54

Я нашел список бесплатных программ для распознавания текста для Windows.

Однако эти программы нуждаются в вводе изображения, а не в вводе PDF. Для этого попробуйте конвертер PDF в JPG.