Как распознать файлы PDF с текстом древнегерманской готики (Фрактур)?
Я успешно использую Adobe Acrobat X для распознавания многих отсканированных документов, которые я использую для своих исследований. Однако я начал изучать старые немецкие документы, в которых используется сценарий Фрактура, также известный как готика. SuperUser не позволит мне опубликовать его изображение, но вы можете найти примеры того, как он выглядит, в статье Википедии (ссылка выше).
Я читал о специальных программах, которые распознают текст, например, ABBY FineReader für Fraktur, но сначала он работает в Windows (и я использую Mac), а во-вторых, я хотел бы найти плагин Fraktur для Acrobat, который бы подходил к моему уже Существующий рабочий процесс. Существуют ли какие-либо плагины Fractur OCR для Acrobat? В общем, где искать плагины Acrobat OCR?
1 ответ
Я не уверен насчет плагинов OCR для Acrobat. Однако, похоже, что ocropus имеет поддержку текста Fraktur, и кто-то был достаточно любезен, чтобы создать версию для OS X с простым графическим интерфейсом под названием TakOCR.
изменить: см. вопрос переполнения стека Распознавание Fraktur с OCRopus/Tesseract на Linux