OCR испортил Ghostscript

В прошлом году в Ghostscript была обнаружена ошибка. Это задокументировано здесь: http://bugs.ghostscript.com/show_bug.cgi?id=696116

Помечено Статус: РАЗРЕШЕНО WONTFIX

В конце концов, правопреемник Кен Шарп пишет: "К сожалению, я не вижу никаких перспектив для решения этой проблемы в Ghostscript".

Мой вопрос ко всем:

  1. Неужели нет способа заставить Ghostscript решить эту проблему (с добавлением пробелов между символами)?
  2. Существует ли альтернатива Ghostscript с открытым исходным кодом, которая может конвертировать отсканированные файлы PDF в PDF/A-1b без использования OCR?

Спасибо заранее!

/Павел

1 ответ

Неужели нет способа заставить Ghostscript решить эту проблему (с добавлением пробелов между символами)?

Кен Шарп говорит

то, с чем вы, похоже, сталкиваетесь, является ограничением в поисковой системе Acrobat, которое проявляется в том, как мы генерируем текст.

Я думаю, что он говорит, что не Ghostscript добавляет пробелы между символами.

И я верю его объяснению. На драйвер устройства PDFWrite распространяются ограничения на драйвер устройства в Ghostscript. Я полагаю, что API был разработан для того, чтобы делать отметки на видимых поверхностях, а не для чего-либо еще, что впоследствии было добавлено.

В частности, представление о том, что последовательность меток составляет слово, не имеет значения при нанесении меток в указанных позициях. Устройство для создания меток не должно знать разницу между пробелом и интервалом (кернинг и т. Д.).

Отчасти следствием этого является то, что, насколько я знаю, слова не являются предметом ни в PDF, ни в его постскриптуме-предке. Они не нуждаются в отслеживании слов и не предоставляют какой-либо конкретный способ их идентификации в содержимом файлов PDF или PS.


Существует ли альтернатива Ghostscript с открытым исходным кодом, которая может конвертировать отсканированные файлы PDF в PDF/A-1b без использования OCR?

Насколько я знаю, спецификации PDF не определяют "отсканированный PDF" или "OCR". Некоторые инструменты для создания PDF-файлов предположительно используют возможности PDF-файлов при создании PDF-файлов из отсканированных изображений и при невидимом добавлении текста, созданного с помощью OCR. Это позволяет выполнять поиск текста и операции вырезания и вставки для созданного PDF-файла, что было бы невозможно, если бы присутствовало только растровое изображение.

Такие PDF-файлы могут быть полезны, но они действительно немного мерзости. Всегда лучше создать PDF-документ из не отсканированных источников, если таковые имеются.

Первоначально PDF задумывался как "окончательный" формат документа. Никто не собирался проводить дальнейшие манипуляции с ним.

Однако должно быть возможно, что другие программы, поддерживающие манипулирование PDF, делают это, не заставляя преобразование быть выполненным через API печати. В этом случае они могут сделать это так, чтобы получить результат, который лучше соответствует особенностям Acrobat и другого программного обеспечения для чтения PDF.

Другие вопросы по тегам