Просмотр отдельных глифов в объекте PDF /FontFile2
Как извлечь сопоставление из символов символов (CID) в инструкции глифа во встроенном шрифте CID PDF?
Еще некоторые детали и мотивация:
У меня есть большая коллекция PDF-файлов, некоторые из которых имеют неисправные CMAP, которые вызывают проблемы при извлечении текста из файлов.
Чтобы исправить это, я хотел бы понять потоковый объект /FontFile2 (встроенный шрифт типа CID), содержащийся в PDF-файлах. Вероятно, достаточно просто иметь возможность проанализировать поток в сопоставлении CID с глиф-командами, не понимая, как интерпретировать инструкции.
(Идентификаторы CID постоянно переходят от одного файла к другому в коллекции, даже если в нем всего около полудюжины шрифтов или около того. Поэтому я надеюсь, что даже не понимая, как интерпретировать инструкции глифа, я смогу идентифицировать их однозначно и исправить CMAP, сравнивая ошибочные и правильные CMAP, возможно, даже просто применяя простое правило большинства для определения соответствия "инструкции глифа" -> Unicode, и используя его для пересчета CMAP отдельных файлов.