Как я могу сравнить содержимое XML-файла и PDF-файла?
На работе редакторы создают книги в формате XML, который затем импортируется в Indesign, а затем архивируется в виде PDF-файлов окончательной печатной копии. Дополнительные изменения вносятся непосредственно в InDesign и окончательный PDF-файл во время корректуры и макетов, что означает, что XML не синхронизируется с окончательным содержимым.
Как бы вы сравнили содержимое XML и соответствующего окончательного файла InDesign или PDF, чтобы можно было выявить любые внесенные изменения и обновить XML? Подход, который я пытаюсь применить, заключается в том, чтобы
- Извлечь текст из PDF\InDesign
- Преобразование XML с помощью скрипта
- Используйте инструмент сравнения, чтобы определить различия между ними.
Шаги 2 и 3 кажутся правильными, но вытащить текст из PDF-файла сложно из-за многоколоночного макета и тяжелого дизайна, из-за чего «Сохранить как текст» невозможно.
Есть ли лучший способ сделать это, о котором кто-нибудь знает? Будет ли проще работать с файлом InDesign, а не с PDF? Есть ли умный инструмент, который сделал бы все проще?