Как я могу добавить outine в PDF-файл на основе его содержания?
Ситуация: есть большой файл PDF с несколькими сотнями статей (подумайте о книгах, технических характеристиках и т. Д.). Без доступа к первоисточнику, как можно оглавление (ToC) план будет добавлен в файл PDF, состоящий из текста?
Этот вопрос похож на создание оглавления в PDF-файле отсканированной книги. Однако он ограничен отсканированными копиями книг, которые не конвертируются с помощью OCR. Этот вопрос конкретно о PDF-файлах, содержащих текст (и, возможно, несколько рисунков).
Примеры файлов PDF:
- http://www.oss.com/asn1/resources/books-whitepapers-pubs/asn1-books.html
- http://www.acpi.info/DOWNLOADS/ACPIspec10.pdf
Эти файлы имеют ToC поверх файла, который может быть четко идентифицирован человеческим глазом. Разделы и главы в этих файлах также можно найти, взглянув на предыдущий заголовок.
Как я могу определить ToC и добавить схему в документ? Ссылки на документацию по формату файла (и тому подобное) также приветствуются, если они могут выполнить поставленную задачу.
(Подумайте о файлах PDF, созданных LaTeX, с hyperref
В комплект поставки входят.)