Получить все надстрочные символы Wordperfect в документе для преобразования в Unicode
Я работаю над освобождением словаря, написанного в wordperfect 5, в обычный текст. В идеале я получу файл UTF-8 с каждой записью в отдельной строке и полями, разделенными вкладками, но я отвлекся.
Проблема, с которой я столкнулся, состоит в том, что в словарь включено много символов, не относящихся к ascii, которые были составлены с (возможно, несколькими) ударами, некоторые из которых содержат форматирование символов с зачеркиванием (?). Есть ли способ получить полный список штрихов, используемых в документе, вместе с их компонентами символов? Если я не ошибаюсь, это является необходимым предварительным условием для переноса оверриков в юникод с помощью скрипта или другого инструмента преобразования.