Как удалить невидимые символы из текста, скопированного из PDF
Если я скопирую какой-нибудь текст из PDF, текст будет выглядеть корректно, однако текстовый редактор считает, что текст представляет собой одну длинную последовательность.
Как выглядит строка в блокноте:
Единственный способ визуально увидеть, что есть проблема с текстом, - это скопировать текст в vi через Cmder:
Текст выглядит следующим образом в шестнадцатеричном редакторе:
Я пытался использовать Puretext, чтобы удалить невидимый символ при вставке, но это не работает:
Попытка скопировать и вставить символ в диалог замены редактора и заменить его пробелом не дает результатов.
Единственный способ, который я нашел, это работает - вручную удалить каждое "пробел" и заменить его реальным пробелом.
Каков рекомендуемый способ легко удалить эти невидимые символы при вставке или использовать поиск и замену?
1 ответ
Вот простое решение:
Программа просмотра PDF, которую я использую, - SumatraPDF. Если я использую Chrome в качестве средства просмотра PDF, он не вводит неразрывный пробел в скопированный текст.
Программа просмотра Chrome PDF вставляет правильное пространство в скопированный текст.
Путем изменения средства просмотра PDF, используемого для этих конкретных файлов PDF, проблема решается.
Я проверил это с различными PDF-файлами, и проблема только с этими конкретными PDF-файлами.