Как удалить невидимые символы из текста, скопированного из PDF

Если я скопирую какой-нибудь текст из PDF, текст будет выглядеть корректно, однако текстовый редактор считает, что текст представляет собой одну длинную последовательность.

Как выглядит строка в блокноте:

блокнот

Единственный способ визуально увидеть, что есть проблема с текстом, - это скопировать текст в vi через Cmder:

VI

Текст выглядит следующим образом в шестнадцатеричном редакторе:

HxD

Я пытался использовать Puretext, чтобы удалить невидимый символ при вставке, но это не работает:

PureText

Попытка скопировать и вставить символ в диалог замены редактора и заменить его пробелом не дает результатов.

Единственный способ, который я нашел, это работает - вручную удалить каждое "пробел" и заменить его реальным пробелом.

Каков рекомендуемый способ легко удалить эти невидимые символы при вставке или использовать поиск и замену?

1 ответ

Вот простое решение:

Программа просмотра PDF, которую я использую, - SumatraPDF. Если я использую Chrome в качестве средства просмотра PDF, он не вводит неразрывный пробел в скопированный текст.

Программа просмотра Chrome PDF вставляет правильное пространство в скопированный текст.

Путем изменения средства просмотра PDF, используемого для этих конкретных файлов PDF, проблема решается.

Я проверил это с различными PDF-файлами, и проблема только с этими конкретными PDF-файлами.

Другие вопросы по тегам