Декодировать странные символы в текстовом файле
Кто-то прислал мне текстовый файл. Хотя я могу прочитать большую часть документа, иногда встречаются необычные символы. Когда я открываю его в VIM, я вижу <92> на его месте. Когда я использую gedit, я вижу персонажа, который выглядит как квадрат с двумя нулями и 9 и 4 в квадрате.
Есть ли способ декодировать этих забавных персонажей обратно в их читабельный человеческий эквивалент?
Я также запустил в оболочке следующее:
johncomputer> file --mime-encoding file.txt
johncomputer> file.txt: : utf-8
Так что я думаю, что это кодируется utf8.
Кроме того, это текстовый документ, в котором большинство символов доступно для чтения. Только некоторые (не все) персонажи с акцентом появляются странно.
2 ответа
Скорее всего, то, что вы видите как <92> и <94>, это "умный" (вьющийся) апостроф и "умная" правая двойная кавычка в кодировке Windows-1252. Конечно, они могут быть чем угодно, но в UTF-8 такие байты не могут отображаться как "автономные", только как 2-й или более поздний байт многобайтового представления символа,
Знаете ли вы кодовую страницу, использованную человеком, который отправил вам файл? Каков их основной язык?
В Vim вы можете перезагрузить файл, используя другую кодировку с командой
:e ++enc=cpXXX