Декодировать странные символы в текстовом файле

Question

Декодировать странные символы в текстовом файле

Кто-то прислал мне текстовый файл. Хотя я могу прочитать большую часть документа, иногда встречаются необычные символы. Когда я открываю его в VIM, я вижу <92> на его месте. Когда я использую gedit, я вижу персонажа, который выглядит как квадрат с двумя нулями и 9 и 4 в квадрате.

Есть ли способ декодировать этих забавных персонажей обратно в их читабельный человеческий эквивалент?

Я также запустил в оболочке следующее:

johncomputer> file --mime-encoding file.txt
johncomputer> file.txt: : utf-8

Так что я думаю, что это кодируется utf8.

Кроме того, это текстовый документ, в котором большинство символов доступно для чтения. Только некоторые (не все) персонажи с акцентом появляются странно.

1

character-encoding

Источник

John 10 май '13 в 16:24

2 ответа

Другие вопросы по тегам character-encoding

Jukka K. Korpela 10 май '13 в 17:23 2013-05-10 17:23 · Answer 1 · 2013-05-10 17:23

Скорее всего, то, что вы видите как <92> и <94>, это "умный" (вьющийся) апостроф и "умная" правая двойная кавычка в кодировке Windows-1252. Конечно, они могут быть чем угодно, но в UTF-8 такие байты не могут отображаться как "автономные", только как 2-й или более поздний байт многобайтового представления символа,

Jimbo 10 май '13 в 16:36 2013-05-10 16:36 · Answer 2 · 2013-05-10 16:36

Знаете ли вы кодовую страницу, использованную человеком, который отправил вам файл? Каков их основной язык?

В Vim вы можете перезагрузить файл, используя другую кодировку с командой

:e ++enc=cpXXX

Ссылка на соответствующий совет vim

1

Источник

Jimbo 10 май '13 в 16:36