Как декодировать эту, казалось бы, кодированную GBK строку?
У меня есть .eml
файл электронной почты, содержащий вложение MS-Word:
------=_Part_239376_662463351.1415605722579
Content-Type: application/msword;
name="=?GBK?B?1cK5scf4s8e53L7WudjT2s34wufT38fp0MXPoteo?=
=?GBK?B?sai1xLTwuLQoz8K6vszBMbrFKS5kb2M=?="
Content-Transfer-Encoding: base64
Content-Disposition: attachment;
filename="=?GBK?B?1cK5scf4s8e53L7WudjT2s34wufT38fp0MXPoteo?=
=?GBK?B?sai1xLTwuLQoz8K6vszBMbrFKS5kb2M=?="
0M8R4KGxGuEAAAAAAAAA [rest of base64-encoded attachment]
Я успешно base64-декодировал вложение, и содержимое файла в порядке.
Но как расшифровать имя файла?
Значение filename=""
кажется, кодируется GBK, но Python .decode('gbk')
не работает на нем, возвращается та же строка:
>>> "1cK5scf4s8e53L7WudjT2s34wufT38fp0MXPoteo".decode('gbk')
u'1cK5scf4s8e53L7WudjT2s34wufT38fp0MXPoteo'
Итак, в чем заключается эта строка и как ее декодировать?
=?GBK?B?1cK5scf4s8e53L7WudjT2s34wufT38fp0MXPoteo?=
=?GBK?B?sai1xLTwuLQoz8K6vszBMbrFKS5kb2M=?=
1 ответ
Эти -
=?GBK?B?1cK5scf4s8e53L7WudjT2s34wufT38fp0MXPoteo?=
=?GBK?B?sai1xLTwuLQoz8K6vszBMbrFKS5kb2M=?=
- MIME Encoded-Words. Общая форма:
знак равнокодировка?кодировка?закодированный текст?=
Вы правы, что кодировка - это GBK, но вы должны сначала интерпретировать транспортную кодировку, которая либо B
для Base64 или Q
для цитируемого для печати. Таким образом:
py3.5 >>> base64.b64decode("sai1xLTwuLQoz8K6vszBMbrFKS5kb2M=").decode("GBK")
'报的答复(下壕塘1号).doc'
Тем не мение, email.header
справимся с этим лучше:
py3.5 >>> email.header.decode_header("=?GBK?B?1cK5scf4s8e53L7WudjT2s34wufT38fp0MXPoteo?= =?GBK?B?sai1xLTwuLQoz8K6vszBMbrFKS5kb2M=?=")
[(b'\xd5\xc2\xb9\xb1\xc7\xf8\xb3\xc7\xb9\xdc\xbe\xd6\xb9\xd8\xd3\xda\xcd\xf8\xc2\xe7\xd3\xdf\xc7\xe9\xd0\xc5\xcf\xa2\xd7\xa8\xb1\xa8\xb5\xc4\xb4\xf0\xb8\xb4(\xcf\xc2\xba\xbe\xcc\xc11\xba\xc5).doc', 'gbk')]
py3.5 >>> _[0][0].decode(_[0][1])
'章贡区城管局关于网络舆情信息专报的答复(下壕塘1号).doc'
Структура первого результата такова, что один заголовок может иметь несколько компонентов, то есть разные кодировки или смешанный необработанный текст и Encoded-Words. В отличие от Perl Encode, модуль Python предоставляет вам join() результаты:
def decode_header(enc):
dec = email.header.decode_header(enc)
dec = [f[0].decode(f[1] or "us-ascii") for f in dec]
return "".join(dec)
Говоря о Perl:
$ perl -E 'use open qw(:std :utf8);
use Encode;
say Encode::decode("MIME-Header", "=?GBK?B?1cK5scf4s8e53L7WudjT2s34wufT38fp0MXPoteo?= =?GBK?B?sai1xLTwuLQoz8K6vszBMbrFKS5kb2M=?=");'
章贡区城管局关于网络舆情信息专报的答复(下壕塘1号).doc
(Кроме того, тело не кодируется uuen, оно кодируется Base64. Они используют разные наборы символов, хотя оба имеют кодировку 3:4 и uudecode
обычно достаточно умен, чтобы обнаружить сырой Base64.)