Описание тега unicode
Юникод является стандартом для компьютерного представления простого текста. Он включает в себя:
- универсальный набор символов (UCS), предназначенный для однозначного представления всех символов, используемых в системах письменности человека на любом языке,
- Форматы преобразования Unicode (UTF), определяющие стандартизированные форматы для хранения и передачи текста Unicode, и
- стандарты обработки текста Unicode и манипулирования им.
Последняя версия 6.0, опубликованная в 2011 году.
Универсальный набор символов
Юникод присваивает каждому символу целую кодовую точку (от 0
в 0x10FFFF
) в ПСК, чтобы выступить в качестве уникальной ссылки. Например:
- U + 0041 A
- U + 0042 B
- U + 0043 C
- ...
- U + 039B Λ
- U + 039C Μ
Форматы преобразования Unicode
UTF описывают, как кодировать кодовые точки в виде байтовых представлений. Наиболее распространенными формами являются UTF-8 (который кодирует кодовые точки в виде последовательности из одного, двух, трех или четырех байтов) и UTF-16 (который кодирует кодовые точки в виде двух или четырех байтов).
Code Point UTF-8 UTF-16 (big-endian)
U+0041 41 00 41
U+0042 42 00 42
U+0043 43 00 43
...
U+039B CE 9B 03 9B
U+039C CE 9C 03 9C
Спецификация
Консорциум Unicode также определяет стандарты для алгоритмов сортировки и сортировки, правила использования заглавных букв, нормализации символов и других чувствительных к локали операций с символами.