Описание тега unicode

Юникод является стандартом для компьютерного представления простого текста. Он охватывает универсальный набор символов, предназначенный для однозначного представления всех символов, используемых в системах письменности человека на любом языке, форматы преобразования Unicode (UTF), определения стандартизированных форматов для хранения и передачи текста Unicode, а также стандартов для обработки и манипулирования текстом.

Юникод является стандартом для компьютерного представления простого текста. Он включает в себя:

  • универсальный набор символов (UCS), предназначенный для однозначного представления всех символов, используемых в системах письменности человека на любом языке,
  • Форматы преобразования Unicode (UTF), определяющие стандартизированные форматы для хранения и передачи текста Unicode, и
  • стандарты обработки текста Unicode и манипулирования им.

Последняя версия 6.0, опубликованная в 2011 году.

Универсальный набор символов

Юникод присваивает каждому символу целую кодовую точку (от 0 в 0x10FFFF) в ПСК, чтобы выступить в качестве уникальной ссылки. Например:

  • U + 0041 A
  • U + 0042 B
  • U + 0043 C
  • ...
  • U + 039B Λ
  • U + 039C Μ

Форматы преобразования Unicode

UTF описывают, как кодировать кодовые точки в виде байтовых представлений. Наиболее распространенными формами являются UTF-8 (который кодирует кодовые точки в виде последовательности из одного, двух, трех или четырех байтов) и UTF-16 (который кодирует кодовые точки в виде двух или четырех байтов).

Code Point          UTF-8           UTF-16 (big-endian)
U+0041              41              00 41
U+0042              42              00 42
U+0043              43              00 43
...
U+039B              CE 9B           03 9B
U+039C              CE 9C           03 9C

Спецификация

Консорциум Unicode также определяет стандарты для алгоритмов сортировки и сортировки, правила использования заглавных букв, нормализации символов и других чувствительных к локали операций с символами.

Идентификация персонажей