Национальная часть кодовой таблицы СР1251
Во всех представленных кодовых таблицах, кроме таблицы стандарта Unicode, для кодирования одного символа отводится 8 двоичных разрядов (8 бит).
В мире существует примерно 6800 различных языков. Если прочитать текст, напечатанный в Японии на компьютере в России или США, то понять его будет нельзя. Чтобы буквы любой страны можно было читать на любом компьютере, для их кодировки стали использовать 2 байта (16 бит).
N = 2i
2i = 216 = 65536
N = 65536 N – мощность алфавита символов в кодовой таблице Unicode.
i – информационный вес символа
Основополагающая таблица использования кодового пространства Unicode
Начало области
| Конец области
| Набор символов
| Начало области
| Конец области
| Набор символов
|
| 007F
| Basic Latin
|
| 218F
| Number Forms
|
| 00FF
| Latin-1 Supplement
|
| 21FF
| Arrows
|
| 017F
| Latin Extended-A
|
| 22FF
| Mathematical Operators
|
| 024F
| Latin Extended-B
|
| 23FF
| Miscellaneous Technical
|
| 02AF
| IPA Extensions
|
| 243F
| Control Pictures
|
02B0
| 02FF
| Spacing Modifier Letters
|
| 245F
| Optical Character Recognition
|
| 036F
| Combining Diacritical Marks
|
| 24FF
| Enclosed Alphanumerics
|
| 03FF
| Greek
|
| 257F
| Box Drawing
|
| 04FF
| Cyrillic
|
| 259F
| Block Elements
|
| 058F
| Armenian
| 25A0
| 25FF
| Geometric Shapes
|
| 05FF
| Hebrew
|
| 26FF
| Miscellaneous Symbols
|
| 06FF
| Arabic
|
| 27BF
| Dingbats
|
| 074F
| Syriac
|
| 28FF
| Braille Patterns
|
| 07BF
| Thaana
| 2E80
| 2EFF
| CJK Radicals Supplement
|
| 097F
| Devanagari
| 2F00
| 2FDF
| Kangxi Radicals
|
| 09FF
| Bengali
| 2FF0
| 2FFF
| Ideographic Description Characters
|
0A00
| 0A7F
| Gurmukhi
|
| 303F
| CJK Symbols and Punctuation
|
0A80
| 0AFF
| Gujarati
|
| 309F
| Hiragana
|
0B00
| 0B7F
| Oriya
| 30A0
| 30FF
| Katakana
|
0B80
| 0BFF
| Tamil
|
| 312F
| Bopomofo
|
0C00
| 0C7F
| Telugu
|
| 318F
| Hangul Compatibility Jamo
|
0C80
| 0CFF
| Kannada
|
| 319F
| Kanbun
|
0D00
| 0D7F
| Malayalam
| 31A0
| 31BF
| Bopomofo Extended
|
0D80
| 0DFF
| Sinhala
|
| 32FF
| Enclosed CJK Letters and Months
|
0E00
| 0E7F
| Thai
|
| 33FF
| CJK Compatibility
|
0E80
| 0EFF
| Lao
|
| 4DB5
| CJK Unified Ideographs Extension A
|
0F00
| 0FFF
| Tibetan
| 4E00
| 9FFF
| CJK Unified Ideographs
|
| 109F
| Myanmar
| A000
| A48F
| Yi Syllables
|
10A0
| 10FF
| Georgian
| A490
| A4CF
| Yi Radicals
|
| 11FF
| Hangul Jamo
| AC00
| D7A3
| Hangul Syllables
|
| 137F
| Ethiopic
| D800
| DB7F
| High Surrogates
|
13A0
| 13FF
| Cherokee
| DB80
| DBFF
| High Private Use Surrogates
|
| 167F
| Unified Canadian Aboriginal Syllabics
| DC00
| DFFF
| Low Surrogates
|
| 169F
| Ogham
| E000
| F8FF
| Private Use
|
16A0
| 16FF
| Runic
| F900
| FAFF
| CJK Compatibility Ideographs
|
| 17FF
| Khmer
| FB00
| FB4F
| Alphabetic Presentation Forms
|
| 18AF
| Mongolian
| FB50
| FDFF
| Arabic Presentation Forms-A
|
1E00
| 1EFF
| Latin Extended Additional
| FE20
| FE2F
| Combining Half Marks
|
1F00
| 1FFF
| Greek Extended
| FE30
| FE4F
| CJK Compatibility Forms
|
| 206F
| General Punctuation
| FE50
| FE6F
| Small Form Variants
|
| 209F
| Superscripts and Subscripts
| FE70
| FEFE
| Arabic Presentation Forms-B
|
20A0
| 20CF
| Currency Symbols
| FEFF
| FEFF
| Specials
|
20D0
| 20FF
| Combining Marks for Symbols
| FF00
| FFEF
| Halfwidth and Fullwidth Forms
|
| 214F
| Letterlike Symbols
| FFF0
| FFFD
| Specials
|
Использование Unicode значительно упрощает создание многоязычных документов, публикаций и программных приложений.
©2015 arhivinfo.ru Все права принадлежат авторам размещенных материалов.