解讀 Unicode

平面 - plane

共 17 個平面溯街,每個平面占 65536 個字符
基本多文種平面 - Basic Multilingual Plane(0x0~0xFFFF)
其余16種補充/輔助平面(0x10000 ~ 0x10FFFF)

編碼空間

0x0~ 0x10FFFF

存儲定義

UCS - Universal Character Set

ISO/IEC 10646 定義

  • UCS-2
    編碼空間為 0x0 ~ 0xFFFF
    無輔助平面
    兼容 Unicode颂翼,保留 0xD800 ~ 0xDFFF
  • UCS-4
    舊定義
    編碼空間為 0x0 ~ 0x7FFFFFFF
    新定義
    編碼空間限制為 Unicode (0x0~ 0x10FFFF)
    ISO 承諾不會為超過 0x10FFFF 進行編碼

UTF - Unicode Transformation Format

UTF-8

變長編碼(1~4字節(jié))
編碼空間為 0x0 ~ 0x10FFFF

  • 對于單字節(jié)的符號
    字節(jié)第一位設為 0
    后面7位填充編碼值
    對于 0x0~0x7F, UTF-8 和 ASCII 碼是一致的

  • 對于 n 字節(jié)的符號(n>1)
    第一個字節(jié)的前 n 位 都是1
    第 n + 1 位設置為 0
    后面字節(jié)的前兩位為 10
    其余空位填充為編碼值

  • 舊的定義
    定義1~6字節(jié)
    RFC 2044
    RFC 2279

  • 新的定義 RFC 3629
    定義為1~4字節(jié)

    編碼范圍 字符數(shù) Unicode UTF-8
    0x000000 ~ 0x00007F 128 00000000 00000000 0zzzzzzz 0zzzzzzz(00-7F)
    0x000080 ~ 0x0007FF 1920 00000000 00000yyy yyzzzzzz 110yyyyy(C0-DF)10zzzzzz(80-BF)
    0x000800 ~ 0x00D7FF
    0x00E000 ~ 0x00FFFF
    61440 00000000 xxxxyyyy yyzzzzzz 1110xxxx(E0-EF)10yyyyyy(80-BF)10zzzzzz(80-BF)
    0x010000 ~ 0x10FFFF 1048576 000wwwxx xxxxyyyy yyzzzzzz 11110www(F0-F7)10xxxxxx(80-BF)10yyyyyy(80-BF)10zzzzzz(80-BF)

UTF-16

變長編碼(2或4字節(jié))
編碼空間為 0x0 ~ 0x10FFFF

  • 與 UCS-2 區(qū)別
    UTF-16 是 UCS-2 父集
    當表示 BMP 時贝搁, 與 USC-2 編碼一致都是16-bit
    當表示輔助平面時蔬胯,UTF-16為 32-bit,而UCS-2不能表示
  • 輔助平面表示
    碼位值 - 0x10000 得到 20-bit 的值(0x0 ~ 0xFFFFF)
    該值前10位 + 0xD800(0xD800 ~ 0xDBFF)
    該值后10位 + 0xDC00(0xDC00 ~ 0xDFFF )
    連接以上兩個值得到最終編碼值

UTF-32

固定 32-bit 編碼蚁署,與 Unicode 編碼數(shù)值一致
編碼空間為 0x0 ~ 0x10FFFF

  • 與 UCS-4 區(qū)別
    舊定義: UTF-32是 UCS-4 的一個子集
    新定義: 可以認為與 UCS-4 是相同
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末绣版,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子辐脖,更是在濱河造成了極大的恐慌饲宛,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,490評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件嗜价,死亡現(xiàn)場離奇詭異艇抠,居然都是意外死亡,警方通過查閱死者的電腦和手機久锥,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,581評論 3 395
  • 文/潘曉璐 我一進店門家淤,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人瑟由,你說我怎么就攤上這事絮重。” “怎么了歹苦?”我有些...
    開封第一講書人閱讀 165,830評論 0 356
  • 文/不壞的土叔 我叫張陵青伤,是天一觀的道長。 經(jīng)常有香客問我殴瘦,道長狠角,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,957評論 1 295
  • 正文 為了忘掉前任蚪腋,我火速辦了婚禮丰歌,結(jié)果婚禮上姨蟋,老公的妹妹穿的比我還像新娘。我一直安慰自己立帖,他們只是感情好眼溶,可當我...
    茶點故事閱讀 67,974評論 6 393
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著晓勇,像睡著了一般堂飞。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上绑咱,一...
    開封第一講書人閱讀 51,754評論 1 307
  • 那天酝静,我揣著相機與錄音,去河邊找鬼羡玛。 笑死别智,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的稼稿。 我是一名探鬼主播薄榛,決...
    沈念sama閱讀 40,464評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼让歼!你這毒婦竟也來了猎醇?” 一聲冷哼從身側(cè)響起猾警,我...
    開封第一講書人閱讀 39,357評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后汗盘,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體曲初,經(jīng)...
    沈念sama閱讀 45,847評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡絮短,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,995評論 3 338
  • 正文 我和宋清朗相戀三年髓棋,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片辈挂。...
    茶點故事閱讀 40,137評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡衬横,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出终蒂,到底是詐尸還是另有隱情蜂林,我是刑警寧澤,帶...
    沈念sama閱讀 35,819評論 5 346
  • 正文 年R本政府宣布拇泣,位于F島的核電站噪叙,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏霉翔。R本人自食惡果不足惜睁蕾,卻給世界環(huán)境...
    茶點故事閱讀 41,482評論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望早龟。 院中可真熱鬧惫霸,春花似錦、人聲如沸葱弟。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,023評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽芝加。三九已至硅卢,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間藏杖,已是汗流浹背将塑。 一陣腳步聲響...
    開封第一講書人閱讀 33,149評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留蝌麸,地道東北人点寥。 一個月前我還...
    沈念sama閱讀 48,409評論 3 373
  • 正文 我出身青樓,卻偏偏與公主長得像来吩,于是被迫代替她去往敵國和親敢辩。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,086評論 2 355

推薦閱讀更多精彩內(nèi)容

  • 人生是一場修行 給我們磨礪 讓我們變得堅強 給我們離別 讓我們感知聚的喜悅 給我們苦 讓我們知道什么是甜 經(jīng)歷失去...
    燕zi閱讀 260評論 1 9
  • 【作者】傅佳 【導師】王玉印老師 【分舵】畫繭成蝶舵 【導圖解說】 四大文明古國介紹弟疆。
    全腦高級培訓師傅佳閱讀 229評論 0 2
  • 不屑一抹芳華戚长, 退卻花火雖美過, 繁盛卻慘得衰敗怠苔。 聊聊蟻軀同廉, 蕓蕓眾生, 畫一痕即天涯柑司, 記一恨便一生迫肖。
    洛鈞寒閱讀 168評論 0 2
  • 刑 在沙漠找到赴刑方式 和頻繁閹割一樣 交易在每個角落盛行 換座精致城堡 換個美麗娃娃 觀察我還有什...
    手卷夢閱讀 436評論 0 3
  • 也許我應該反思一下。 昨天日更文寫了《忙攒驰,我想偷個懶》咒程,1800多字,一氣呵成讼育。最初是想告訴自己如何減壓帐姻,巧偷懶,...
    馬渡娃閱讀 186評論 0 0