Unicode 與 UTF-8 的關(guān)系籽御?

Unicode

Unicode (中文稱:萬國碼)給每個字元提供了一個唯一的數(shù)位,不論是什么平臺贴浙、不論是什么程式、不論是什么語言姑原。

簡而之悬而,Unicode是字符集呜舒,將所有的文字锭汛,符號等等編碼。

UTF-8 是編碼的方式袭蝗,優(yōu)化 Unicode 的編碼唤殴。

例如: “Hi! 你好”

你看到的 Unicode 字符編碼是這樣的:

H 0048
I 0069
你 4F60
好 597D

每一個字符對應(yīng)了一個16進(jìn)制的數(shù)字。

由于電腦只懂2進(jìn)制編碼到腥,所以按照 Unicode 的方式(UCS-2)朵逝,會按以下儲存:

H 00000000 01001000
i 00000000 01101001
! 00000000 00100001
你 01001111 01100000
好 01011001 01111101

這個字符串共估了8個字節(jié),對比以上中英文2進(jìn)制編碼乡范,英文前9個都是0配名,占用了硬碟容量,十分浪費晋辆!

怎樣優(yōu)化渠脉?

UTF-8 的誕生就是為了優(yōu)化這個問題。

  1. 單字節(jié)的字符瓶佳,字節(jié)的第一位設(shè)為0芋膘,對于英語文本,UTF-8碼只占用一個字節(jié)霸饲,和ASCII碼完全相同为朋;
  2. n個字節(jié)的字符 n>1,第一個字節(jié)的前n位設(shè)為1厚脉,第n+1位設(shè)為0习寸,后面字節(jié)的前兩位都設(shè)為10,這n個字節(jié)的其余空位填充該字符unicode碼傻工,高位用0補(bǔ)足融涣。如以下所示:
UCS-2: 00000000 00000000 00000000 011111112
UTF-8: 0XXXXXXX
-----
UCS-2: 00000000 00000000 00000111 111111112
UTF-8: 110XXXXX 10XXXXXX
------
UCS-2: 00000000 00000000 11111111 111111112 
UTF-8: 1110XXXX 10XXXXXX 10XXXXXX
------
UCS-2: 00000000 00011111 11111111 111111112 
UTF-8: 11110XXX 10XXXXXX 10XXXXXX 10XXXXXX

所以 “Hi! 你好” 就變成了

H 01001000
I 01101001
! 00100001
你 11100100 10111101 10100000
好 11100101 10100101 10111101 

對比 UCS-2 及 UTF-8童番,英文的字節(jié)變短了,雖然每個中文字符用多了一個字節(jié)威鹿。但整體來說 UTF-8 只用了9個字節(jié)剃斧,比 UCS-2 的10個字節(jié)小了一點。

整體來說忽你,UTF-8 更節(jié)省了字節(jié)的占用容量幼东,至小在英文字符上的確較為節(jié)省。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末科雳,一起剝皮案震驚了整個濱河市根蟹,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌糟秘,老刑警劉巖简逮,帶你破解...
    沈念sama閱讀 216,591評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異尿赚,居然都是意外死亡散庶,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,448評論 3 392
  • 文/潘曉璐 我一進(jìn)店門凌净,熙熙樓的掌柜王于貴愁眉苦臉地迎上來悲龟,“玉大人,你說我怎么就攤上這事冰寻⌒虢蹋” “怎么了?”我有些...
    開封第一講書人閱讀 162,823評論 0 353
  • 文/不壞的土叔 我叫張陵斩芭,是天一觀的道長轻腺。 經(jīng)常有香客問我,道長划乖,這世上最難降的妖魔是什么贬养? 我笑而不...
    開封第一講書人閱讀 58,204評論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮迁筛,結(jié)果婚禮上煤蚌,老公的妹妹穿的比我還像新娘。我一直安慰自己细卧,他們只是感情好尉桩,可當(dāng)我...
    茶點故事閱讀 67,228評論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著贪庙,像睡著了一般蜘犁。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上止邮,一...
    開封第一講書人閱讀 51,190評論 1 299
  • 那天这橙,我揣著相機(jī)與錄音奏窑,去河邊找鬼。 笑死屈扎,一個胖子當(dāng)著我的面吹牛埃唯,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播鹰晨,決...
    沈念sama閱讀 40,078評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼墨叛,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了模蜡?” 一聲冷哼從身側(cè)響起漠趁,我...
    開封第一講書人閱讀 38,923評論 0 274
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎忍疾,沒想到半個月后闯传,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,334評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡卤妒,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,550評論 2 333
  • 正文 我和宋清朗相戀三年甥绿,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片荚孵。...
    茶點故事閱讀 39,727評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡妹窖,死狀恐怖纬朝,靈堂內(nèi)的尸體忽然破棺而出收叶,到底是詐尸還是另有隱情,我是刑警寧澤共苛,帶...
    沈念sama閱讀 35,428評論 5 343
  • 正文 年R本政府宣布判没,位于F島的核電站,受9級特大地震影響隅茎,放射性物質(zhì)發(fā)生泄漏澄峰。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,022評論 3 326
  • 文/蒙蒙 一辟犀、第九天 我趴在偏房一處隱蔽的房頂上張望俏竞。 院中可真熱鬧,春花似錦堂竟、人聲如沸魂毁。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,672評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽席楚。三九已至,卻和暖如春税稼,著一層夾襖步出監(jiān)牢的瞬間烦秩,已是汗流浹背垮斯。 一陣腳步聲響...
    開封第一講書人閱讀 32,826評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留只祠,地道東北人兜蠕。 一個月前我還...
    沈念sama閱讀 47,734評論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像抛寝,于是被迫代替她去往敵國和親牺氨。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,619評論 2 354

推薦閱讀更多精彩內(nèi)容