unicode、utf-8 編碼原理

本文不涉及具體細(xì)節(jié)埃篓，只泛泛而談处坪。
本文全是大白話，也就是說(shuō)，可能很多用詞不那么專業(yè)稻薇。但是嫂冻，懂了就達(dá)到目的了。以后再去看專業(yè)的文章塞椎，就會(huì)覺得容易多了桨仿。

本文是在研讀了阮一峰和知乎網(wǎng)友的基礎(chǔ)上寫作的。
相關(guān)鏈接為：
字符編碼筆記：ASCII案狠，Unicode 和 UTF-8
Unicode 編碼及 UTF-32, UTF-16 和 UTF-8

注意：勿要糾結(jié)于我舉的例子服傍，我知道是錯(cuò)的，在本文中僅為闡述思想骂铁。

以下為本人的心得：

為何會(huì)出現(xiàn) unicode吹零？

為了讓文字在電腦上顯示，必須給每個(gè)字符編個(gè)號(hào)碼拉庵，比如我給字母a 編號(hào)為1灿椅，字母 b 編號(hào)為9999。
那么問(wèn)題來(lái)了钞支，在中國(guó)可能給漢字人編號(hào)為1茫蛹，在美國(guó)可能給字母 a 編號(hào)為1，如果中美兩國(guó)交流烁挟，這個(gè)編號(hào)1到底該解讀成人還是a婴洼？
為了解決這個(gè)問(wèn)題，就要在世界范圍內(nèi)統(tǒng)一編號(hào)撼嗓，把世界上所有的字符都包含進(jìn)來(lái)柬采，設(shè)置一個(gè)唯一的編號(hào)。比如編號(hào)1只能表示a且警，不能有其它的表示粉捻。那么這個(gè)方案就是 unicode，從名字上也能看出來(lái)斑芜，是統(tǒng)一的編號(hào)杀迹。

為何又要出現(xiàn) utf-8等？

在 unicode 方案中押搪，最常用也是最基本的树酪，只用兩個(gè)字節(jié)編號(hào)，就包含了世界上主要的文字了大州。如果用三個(gè)字節(jié)編號(hào)续语，那就是 unicode 擴(kuò)展部分的了。（unicode 有 17 個(gè)平面（Plane 0 - Plane 16）厦画，我們最常用的就是Plane 0疮茄，（Plane 1 - Plane 16） 就是擴(kuò)展平面滥朱。說(shuō)白了，擴(kuò)展平面就是要用三個(gè)字節(jié)來(lái)編碼了力试，Plane 1的最高位字節(jié)值是 1徙邻，依次類推，Plane 16的最高位字節(jié)值是 16畸裳，用 16 進(jìn)制就是 10）
如果直接用 unicode 的編號(hào)來(lái)存儲(chǔ)字符缰犁，最少也要用到兩個(gè)字節(jié)，這會(huì)有什么問(wèn)題呢怖糊？人家西方字符帅容，明明用一個(gè)字節(jié)就已經(jīng)夠夠的了，非要用兩個(gè)字節(jié)存儲(chǔ)太浪費(fèi)資源了伍伤。
于是就有了 utf-8 編碼方案并徘。如果是西方字符就用一個(gè)字節(jié)存儲(chǔ)，如果是漢字等就用兩到三個(gè)字節(jié)存儲(chǔ)扰魂。這樣就都兼顧到了麦乞。

utf-8實(shí)現(xiàn)原理通俗講解

但是等等，你 utf-8 一會(huì)用一個(gè)字節(jié)劝评，一會(huì)用兩個(gè)三個(gè)字節(jié)路幸，我計(jì)算機(jī)怎么知道你是幾個(gè)字節(jié)表示一個(gè)字符呢？
來(lái)看 utf-8 是怎么設(shè)計(jì)的付翁。如果是西方字符，就用一個(gè)字節(jié)表示晃听，字節(jié)的最高位是 0（好像西方字符總共是 128 個(gè)百侧，用不到最高位）。如果是漢字能扒，把它的 unicode 編號(hào)展開為二進(jìn)制（給它起個(gè)代號(hào)佣渴，就叫 2B 吧）。utf-8 生成一個(gè)這樣的玩意兒（給它起個(gè)代號(hào)初斑，就叫 wy 吧）：1110xxxx 10xxxxxx 10xxxxxx辛润，你從2B的最低位開始，一個(gè)個(gè)的往 x 里放（也是從最低位開始）见秤，如果x 沒放完砂竖，用 0 補(bǔ)全。 utf-8 在設(shè)計(jì) wy 的時(shí)候鹃答，要讓每個(gè)字節(jié)的 x 用到了（注意這句話乎澄，并不意味著每個(gè)x 都被用到）。然后把這個(gè) utf-8 的編碼就存到文檔里了测摔。
用 utf-8 編碼方案用讀這個(gè)文檔的時(shí)候置济，它就開始這樣解析了解恰。如果一個(gè)字節(jié)最高位是 0，說(shuō)明這一個(gè)字節(jié)就表示一個(gè)西方字符浙于。如果一個(gè)字節(jié)最高位是1110這樣的护盈，說(shuō)明連同它自己，接下來(lái)的三個(gè)字節(jié)表示一個(gè)字符羞酗，然后再把這三個(gè)字節(jié) x 位上二進(jìn)制取出來(lái)連在一起腐宋，這不就是一開始的那個(gè)2B嗎。然后用這個(gè) 2B 的值（就是 unicode 的編號(hào)）去電腦系統(tǒng)里的unicode 表里找到對(duì)應(yīng)的字符顯示出來(lái)整慎。
通過(guò)以上說(shuō)明脏款，你大概也看出來(lái)了：utf-8 這類編碼方案，存的時(shí)候裤园，是用 utf-8 自己的設(shè)計(jì)撤师，把 unicode 編號(hào)變?yōu)樽约嚎梢越馕龅木幪?hào)。讀的時(shí)候拧揽，再把 utf-8 的編號(hào)還原成 unicode 編號(hào)剃盾，用unicode 編號(hào)去電腦里查字符，然后把字符顯示出來(lái)淤袜。其它編碼方案也是這個(gè)思路痒谴。

電腦系統(tǒng)中有一個(gè) unicode 表，里面是 unicode 編號(hào)和字符的對(duì)應(yīng)關(guān)系铡羡，這是各種編碼之間轉(zhuǎn)換的基礎(chǔ)积蔚。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市烦周，隨后出現(xiàn)的幾起案子尽爆，更是在濱河造成了極大的恐慌，老刑警劉巖读慎，帶你破解...
沈念sama閱讀 216,692評(píng)論 6贊 501
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件漱贱，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡夭委，警方通過(guò)查閱死者的電腦和手機(jī)幅狮，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,482評(píng)論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)株灸，“玉大人崇摄，你說(shuō)我怎么就攤上這事』派眨” “怎么了配猫？”我有些...
開封第一講書人閱讀 162,995評(píng)論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)杏死。經(jīng)常有香客問(wèn)我泵肄，道長(zhǎng)捆交，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,223評(píng)論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任腐巢，我火速辦了婚禮品追，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘冯丙。我一直安慰自己肉瓦，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,245評(píng)論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開白布胃惜。她就那樣靜靜地躺著泞莉，像睡著了一般。火紅的嫁衣襯著肌膚如雪船殉。梳的紋絲不亂的頭發(fā)上鲫趁，一...
開封第一講書人閱讀 51,208評(píng)論 1贊 299
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音利虫，去河邊找鬼挨厚。笑死，一個(gè)胖子當(dāng)著我的面吹牛糠惫，可吹牛的內(nèi)容都是我干的疫剃。我是一名探鬼主播，決...
沈念sama閱讀 40,091評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼硼讽，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼巢价！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起固阁，我...
開封第一講書人閱讀 38,929評(píng)論 0贊 274
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤壤躲，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后您炉，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,346評(píng)論 1贊 311
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡役电，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,570評(píng)論 2贊 333
?白月光啟示錄
正文我和宋清朗相戀三年赚爵，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片法瑟。...
茶點(diǎn)故事閱讀 39,739評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡冀膝，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出霎挟，到底是詐尸還是另有隱情窝剖，我是刑警寧澤，帶...
沈念sama閱讀 35,437評(píng)論 5贊 344
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布酥夭，位于F島的核電站赐纱，受9級(jí)特大地震影響脊奋，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜疙描，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,037評(píng)論 3贊 326
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一诚隙、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧起胰，春花似錦久又、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,677評(píng)論 0贊 22
一樁弒父案地消，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至畏妖，卻和暖如春脉执，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背瓜客。一陣腳步聲響...
開封第一講書人閱讀 32,833評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工适瓦，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人谱仪。一個(gè)月前我還...
沈念sama閱讀 47,760評(píng)論 2贊 369
代替公主和親
正文我出身青樓玻熙，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親疯攒。傳聞我的和親對(duì)象是個(gè)殘疾皇子嗦随，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,647評(píng)論 2贊 354

unicode划滋、utf-8 編碼原理

unicode、utf-8 編碼原理

為何會(huì)出現(xiàn) unicode吹零？

為何又要出現(xiàn) utf-8等？

utf-8實(shí)現(xiàn)原理通俗講解

電腦系統(tǒng)中有一個(gè) unicode 表，里面是 unicode 編號(hào)和字符的對(duì)應(yīng)關(guān)系铡羡，這是各種編碼之間轉(zhuǎn)換的基礎(chǔ)积蔚。

推薦閱讀更多精彩內(nèi)容