文檔保存格式UTF-8

ASCII碼：

???? C語(yǔ)言中，一個(gè)字節(jié)對(duì)應(yīng)八位二進(jìn)制數(shù)，每一位二進(jìn)制數(shù)就有0窥妇、1兩種狀態(tài)，所以一個(gè)字節(jié)有2^8=256種不同的狀態(tài)娩践，美國(guó)人最早用一字節(jié)的數(shù)據(jù)表示256個(gè)字符活翩，稱為ASCII碼。ASCII定義了128個(gè)字符翻伺，也就是只使用了8位二進(jìn)制數(shù)的后七位材泄，最前面的一位統(tǒng)一規(guī)定為0

Unicode：

問(wèn)題：

?128個(gè)字符來(lái)編碼英文是完全足夠的，但是用來(lái)表示其他語(yǔ)言吨岭，128個(gè)字符是遠(yuǎn)遠(yuǎn)不夠的拉宗，即便用上閑置的最高位，不同國(guó)家的編碼會(huì)不一樣辣辫。最終旦事，美國(guó)人意識(shí)到提出一種標(biāo)準(zhǔn)方案來(lái)展示世界上所有語(yǔ)言中的所有字符， unicode由此誕生了络它。

???? Eg：

“漢”字在unicode碼點(diǎn)是0x6c49需要兩個(gè)字節(jié)來(lái)表示族檬，轉(zhuǎn)化為二進(jìn)制數(shù)110110001001001就是他的編碼，但是問(wèn)題又來(lái)了化戳，當(dāng)你譯碼時(shí)单料，比如看到的兩個(gè)字節(jié)，那它到底表示的是一個(gè)兩字節(jié)字符還是兩個(gè)一字節(jié)字符点楼。

為了解決這個(gè)編碼問(wèn)題扫尖，編碼采用定長(zhǎng)編碼，選字節(jié)的編碼方式掠廓，即4字節(jié)編碼换怖。

UTF-8：

這種情況下，編碼譯碼都能實(shí)現(xiàn)一對(duì)一蟀瞧，但是又出現(xiàn)了一點(diǎn)小bug：空間的浪費(fèi)（字符不足四字節(jié)時(shí)沉颂，高位全部補(bǔ)零），所以我們能不能想一種辦法既能解決unicode的譯碼譯碼問(wèn)題又不會(huì)浪費(fèi)空間呢悦污？UTF-8解決了這個(gè)問(wèn)題铸屉。（既然譯碼時(shí)識(shí)別不出一個(gè)字節(jié)和多個(gè)字節(jié)的字符，那就在多字節(jié)字符上面做一些標(biāo)志位）

UTF-8可以根據(jù)字符的不能變換長(zhǎng)度切端，使用1-4個(gè)字節(jié)表示一個(gè)字符彻坛。編碼規(guī)則如下：

[if !supportLists]1）? [endif]單個(gè)字節(jié)的字符，同unicode（向后兼容）

[if !supportLists]2）? [endif]對(duì)于需要N個(gè)字節(jié)來(lái)表示的字符(N > 1)，第一個(gè)字節(jié)的前N位都設(shè)為1昌屉，第N + 1位設(shè)為0钙蒙，剩余的N – 1個(gè)字節(jié)的前兩位都設(shè)為10，剩下的二進(jìn)制位使用這個(gè)字符的unicode碼點(diǎn)來(lái)補(bǔ)充间驮。如下：

Unicode 十六進(jìn)制碼點(diǎn)??????????? ??UTF-8二進(jìn)制

00000 0000 – 0000 007F? 2^4 + 2^3???0xxxxxxx????????????????????????? 2^7

00000 0080 – 0000 07FF? 2^7 + 2^4???110xxxxx 10xxxxxx?????????????????2^11

00000 0800 – 0000 FFFF? 2^11 + 2^5??1110xxxx 10xxxxxx 10xxxxxx??????????2^16

00001 0000 – 0010 FFFF? 2^16 + 2^5??11110xxx10xxxxxx 10xxxxxx 10xxxxxx?? 2^21

Eg：

“漢”字unicode的碼點(diǎn)0x6c49（2^4+2^4+2^4+2^3）躬厌，原本只需要兩字節(jié)表示，高位補(bǔ)零即可竞帽。但是這里添加了標(biāo)志位烤咧，對(duì)照上圖，需要三字節(jié)表示抢呆。

?格式是：1110xxxx 10xxxxxx 10xxxxxx

0x6c49轉(zhuǎn)為二進(jìn)制：110110001001001

從地位依次填充(高位補(bǔ)零):? 11100110 10110001 10001001

轉(zhuǎn)為十六進(jìn)制(UTF-8)：0xE6 B189

譯碼時(shí)：有多少個(gè)1就代表是多少個(gè)字節(jié)（N個(gè)后由一個(gè)0隔開(kāi)）

UTF-16：

平面的概念：unicode將全世界所有的字符定義在一個(gè)集合里，這么多字符不是一次性定義的笛谦，而是分區(qū)定義抱虐。每個(gè)區(qū)可以存放65535個(gè)（2^16）字符，稱為一個(gè)平面饥脑。目前共使用了17（2^4+1）個(gè)平面恳邀。

基本平面的碼點(diǎn)范圍：0x0000-0xffff? ,都采用兩字節(jié)存儲(chǔ)，因此不兼容ASCII碼

輔助平面的碼點(diǎn)范圍：0x010000-0x10ffff<2^5>

編碼規(guī)定：

???? 基本平面占用兩字節(jié)灶轰，輔助平面占用四字節(jié)谣沸。

同樣的問(wèn)題：

???? 譯碼時(shí)怎么區(qū)分兩字節(jié)和四字節(jié)字符呢？

在這里使用了另外一種方法：

在基本平面內(nèi)設(shè)置了一個(gè)空段：0xD800-0xDFFF笋颤，這2^11空間分為兩部分乳附，D8000到? ? DBFF（共2^10空間）稱為高位，DC00到DFFF稱為底位伴澄，為什么要這么稱呼呢赋除？

UTF-16把超出基本平面部分的字節(jié)分高低位（高8位，底8位）非凌，然后分別映射(從地位開(kāi)始復(fù)制举农，多余位不動(dòng))到剛說(shuō)的基本平面的空段的高低位（高位補(bǔ)零）

?Eg：

???? 漢子“？”的unicode碼點(diǎn)為0x20BB7

基本平面存儲(chǔ)為0xffff

超出部分為0x20BB7-0x10000=10BB7

轉(zhuǎn)為二進(jìn)制：100001011 10110111

補(bǔ)齊20位：0001000010 1110110111

映射：

0001000010(高十位)-> 0XD800(1101101100000000)? :? 1101100001000010轉(zhuǎn)十六進(jìn)制：D842

?1110110111(底十位) ->0xDC00(1101110000000000)? :? 1101111110110111轉(zhuǎn)十六進(jìn)制：DFB7

得到漢字“敞嗡？”的UTF-16編碼為0xD842 0xDFB7

? 輔助平面轉(zhuǎn)換公式：

? ?H = ( num– 0x10000) / 0x400) + 0xD800

? ?L = ( num– 0x10000) % 0x400) + 0xDC00

UTF-8是對(duì)多字符進(jìn)行標(biāo)記颁糟，不固定長(zhǎng)度存儲(chǔ)從而節(jié)省空間

UTF-16，小于兩字節(jié)長(zhǎng)度的字符固定兩字節(jié)長(zhǎng)度存儲(chǔ)喉悴，超出就按四字節(jié)存儲(chǔ)棱貌，而四字節(jié)分為高低位映射到前兩字節(jié)存儲(chǔ)，也就是只用了兩字節(jié)空間

總結(jié)：

??? Unicode是一種可以在計(jì)算機(jī)上使用的字符編碼粥惧，它為每一種語(yǔ)言每一個(gè)字符都設(shè)定了一個(gè)二進(jìn)制編碼键畴，以滿足跨語(yǔ)言、跨平臺(tái)進(jìn)行文本轉(zhuǎn)換、處理的要求起惕。使用數(shù)字0-0x10FFFF映射字符涡贱，最多容納1114112個(gè)字符（的17個(gè)平面大小2^16*17，其中有已經(jīng)使用的平面惹想，也有備用平面或者給用戶自定義字符平面等）问词。

UTF-8、UTF-16嘀粱、UTF-32是對(duì)Unicode字符集不同的編碼方式激挪，比如漢字“字”在unicode中對(duì)應(yīng)的數(shù)字是23383，把其按照不同的編碼方式轉(zhuǎn)換為程序數(shù)據(jù)如下：（無(wú)符號(hào)）

UTF-8：0xE6,0xB1,0x89,0xAD,0x97

UTF-16：0x6C49,0x5B57

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末锋叨，一起剝皮案震驚了整個(gè)濱河市垄分，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌娃磺，老刑警劉巖薄湿，帶你破解...
沈念sama閱讀 221,695評(píng)論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異偷卧，居然都是意外死亡豺瘤，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,569評(píng)論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)听诸，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)坐求，“玉大人，你說(shuō)我怎么就攤上這事晌梨∏培停” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 168,130評(píng)論 0贊 360
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵派任，是天一觀的道長(zhǎng)砸逊。經(jīng)常有香客問(wèn)我，道長(zhǎng)掌逛，這世上最難降的妖魔是什么师逸？我笑而不...
開(kāi)封第一講書(shū)人閱讀 59,648評(píng)論 1贊 297
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮豆混，結(jié)果婚禮上篓像，老公的妹妹穿的比我還像新娘。我一直安慰自己皿伺，他們只是感情好员辩，可當(dāng)我...
茶點(diǎn)故事閱讀 68,655評(píng)論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著鸵鸥，像睡著了一般奠滑。火紅的嫁衣襯著肌膚如雪丹皱。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書(shū)人閱讀 52,268評(píng)論 1贊 309
城市分裂傳說(shuō)
那天宋税，我揣著相機(jī)與錄音摊崭，去河邊找鬼。笑死杰赛，一個(gè)胖子當(dāng)著我的面吹牛呢簸，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播乏屯，決...
沈念sama閱讀 40,835評(píng)論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼根时，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了辰晕？” 一聲冷哼從身側(cè)響起蛤迎，我...
開(kāi)封第一講書(shū)人閱讀 39,740評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎含友，沒(méi)想到半個(gè)月后忘苛，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 46,286評(píng)論 1贊 318
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡唱较，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,375評(píng)論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了召川。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片南缓。...
茶點(diǎn)故事閱讀 40,505評(píng)論 1贊 352
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖荧呐，靈堂內(nèi)的尸體忽然破棺而出汉形，到底是詐尸還是另有隱情，我是刑警寧澤倍阐，帶...
沈念sama閱讀 36,185評(píng)論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布概疆，位于F島的核電站，受9級(jí)特大地震影響峰搪，放射性物質(zhì)發(fā)生泄漏岔冀。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,873評(píng)論 3贊 333
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一概耻、第九天我趴在偏房一處隱蔽的房頂上張望使套。院中可真熱鬧，春花似錦鞠柄、人聲如沸侦高。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 32,357評(píng)論 0贊 24
一樁弒父案厌杜，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)奉呛。三九已至，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間瞧壮，已是汗流浹背登馒。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 33,466評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留馁痴，地道東北人谊娇。一個(gè)月前我還...
沈念sama閱讀 48,921評(píng)論 3贊 376
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像罗晕，于是被迫代替她去往敵國(guó)和親济欢。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,515評(píng)論 2贊 359