字符編碼筆記：ASCII，Unicode 和 UTF-8

http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html

一、ASCII 碼

我們知道，計(jì)算機(jī)內(nèi)部琐驴，所有信息最終都是一個(gè)二進(jìn)制值。每一個(gè)二進(jìn)制位（bit）有0和1兩種狀態(tài)秤标，因此八個(gè)二進(jìn)制位就可以組合出256種狀態(tài)绝淡，這被稱為一個(gè)字節(jié)（byte）。也就是說(shuō)抛杨，一個(gè)字節(jié)一共可以用來(lái)表示256種不同的狀態(tài)够委，每一個(gè)狀態(tài)對(duì)應(yīng)一個(gè)符號(hào)荐类，就是256個(gè)符號(hào)怖现，從0000000到11111111。

上個(gè)世紀(jì)60年代玉罐，美國(guó)制定了一套字符編碼屈嗤，對(duì)英語(yǔ)字符與二進(jìn)制位之間的關(guān)系，做了統(tǒng)一規(guī)定吊输。這被稱為 ASCII 碼饶号，一直沿用至今。

ASCII 碼一共規(guī)定了128個(gè)字符的編碼季蚂，比如空格SPACE是32（二進(jìn)制00100000）茫船，大寫的字母A是65（二進(jìn)制01000001）琅束。這128個(gè)符號(hào)（包括32個(gè)不能打印出來(lái)的控制符號(hào)），只占用了一個(gè)字節(jié)的后面7位算谈，最前面的一位統(tǒng)一規(guī)定為0涩禀。

二、非 ASCII 編碼

英語(yǔ)用128個(gè)符號(hào)編碼就夠了然眼，但是用來(lái)表示其他語(yǔ)言艾船，128個(gè)符號(hào)是不夠的。比如高每，在法語(yǔ)中屿岂，字母上方有注音符號(hào)，它就無(wú)法用 ASCII 碼表示鲸匿。于是爷怀，一些歐洲國(guó)家就決定，利用字節(jié)中閑置的最高位編入新的符號(hào)晒骇。比如霉撵，法語(yǔ)中的é的編碼為130（二進(jìn)制10000010）。這樣一來(lái)洪囤，這些歐洲國(guó)家使用的編碼體系徒坡，可以表示最多256個(gè)符號(hào)。

但是瘤缩，這里又出現(xiàn)了新的問(wèn)題喇完。不同的國(guó)家有不同的字母，因此剥啤，哪怕它們都使用256個(gè)符號(hào)的編碼方式锦溪，代表的字母卻不一樣。比如府怯，130在法語(yǔ)編碼中代表了é刻诊，在希伯來(lái)語(yǔ)編碼中卻代表了字母Gimel

(?)，在俄語(yǔ)編碼中又會(huì)代表另一個(gè)符號(hào)牺丙。但是不管怎樣则涯，所有這些編碼方式中，0--127表示的符號(hào)是一樣的冲簿，不一樣的只是128--255的這一段粟判。

至于亞洲國(guó)家的文字，使用的符號(hào)就更多了峦剔，漢字就多達(dá)10萬(wàn)左右档礁。一個(gè)字節(jié)只能表示256種符號(hào)，肯定是不夠的吝沫，就必須使用多個(gè)字節(jié)表達(dá)一個(gè)符號(hào)呻澜。比如递礼，簡(jiǎn)體中文常見的編碼方式是 GB2312，使用兩個(gè)字節(jié)表示一個(gè)漢字羹幸，所以理論上最多可以表示 256 x 256 = 65536 個(gè)符號(hào)宰衙。

中文編碼的問(wèn)題需要專文討論，這篇筆記不涉及睹欲。這里只指出供炼，雖然都是用多個(gè)字節(jié)表示一個(gè)符號(hào)，但是GB類的漢字編碼與后文的 Unicode 和 UTF-8 是毫無(wú)關(guān)系的窘疮。

三. Unicode

正如上一節(jié)所說(shuō)袋哼，世界上存在著多種編碼方式，同一個(gè)二進(jìn)制數(shù)字可以被解釋成不同的符號(hào)闸衫。因此涛贯，要想打開一個(gè)文本文件，就必須知道它的編碼方式蔚出，否則用錯(cuò)誤的編碼方式解讀弟翘，就會(huì)出現(xiàn)亂碼。為什么電子郵件常常出現(xiàn)亂碼骄酗？就是因?yàn)榘l(fā)信人和收信人使用的編碼方式不一樣稀余。

可以想象，如果有一種編碼趋翻，將世界上所有的符號(hào)都納入其中睛琳。每一個(gè)符號(hào)都給予一個(gè)獨(dú)一無(wú)二的編碼，那么亂碼問(wèn)題就會(huì)消失踏烙。這就是 Unicode师骗，就像它的名字都表示的，這是一種所有符號(hào)的編碼讨惩。

Unicode 當(dāng)然是一個(gè)很大的集合辟癌，現(xiàn)在的規(guī)模可以容納100多萬(wàn)個(gè)符號(hào)荐捻。每個(gè)符號(hào)的編碼都不一樣黍少，比如，U+0639表示阿拉伯字母Ain靴患，U+0041表示英語(yǔ)的大寫字母A仍侥，U+4E25表示漢字嚴(yán)要出。具體的符號(hào)對(duì)應(yīng)表鸳君，可以查詢unicode.org，或者專門的漢字對(duì)應(yīng)表患蹂。

四或颊、Unicode 的問(wèn)題

需要注意的是砸紊，Unicode 只是一個(gè)符號(hào)集，它只規(guī)定了符號(hào)的二進(jìn)制代碼囱挑，卻沒有規(guī)定這個(gè)二進(jìn)制代碼應(yīng)該如何存儲(chǔ)醉顽。

比如，漢字嚴(yán)的 Unicode 是十六進(jìn)制數(shù)4E25平挑，轉(zhuǎn)換成二進(jìn)制數(shù)足足有15位（100111000100101）游添，也就是說(shuō)，這個(gè)符號(hào)的表示至少需要2個(gè)字節(jié)通熄。表示其他更大的符號(hào)唆涝，可能需要3個(gè)字節(jié)或者4個(gè)字節(jié)，甚至更多唇辨。

這里就有兩個(gè)嚴(yán)重的問(wèn)題廊酣，第一個(gè)問(wèn)題是，如何才能區(qū)別 Unicode 和 ASCII 赏枚？計(jì)算機(jī)怎么知道三個(gè)字節(jié)表示一個(gè)符號(hào)亡驰，而不是分別表示三個(gè)符號(hào)呢？第二個(gè)問(wèn)題是饿幅，我們已經(jīng)知道凡辱，英文字母只用一個(gè)字節(jié)表示就夠了，如果 Unicode 統(tǒng)一規(guī)定栗恩，每個(gè)符號(hào)用三個(gè)或四個(gè)字節(jié)表示煞茫，那么每個(gè)英文字母前都必然有二到三個(gè)字節(jié)是0，這對(duì)于存儲(chǔ)來(lái)說(shuō)是極大的浪費(fèi)摄凡，文本文件的大小會(huì)因此大出二三倍续徽，這是無(wú)法接受的。

它們?cè)斐傻慕Y(jié)果是：1）出現(xiàn)了 Unicode 的多種存儲(chǔ)方式亲澡，也就是說(shuō)有許多種不同的二進(jìn)制格式钦扭，可以用來(lái)表示 Unicode。2）Unicode 在很長(zhǎng)一段時(shí)間內(nèi)無(wú)法推廣床绪，直到互聯(lián)網(wǎng)的出現(xiàn)客情。

五、UTF-8

互聯(lián)網(wǎng)的普及癞己，強(qiáng)烈要求出現(xiàn)一種統(tǒng)一的編碼方式膀斋。UTF-8 就是在互聯(lián)網(wǎng)上使用最廣的一種 Unicode 的實(shí)現(xiàn)方式。其他實(shí)現(xiàn)方式還包括 UTF-16（字符用兩個(gè)字節(jié)或四個(gè)字節(jié)表示）和 UTF-32（字符用四個(gè)字節(jié)表示）痹雅，不過(guò)在互聯(lián)網(wǎng)上基本不用仰担。重復(fù)一遍，這里的關(guān)系是绩社，UTF-8 是 Unicode 的實(shí)現(xiàn)方式之一摔蓝。

UTF-8 最大的一個(gè)特點(diǎn)赂苗，就是它是一種變長(zhǎng)的編碼方式。它可以使用1~4個(gè)字節(jié)表示一個(gè)符號(hào)贮尉，根據(jù)不同的符號(hào)而變化字節(jié)長(zhǎng)度拌滋。

UTF-8 的編碼規(guī)則很簡(jiǎn)單，只有二條：

1）對(duì)于單字節(jié)的符號(hào)猜谚，字節(jié)的第一位設(shè)為0败砂，后面7位為這個(gè)符號(hào)的 Unicode 碼。因此對(duì)于英語(yǔ)字母魏铅，UTF-8 編碼和 ASCII 碼是相同的吠卷。

2）對(duì)于n字節(jié)的符號(hào)（n > 1），第一個(gè)字節(jié)的前n位都設(shè)為1沦零，第n + 1位設(shè)為0祭隔，后面字節(jié)的前兩位一律設(shè)為10。剩下的沒有提及的二進(jìn)制位路操，全部為這個(gè)符號(hào)的 Unicode 碼疾渴。

下表總結(jié)了編碼規(guī)則，字母x表示可用編碼的位屯仗。

<pre style="margin: 0px; padding: 0px; list-style-type: none; text-align: left; text-decoration: none; font-weight: normal; font-style: normal; border: none; color: rgb(17, 17, 17);">Unicode符號(hào)范圍 | UTF-8編碼方式
(十六進(jìn)制) | （二進(jìn)制）
----------------------+---------------------------------------------
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
</pre>

跟據(jù)上表搞坝，解讀 UTF-8 編碼非常簡(jiǎn)單。如果一個(gè)字節(jié)的第一位是0魁袜，則這個(gè)字節(jié)單獨(dú)就是一個(gè)字符桩撮；如果第一位是1，則連續(xù)有多少個(gè)1峰弹，就表示當(dāng)前字符占用多少個(gè)字節(jié)店量。

下面，還是以漢字嚴(yán)為例鞠呈，演示如何實(shí)現(xiàn) UTF-8 編碼融师。

嚴(yán)的 Unicode 是4E25（100111000100101），根據(jù)上表蚁吝，可以發(fā)現(xiàn)4E25處在第三行的范圍內(nèi)（0000 0800 - 0000 FFFF）旱爆，因此嚴(yán)的 UTF-8 編碼需要三個(gè)字節(jié)，即格式是1110xxxx 10xxxxxx 10xxxxxx窘茁。然后怀伦，從嚴(yán)的最后一個(gè)二進(jìn)制位開始，依次從后向前填入格式中的x山林，多出的位補(bǔ)0房待。這樣就得到了，嚴(yán)的 UTF-8 編碼是11100100 10111000 10100101，轉(zhuǎn)換成十六進(jìn)制就是E4B8A5吴攒。

六、Unicode 與 UTF-8 之間的轉(zhuǎn)換

通過(guò)上一節(jié)的例子砂蔽，可以看到嚴(yán)的 Unicode碼是4E25洼怔，UTF-8 編碼是E4B8A5，兩者是不一樣的左驾。它們之間的轉(zhuǎn)換可以通過(guò)程序?qū)崿F(xiàn)镣隶。

Windows平臺(tái)，有一個(gè)最簡(jiǎn)單的轉(zhuǎn)化方法诡右，就是使用內(nèi)置的記事本小程序notepad.exe安岂。打開文件后，點(diǎn)擊文件菜單中的另存為命令帆吻，會(huì)跳出一個(gè)對(duì)話框域那，在最底部有一個(gè)編碼的下拉條。

bg2007102801.jpg

里面有四個(gè)選項(xiàng)：ANSI猜煮，Unicode次员，Unicode big endian和UTF-8。

1）ANSI是默認(rèn)的編碼方式王带。對(duì)于英文文件是ASCII編碼淑蔚，對(duì)于簡(jiǎn)體中文文件是GB2312編碼（只針對(duì) Windows 簡(jiǎn)體中文版，如果是繁體中文版會(huì)采用 Big5 碼）愕撰。

2）Unicode編碼這里指的是notepad.exe使用的 UCS-2 編碼方式刹衫，即直接用兩個(gè)字節(jié)存入字符的 Unicode 碼，這個(gè)選項(xiàng)用的 little endian 格式搞挣。

3）Unicode big endian編碼與上一個(gè)選項(xiàng)相對(duì)應(yīng)带迟。我在下一節(jié)會(huì)解釋 little endian 和 big endian 的涵義。

4）UTF-8編碼囱桨，也就是上一節(jié)談到的編碼方法邮旷。

選擇完"編碼方式"后，點(diǎn)擊"保存"按鈕蝇摸，文件的編碼方式就立刻轉(zhuǎn)換好了婶肩。

七、Little endian 和 Big endian

上一節(jié)已經(jīng)提到貌夕，UCS-2 格式可以存儲(chǔ) Unicode 碼（碼點(diǎn)不超過(guò)0xFFFF）律歼。以漢字嚴(yán)為例，Unicode 碼是4E25啡专，需要用兩個(gè)字節(jié)存儲(chǔ)险毁，一個(gè)字節(jié)是4E，另一個(gè)字節(jié)是25。存儲(chǔ)的時(shí)候畔况，4E在前鲸鹦，25在后，這就是 Big endian 方式跷跪；25在前馋嗜，4E在后，這是 Little endian 方式吵瞻。

這兩個(gè)古怪的名稱來(lái)自英國(guó)作家斯威夫特的《格列佛游記》葛菇。在該書中，小人國(guó)里爆發(fā)了內(nèi)戰(zhàn)橡羞，戰(zhàn)爭(zhēng)起因是人們爭(zhēng)論眯停，吃雞蛋時(shí)究竟是從大頭(Big-endian)敲開還是從小頭(Little-endian)敲開。為了這件事情卿泽，前后爆發(fā)了六次戰(zhàn)爭(zhēng)莺债，一個(gè)皇帝送了命，另一個(gè)皇帝丟了王位签夭。

第一個(gè)字節(jié)在前九府，就是"大頭方式"（Big endian），第二個(gè)字節(jié)在前就是"小頭方式"（Little endian）覆致。

那么很自然的侄旬，就會(huì)出現(xiàn)一個(gè)問(wèn)題：計(jì)算機(jī)怎么知道某一個(gè)文件到底采用哪一種方式編碼？

Unicode 規(guī)范定義煌妈，每一個(gè)文件的最前面分別加入一個(gè)表示編碼順序的字符儡羔，這個(gè)字符的名字叫做"零寬度非換行空格"（zero width no-break space），用FEFF表示璧诵。這正好是兩個(gè)字節(jié)汰蜘，而且FF比FE大1。

如果一個(gè)文本文件的頭兩個(gè)字節(jié)是FE FF之宿，就表示該文件采用大頭方式族操；如果頭兩個(gè)字節(jié)是FF FE，就表示該文件采用小頭方式比被。

八色难、實(shí)例

下面，舉一個(gè)實(shí)例等缀。

打開"記事本"程序notepad.exe枷莉，新建一個(gè)文本文件，內(nèi)容就是一個(gè)嚴(yán)字尺迂，依次采用ANSI笤妙，Unicode冒掌，Unicode big endian和UTF-8編碼方式保存。

然后蹲盘，用文本編輯軟件UltraEdit 中的"十六進(jìn)制功能"股毫，觀察該文件的內(nèi)部編碼方式。

1）ANSI：文件的編碼就是兩個(gè)字節(jié)D1 CF召衔，這正是嚴(yán)的 GB2312 編碼铃诬，這也暗示 GB2312 是采用大頭方式存儲(chǔ)的。

2）Unicode：編碼是四個(gè)字節(jié)FF FE 25 4E薄嫡，其中FF FE表明是小頭方式存儲(chǔ)氧急，真正的編碼是4E25颗胡。

3）Unicode big endian：編碼是四個(gè)字節(jié)FE FF 4E 25毫深，其中FE FF表明是大頭方式存儲(chǔ)。

4）UTF-8：編碼是六個(gè)字節(jié)EF BB BF E4 B8 A5毒姨，前三個(gè)字節(jié)EF BB BF表示這是UTF-8編碼哑蔫，后三個(gè)E4B8A5就是嚴(yán)的具體編碼，它的存儲(chǔ)順序與編碼順序是一致的弧呐。

九闸迷、延伸閱讀

The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets（關(guān)于字符集的最基本知識(shí)）
談?wù)刄nicode編碼
RFC3629：UTF-8, a transformation format of ISO 10646（如果實(shí)現(xiàn)UTF-8的規(guī)定）

（完）

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市俘枫，隨后出現(xiàn)的幾起案子腥沽，更是在濱河造成了極大的恐慌，老刑警劉巖鸠蚪，帶你破解...
沈念sama閱讀 211,561評(píng)論 6贊 492
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件今阳，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡茅信，警方通過(guò)查閱死者的電腦和手機(jī)盾舌，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,218評(píng)論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)蘸鲸，“玉大人妖谴，你說(shuō)我怎么就攤上這事∽靡。” “怎么了膝舅？”我有些...
開封第一講書人閱讀 157,162評(píng)論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)窑多。經(jīng)常有香客問(wèn)我铸史，道長(zhǎng)，這世上最難降的妖魔是什么怯伊？我笑而不...
開封第一講書人閱讀 56,470評(píng)論 1贊 283
?港島之戀（遺憾婚禮）
正文為了忘掉前任琳轿，我火速辦了婚禮判沟，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘崭篡。我一直安慰自己挪哄，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 65,550評(píng)論 6贊 385
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開白布琉闪。她就那樣靜靜地躺著迹炼，像睡著了一般。火紅的嫁衣襯著肌膚如雪颠毙。梳的紋絲不亂的頭發(fā)上斯入，一...
開封第一講書人閱讀 49,806評(píng)論 1贊 290
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音蛀蜜，去河邊找鬼刻两。笑死，一個(gè)胖子當(dāng)著我的面吹牛滴某，可吹牛的內(nèi)容都是我干的磅摹。我是一名探鬼主播，決...
沈念sama閱讀 38,951評(píng)論 3贊 407
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼霎奢，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼户誓！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起幕侠，我...
開封第一講書人閱讀 37,712評(píng)論 0贊 266
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤帝美，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后晤硕，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體悼潭，經(jīng)...
沈念sama閱讀 44,166評(píng)論 1贊 303
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,510評(píng)論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年窗骑，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了女责。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 38,643評(píng)論 1贊 340
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡创译，死狀恐怖抵知，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情软族，我是刑警寧澤刷喜，帶...
沈念sama閱讀 34,306評(píng)論 4贊 330
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站立砸，受9級(jí)特大地震影響掖疮，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜颗祝，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,930評(píng)論 3贊 313
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一浊闪、第九天我趴在偏房一處隱蔽的房頂上張望恼布。院中可真熱鬧，春花似錦搁宾、人聲如沸折汞。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,745評(píng)論 0贊 21
一樁弒父案盖腿，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)爽待。三九已至，卻和暖如春翩腐，著一層夾襖步出監(jiān)牢的瞬間鸟款，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,983評(píng)論 1贊 266
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工茂卦，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留何什，地道東北人。一個(gè)月前我還...
沈念sama閱讀 46,351評(píng)論 2贊 360
代替公主和親
正文我出身青樓疙筹，卻偏偏與公主長(zhǎng)得像富俄，于是被迫代替她去往敵國(guó)和親禁炒。傳聞我的和親對(duì)象是個(gè)殘疾皇子而咆，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 43,509評(píng)論 2贊 348

字符編碼筆記：ASCII膨桥，Unicode 和 UTF-8