字符編碼

ASCII碼
我們知道璧南，在計(jì)算機(jī)內(nèi)部，所有的信息最終都表示為一個(gè)二進(jìn)制的字符串。<b>每一個(gè)二進(jìn)制位（bit）有0和1兩種狀態(tài)畏线，因此八個(gè)二進(jìn)制位就可以組合出256種狀態(tài)，這被稱為一個(gè)字節(jié)（byte）良价。</b>也就是說寝殴，一個(gè)字節(jié)一共可以用來表示256種不同的狀態(tài)，每一個(gè)狀態(tài)對應(yīng)一個(gè)符號明垢，就是256個(gè)符號蚣常，從0000000到11111111。
上個(gè)世紀(jì)60年代痊银，美國制定了一套字符編碼抵蚊，對英語字符與二進(jìn)制位之間的關(guān)系，做了統(tǒng)一規(guī)定曼验。這被稱為ASCII碼泌射，一直沿用至今。
ASCII碼一共規(guī)定了128個(gè)字符的編碼鬓照，比如空格"SPACE"是32（二進(jìn)制00100000）熔酷，大寫的字母A是65（二進(jìn)制01000001）。<b>這128個(gè)符號（包括32個(gè)不能打印出來的控制符號）豺裆，只占用了一個(gè)字節(jié)的后面7位拒秘，最前面的1位統(tǒng)一規(guī)定為0。
注：1byte(字節(jié)) = 8bit(二進(jìn)制位)</b>
非ASCII編碼
英語用128個(gè)符號編碼就夠了臭猜，但是用來表示其他語言躺酒，128個(gè)符號是不夠的。比如蔑歌，在法語中羹应，字母上方有注音符號，它就無法用ASCII碼表示次屠。于是园匹，一些歐洲國家就決定，利用字節(jié)中閑置的最高位編入新的符號劫灶。比如裸违，法語中的é的編碼為130（二進(jìn)制10000010）。這樣一來本昏，這些歐洲國家使用的編碼體系供汛，可以表示最多256個(gè)符號。
但是，這里又出現(xiàn)了新的問題怔昨。不同的國家有不同的字母雀久，因此，哪怕它們都使用256個(gè)符號的編碼方式朱监，代表的字母卻不一樣岸啡。比如原叮，130在法語編碼中代表了é赫编，在希伯來語編碼中卻代表了字母Gimel (?)，在俄語編碼中又會代表另一個(gè)符號奋隶。但是不管怎樣擂送，所有這些編碼方式中，0--127表示的符號是一樣的唯欣，不一樣的只是128--255的這一段嘹吨。
至于亞洲國家的文字，使用的符號就更多了境氢，漢字就多達(dá)10萬左右蟀拷。一個(gè)字節(jié)只能表示256種符號，肯定是不夠的萍聊，就必須使用多個(gè)字節(jié)表達(dá)一個(gè)符號问芬。比如，簡體中文常見的編碼方式是GB2312寿桨，使用兩個(gè)字節(jié)表示一個(gè)漢字此衅，所以理論上最多可以表示256x256=65536個(gè)符號。
中文編碼的問題需要專文討論亭螟，這篇筆記不涉及挡鞍。這里只指出，雖然都是用多個(gè)字節(jié)表示一個(gè)符號预烙，但是GB類的漢字編碼與后文的Unicode和UTF-8是毫無關(guān)系的墨微。
Unicode
正如上一節(jié)所說，世界上存在著多種編碼方式扁掸，同一個(gè)二進(jìn)制數(shù)字可以被解釋成不同的符號翘县。因此，要想打開一個(gè)文本文件也糊，就必須知道它的編碼方式炼蹦，否則用錯(cuò)誤的編碼方式解讀，就會出現(xiàn)亂碼狸剃。為什么電子郵件常常出現(xiàn)亂碼掐隐？就是因?yàn)榘l(fā)信人和收信人使用的編碼方式不一樣。
可以想象，如果有一種編碼虑省，將世界上所有的符號都納入其中匿刮。每一個(gè)符號都給予一個(gè)獨(dú)一無二的編碼，那么亂碼問題就會消失探颈。這就是Unicode熟丸，就像它的名字都表示的，這是一種所有符號的編碼伪节。
Unicode當(dāng)然是一個(gè)很大的集合光羞，現(xiàn)在的規(guī)模可以容納100多萬個(gè)符號怀大。每個(gè)符號的編碼都不一樣纱兑，比如，U+0639表示阿拉伯字母Ain化借，U+0041表示英語的大寫字母A潜慎，U+4E25表示漢字"嚴(yán)"。具體的符號對應(yīng)表蓖康，可以查詢unicode.org铐炫，或者專門的漢字對應(yīng)表。
Unicode的問題
需要注意的是蒜焊，Unicode只是一個(gè)符號集倒信，它只規(guī)定了符號的二進(jìn)制代碼，卻沒有規(guī)定這個(gè)二進(jìn)制代碼應(yīng)該如何存儲山涡。
比如堤结，漢字"嚴(yán)"的unicode是十六進(jìn)制數(shù)4E25，轉(zhuǎn)換成二進(jìn)制數(shù)足足有15位（100111000100101）鸭丛，也就是說這個(gè)符號的表示至少需要2個(gè)字節(jié)竞穷。表示其他更大的符號，可能需要3個(gè)字節(jié)或者4個(gè)字節(jié)鳞溉，甚至更多瘾带。
這里就有兩個(gè)嚴(yán)重的問題，第一個(gè)問題是熟菲，如何才能區(qū)別Unicode和ASCII看政？計(jì)算機(jī)怎么知道三個(gè)字節(jié)表示一個(gè)符號，而不是分別表示三個(gè)符號呢抄罕？第二個(gè)問題是允蚣，我們已經(jīng)知道，英文字母只用一個(gè)字節(jié)表示就夠了呆贿，如果Unicode統(tǒng)一規(guī)定嚷兔，每個(gè)符號用三個(gè)或四個(gè)字節(jié)表示森渐，那么每個(gè)英文字母前都必然有二到三個(gè)字節(jié)是0，這對于存儲來說是極大的浪費(fèi)冒晰，文本文件的大小會因此大出二三倍同衣，這是無法接受的。
它們造成的結(jié)果是：1）出現(xiàn)了Unicode的多種存儲方式壶运，也就是說有許多種不同的二進(jìn)制格式耐齐，可以用來表示Unicode。2）Unicode在很長一段時(shí)間內(nèi)無法推廣蒋情，直到互聯(lián)網(wǎng)的出現(xiàn)埠况。
UTF-8
互聯(lián)網(wǎng)的普及，強(qiáng)烈要求出現(xiàn)一種統(tǒng)一的編碼方式恕出。UTF-8就是在互聯(lián)網(wǎng)上使用最廣的一種Unicode的實(shí)現(xiàn)方式询枚。其他實(shí)現(xiàn)方式還包括UTF-16（字符用兩個(gè)字節(jié)或四個(gè)字節(jié)表示）和UTF-32（字符用四個(gè)字節(jié)表示），不過在互聯(lián)網(wǎng)上基本不用浙巫。重復(fù)一遍，這里的關(guān)系是刷后，UTF-8是Unicode的實(shí)現(xiàn)方式之一的畴。
UTF-8最大的一個(gè)特點(diǎn)，就是它是一種變長的編碼方式尝胆。它可以使用1~4個(gè)字節(jié)表示一個(gè)符號丧裁，根據(jù)不同的符號而變化字節(jié)長度。
UTF-8的編碼規(guī)則很簡單含衔，只有二條：
1）對于單字節(jié)的符號煎娇，字節(jié)的第一位設(shè)為0，后面7位為這個(gè)符號的unicode碼贪染。因此對于英語字母缓呛，UTF-8編碼和ASCII碼是相同的。
2）對于n字節(jié)的符號（n>1）杭隙，第一個(gè)字節(jié)的前n位都設(shè)為1哟绊，第n+1位設(shè)為0，后面字節(jié)的前兩位一律設(shè)為10痰憎。剩下的沒有提及的二進(jìn)制位票髓，全部為這個(gè)符號的unicode碼。
下表總結(jié)了編碼規(guī)則铣耘，字母x表示可用編碼的位洽沟。
Unicode符號范圍 | UTF-8編碼方式(十六進(jìn)制) | （二進(jìn)制）--------------------+---------------------------------------------0000 0000-0000 007F | 0xxxxxxx0000 0080-0000 07FF | 110xxxxx 10xxxxxx0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
跟據(jù)上表，解讀UTF-8編碼非常簡單蜗细。如果一個(gè)字節(jié)的第一位是0裆操，則這個(gè)字節(jié)單獨(dú)就是一個(gè)字符；如果第一位是1，則連續(xù)有多少個(gè)1跷车，就表示當(dāng)前字符占用多少個(gè)字節(jié)棘利。
下面，還是以漢字"嚴(yán)"為例朽缴，演示如何實(shí)現(xiàn)UTF-8編碼善玫。
已知"嚴(yán)"的unicode是4E25（100111000100101），根據(jù)上表密强，可以發(fā)現(xiàn)4E25處在第三行的范圍內(nèi)（0000 0800-0000 FFFF）茅郎，因此"嚴(yán)"的UTF-8編碼需要三個(gè)字節(jié)，即格式是"1110xxxx 10xxxxxx 10xxxxxx"或渤。然后系冗，從"嚴(yán)"的最后一個(gè)二進(jìn)制位開始，依次從后向前填入格式中的x薪鹦，多出的位補(bǔ)0掌敬。這樣就得到了，"嚴(yán)"的UTF-8編碼是"11100100 10111000 10100101"池磁，轉(zhuǎn)換成十六進(jìn)制就是E4B8A5奔害。
Unicode與UTF-8之間的轉(zhuǎn)換
通過上一節(jié)的例子，可以看到"嚴(yán)"的Unicode碼是4E25地熄，UTF-8編碼是E4B8A5华临，兩者是不一樣的。它們之間的轉(zhuǎn)換可以通過程序?qū)崿F(xiàn)端考。
在Windows平臺下雅潭，有一個(gè)最簡單的轉(zhuǎn)化方法，就是使用內(nèi)置的記事本小程序Notepad.exe却特。打開文件后扶供，點(diǎn)擊"文件"菜單中的"另存為"命令，會跳出一個(gè)對話框核偿，在最底部有一個(gè)"編碼"的下拉條诚欠。

bg2007102801.jpg

里面有四個(gè)選項(xiàng)：ANSI，Unicode漾岳，Unicode big endian 和 UTF-8轰绵。
1）ANSI是默認(rèn)的編碼方式。對于英文文件是ASCII編碼尼荆，對于簡體中文文件是GB2312編碼（只針對Windows簡體中文版左腔，如果是繁體中文版會采用Big5碼）。
2）Unicode編碼指的是UCS-2編碼方式捅儒，即直接用兩個(gè)字節(jié)存入字符的Unicode碼液样。這個(gè)選項(xiàng)用的little endian格式振亮。
3）Unicode big endian編碼與上一個(gè)選項(xiàng)相對應(yīng)。我在下一節(jié)會解釋little endian和big endian的涵義鞭莽。
4）UTF-8編碼坊秸，也就是上一節(jié)談到的編碼方法。
選擇完"編碼方式"后澎怒，點(diǎn)擊"保存"按鈕褒搔，文件的編碼方式就立刻轉(zhuǎn)換好了。
Little endian和Big endian
上一節(jié)已經(jīng)提到喷面，Unicode碼可以采用UCS-2格式直接存儲星瘾。以漢字"嚴(yán)"為例，Unicode碼是4E25惧辈，需要用兩個(gè)字節(jié)存儲琳状，一個(gè)字節(jié)是4E，另一個(gè)字節(jié)是25盒齿。存儲的時(shí)候念逞，4E在前，25在后县昂，就是Big endian方式肮柜；25在前，4E在后倒彰，就是Little endian方式。
這兩個(gè)古怪的名稱來自英國作家斯威夫特的《格列佛游記》莱睁。在該書中待讳，小人國里爆發(fā)了內(nèi)戰(zhàn)，戰(zhàn)爭起因是人們爭論仰剿，吃雞蛋時(shí)究竟是從大頭(Big-Endian)敲開還是從小頭(Little-Endian)敲開创淡。為了這件事情，前后爆發(fā)了六次戰(zhàn)爭南吮，一個(gè)皇帝送了命琳彩，另一個(gè)皇帝丟了王位。
因此部凑，第一個(gè)字節(jié)在前露乏，就是"大頭方式"（Big endian），第二個(gè)字節(jié)在前就是"小頭方式"（Little endian）涂邀。
那么很自然的瘟仿，就會出現(xiàn)一個(gè)問題：計(jì)算機(jī)怎么知道某一個(gè)文件到底采用哪一種方式編碼？
Unicode規(guī)范中定義比勉，每一個(gè)文件的最前面分別加入一個(gè)表示編碼順序的字符劳较，這個(gè)字符的名字叫做"零寬度非換行空格"（ZERO WIDTH NO-BREAK SPACE）驹止，用FEFF表示。這正好是兩個(gè)字節(jié)观蜗，而且FF比FE大1臊恋。
如果一個(gè)文本文件的頭兩個(gè)字節(jié)是FE FF，就表示該文件采用大頭方式墓捻；如果頭兩個(gè)字節(jié)是FF FE抖仅，就表示該文件采用小頭方式。
實(shí)例
下面毙替，舉一個(gè)實(shí)例岸售。
打開"記事本"程序Notepad.exe，新建一個(gè)文本文件厂画，內(nèi)容就是一個(gè)"嚴(yán)"字凸丸，依次采用ANSI，Unicode袱院，Unicode big endian 和 UTF-8編碼方式保存屎慢。
然后，用文本編輯軟件UltraEdit中的"十六進(jìn)制功能"忽洛，觀察該文件的內(nèi)部編碼方式腻惠。
1）ANSI：文件的編碼就是兩個(gè)字節(jié)"D1 CF"，這正是"嚴(yán)"的GB2312編碼欲虚，這也暗示GB2312是采用大頭方式存儲的集灌。
2）Unicode：編碼是四個(gè)字節(jié)"FF FE 25 4E"，其中"FF FE"表明是小頭方式存儲复哆，真正的編碼是4E25欣喧。
3）Unicode big endian：編碼是四個(gè)字節(jié)"FE FF 4E 25"，其中"FE FF"表明是大頭方式存儲梯找。
4）UTF-8：編碼是六個(gè)字節(jié)"EF BB BF E4 B8 A5"唆阿，前三個(gè)字節(jié)"EF BB BF"表示這是UTF-8編碼，后三個(gè)"E4B8A5"就是"嚴(yán)"的具體編碼锈锤，它的存儲順序與編碼順序是一致的驯鳖。
延伸閱讀

The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets（關(guān)于字符集的最基本知識）
談?wù)刄nicode編碼
RFC3629：UTF-8, a transformation format of ISO 10646（如果實(shí)現(xiàn)UTF-8的規(guī)定）

最后編輯于：2017.12.07 11:03:55

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市久免，隨后出現(xiàn)的幾起案子浅辙，更是在濱河造成了極大的恐慌，老刑警劉巖妄壶，帶你破解...
沈念sama閱讀 216,470評論 6贊 501
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件摔握，死亡現(xiàn)場離奇詭異，居然都是意外死亡丁寄，警方通過查閱死者的電腦和手機(jī)氨淌，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,393評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門泊愧，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人盛正，你說我怎么就攤上這事删咱。” “怎么了豪筝？”我有些...
開封第一講書人閱讀 162,577評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵痰滋，是天一觀的道長。經(jīng)常有香客問我续崖，道長敲街，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,176評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任严望，我火速辦了婚禮多艇，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘像吻。我一直安慰自己峻黍，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,189評論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布拨匆。她就那樣靜靜地躺著姆涩，像睡著了一般。火紅的嫁衣襯著肌膚如雪惭每。梳的紋絲不亂的頭發(fā)上骨饿，一...
開封第一講書人閱讀 51,155評論 1贊 299
城市分裂傳說
那天，我揣著相機(jī)與錄音台腥，去河邊找鬼样刷。笑死，一個(gè)胖子當(dāng)著我的面吹牛览爵，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播镇饮，決...
沈念sama閱讀 40,041評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼蜓竹，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了储藐？” 一聲冷哼從身側(cè)響起俱济，我...
開封第一講書人閱讀 38,903評論 0贊 274
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎钙勃，沒想到半個(gè)月后蛛碌，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,319評論 1贊 310
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡辖源，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,539評論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年蔚携，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了希太。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,703評論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡酝蜒，死狀恐怖誊辉，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情亡脑，我是刑警寧澤堕澄，帶...
沈念sama閱讀 35,417評論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站霉咨，受9級特大地震影響蛙紫，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜途戒，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,013評論 3贊 325
男人毒藥：我在死后第九天來索命
文/蒙蒙一坑傅、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧棺滞，春花似錦裁蚁、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,664評論 0贊 22
一樁弒父案枉证，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至移必，卻和暖如春室谚，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背崔泵。一陣腳步聲響...
開封第一講書人閱讀 32,818評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工秒赤，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人憎瘸。一個(gè)月前我還...
沈念sama閱讀 47,711評論 2贊 368
代替公主和親
正文我出身青樓入篮，卻偏偏與公主長得像，于是被迫代替她去往敵國和親幌甘。傳聞我的和親對象是個(gè)殘疾皇子潮售，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,601評論 2贊 353

字符編碼

推薦閱讀更多精彩內(nèi)容