學(xué)習(xí)：字符編碼

轉(zhuǎn)自：http://www.byhy.net/tut/py/basic/12/
點(diǎn)擊這里许饿，邊看視頻講解，邊學(xué)習(xí)以下內(nèi)容

我們眼睛看到的電腦上顯示的字，包括漢字渗钉、英文雌桑、日文敲才、韓文，這些文字悦昵，在計(jì)算機(jī)內(nèi)部是怎么存儲(chǔ)的？

難道是刻上去的晌畅？比如刻在硬盤上一個(gè)個(gè)這樣的字但指？

當(dāng)然不是，計(jì)算機(jī)都是用數(shù)字存儲(chǔ)信息的抗楔。

用磁場(chǎng)棋凳、電信號(hào) 等物理介質(zhì)的正負(fù) 狀態(tài) 表示 0 和 1，如果一個(gè)數(shù)字只由0和1 表示连躏，就是一個(gè)2進(jìn)制的數(shù)字表示法剩岳。

用連續(xù)的0和1，就可以代表很大的數(shù)字入热。

比如

二進(jìn)制的 10 就表示十進(jìn)制的 2

二進(jìn)制的 110 就表示十進(jìn)制的 6

從右向左拍棕，每位上的 1 分別代表 2的0次方（就是1）， 2的1次方（就是2）勺良，2的2次方（就是4）绰播，2的3次方（就是8）等等，依次類推尚困。

根據(jù)不同的使用場(chǎng)合幅垮，數(shù)字可以表示不同的意義。

比如，需要存儲(chǔ) 顏色 信息的時(shí)候忙芒， 0 可以用來(lái)代表白色示弓， 1 代表紅色， 2 代表黑色等等呵萨。

如果有10000種顏色奏属，可以用 0 到 9999 一共 10000個(gè)數(shù)字分別代表他們。

同樣的潮峦，我們要存儲(chǔ) 文字 信息囱皿，也可以用不同的數(shù)字來(lái)代表不同的文字。

字符集

點(diǎn)擊這里忱嘹，邊看視頻講解嘱腥，邊學(xué)習(xí)以下內(nèi)容

計(jì)算機(jī)是美國(guó)人發(fā)明的，所以在開始的時(shí)候拘悦，他們也沒有想到將來(lái)要支持全世界的文字齿兔。

所以，最早的時(shí)候础米，他們定義了一個(gè)規(guī)范分苇，定義一些數(shù)字用來(lái)代表美國(guó)人使用的文字符號(hào)。

而美國(guó)人的單詞都是用字母拼出來(lái)的屁桑，所以他們常用的基礎(chǔ)文字符號(hào)比較少医寿。

就是字母，再加上 !@#$%^&*(){[]}+- 等等這些符號(hào)蘑斧，也就100多個(gè)靖秩。

他們定義的規(guī)范就叫 ASCII （American Standard Code for Information Interchange），中文大意就是美國(guó)信息交換標(biāo)準(zhǔn)碼

大家可以參考百度上面的ASCII表

這個(gè) ASCII 碼里面用128個(gè)數(shù)字代表了128個(gè)字符竖瘾。

要存儲(chǔ)和傳輸這 128個(gè)字符對(duì)應(yīng)的文字信息也很簡(jiǎn)單盆偿，二進(jìn)制有 8 位就足夠了。

因?yàn)?的8次方等于256准浴，可以存儲(chǔ) 從 0 到255 一共 256個(gè)數(shù)字事扭，可以表示最多 256 個(gè)文字符號(hào)。

二進(jìn)制有 8 位的長(zhǎng)度被稱為一個(gè) 字節(jié) 乐横。

所以一個(gè)字節(jié)就可以存放任何一個(gè)ASCII 文字符號(hào)求橄。

ASCII 這樣的用數(shù)字代表文字符號(hào)的規(guī)范，就被稱之為 字符集

后來(lái)計(jì)算機(jī)傳遍了全世界葡公，其它國(guó)家的文字符號(hào)就多了罐农。

我們中文，就有這么多的文字符號(hào)催什。小學(xué)的時(shí)候涵亏，我們有個(gè)3000常用字表（我驕傲一下，小學(xué)1年級(jí)我就認(rèn)識(shí)了近2000多個(gè)字)，光常用字就有3千個(gè)气筋。

當(dāng)然還有韓文拆内、日文、繁體中文宠默、阿拉伯文等等麸恍。

顯然ASCII是不夠的，我們需要其它的數(shù)字來(lái)代表這些文字符號(hào)搀矫。

開始各個(gè)國(guó)家和地區(qū) 自己定義了自己的字符集抹沪。

比如我們中國(guó)就定義另外一套規(guī)范，規(guī)定了用什么樣的數(shù)字代表什么樣的文字符號(hào)瓤球。

這套規(guī)范也在不斷的升級(jí)融欧，包括 GB2312、GBK卦羡、GB18030

各個(gè)國(guó)家定義了各國(guó)的文字的字符集噪馏，這就帶來(lái)了一個(gè)問(wèn)題。

現(xiàn)在全球交流很密切虹茶，有時(shí)一篇文章會(huì)使用多國(guó)文字，比如同時(shí)使用日文和中文隅要。

而各國(guó)的字符集往往是不包含別國(guó)文字的蝴罪，比如 GBK就不會(huì)包含日文。

這時(shí)就沒法在一篇文章中存儲(chǔ)多國(guó)文字了步清。

為了解決這個(gè)問(wèn)題要门。國(guó)際標(biāo)準(zhǔn)化組織定義了一個(gè)字符集，想包括世界上所有的文字符號(hào)廓啊。

這就是大名鼎鼎的 unicode 字符集欢搜。

這個(gè)字符集里面包括了現(xiàn)今世界上的常用文字符號(hào) 和其對(duì)應(yīng)的數(shù)字表示。

這樣就解決了在一篇文章中包含多國(guó)文字的問(wèn)題了谴轮。

字符編碼

點(diǎn)擊這里炒瘟，邊看視頻講解，邊學(xué)習(xí)以下內(nèi)容

unicode 出現(xiàn)了第步，很好疮装，但是還有一個(gè)問(wèn)題。字符怎么存儲(chǔ)和傳輸粘都。

由于歷史原因廓推，計(jì)算機(jī)是以字節(jié)為單位來(lái) 存儲(chǔ)和傳輸數(shù)據(jù)的，一個(gè)字節(jié) 由 8位二進(jìn)制數(shù)字表示翩隧，最多可以表示從0到255樊展，一共256個(gè)字符。

最初只有ASCII碼的時(shí)候，一個(gè)字節(jié) 就可以存儲(chǔ)傳輸任何文字专缠。

但是unicode里面有10多萬(wàn)的文字符號(hào)雷酪，數(shù)字范圍遠(yuǎn)遠(yuǎn) 超過(guò) 一個(gè)字節(jié)所能代表的數(shù)字。

所以一個(gè)字節(jié)不夠藤肢。

那么怎么用多個(gè)字節(jié)來(lái) 表示這些數(shù)字呢太闺？

這就有需要另外的規(guī)范。這些 如何用字節(jié)表示字符對(duì)應(yīng)的數(shù)字 就是 字符編碼 規(guī)范

unicode字符的編碼嘁圈，最常用的規(guī)范是 UTF8 和 UTF16 省骂。

比如 UTF8 表示中文字符你，就是用 3個(gè)字節(jié)表示的最住，對(duì)應(yīng)的16進(jìn)制表示是 E4 钞澳、BD、 A0

當(dāng)然我們中文字符集gb系列使用另外的編碼規(guī)范涨缚。

以后轧粟，我們會(huì)寫一篇文章，以UTF8為例脓魏，講解它是如何用多個(gè)字節(jié)存儲(chǔ) 數(shù)字的兰吟。

這里我們只要知道不同的編碼規(guī)范對(duì)數(shù)字有不同的用字節(jié)表示的方法就行了。

有了編碼規(guī)范茂翔，字符集中的數(shù)字就可以轉(zhuǎn)化為字節(jié)進(jìn)行存儲(chǔ)和傳輸了混蔼。下面是學(xué)習(xí)視頻

Python3 的字符編碼和解碼

點(diǎn)擊這里，邊看視頻講解珊燎，邊學(xué)習(xí)以下內(nèi)容

字符串編碼

我們Python3語(yǔ)言里面的字符串對(duì)象是unicode字符串惭嚣，在內(nèi)存中實(shí)際存儲(chǔ)時(shí)，使用的是 UTF16 編碼悔政。

但是我們通常不會(huì)將UTF16編碼的內(nèi)容寫到磁盤或者在網(wǎng)絡(luò)進(jìn)行傳輸晚吞，因?yàn)閡tf16編碼比較浪費(fèi)空間。

特別是如果文字信息基本都是英文符號(hào)的情況下谋国， utf16 都會(huì)用2個(gè)字節(jié)來(lái)代表英文符號(hào)槽地。一個(gè)字節(jié)其實(shí)就夠了。

所以芦瘾，Python語(yǔ)言要對(duì)字符串對(duì)象進(jìn)行存儲(chǔ)和傳輸?shù)臅r(shí)候闷盔，通常要使用字符串的encode方法，參數(shù)指定編碼方式旅急，編碼為一個(gè) bytes 對(duì)象逢勾。

bytes對(duì)象的底層就是用一個(gè)個(gè)的字節(jié)來(lái)存儲(chǔ)字符串中的文字的。

同樣的字符串藐吮，用不同的編碼方式溺拱，有時(shí)會(huì)產(chǎn)生不同的bytes結(jié)果逃贝。

比如

print ('你好'.encode('utf8')) # 輸出 b'\xe4\xbd\xa0\xe5\xa5\xbd'
print ('你好'.encode('gbk'))  # 輸出 b'\xc4\xe3\xba\xc3'

輸出內(nèi)容中 b 開頭，表示這是一個(gè) 字節(jié)串bytes 對(duì)象

\x 說(shuō)明是用16進(jìn)制表示一個(gè)字節(jié)

你好兩個(gè)字迫摔，使用 utf8 編碼后的字節(jié)串沐扳，用16進(jìn)制來(lái)表示就是6個(gè)字節(jié) e4bda0 e5a5bd

e4bda0 對(duì)應(yīng) 你
e5a5bd 對(duì)應(yīng) 好

你好兩個(gè)字，使用 gbk 編碼后的字節(jié)串句占，用16進(jìn)制來(lái)表示卻是4個(gè)字節(jié) c4e3 bac3

c4e3 對(duì)應(yīng) 你
bac3 對(duì)應(yīng) 好

encode方法返回的是編碼后的字節(jié)串對(duì)象bytes 編碼為字節(jié)串對(duì)象 bytes 就可存儲(chǔ)到文件或者傳輸?shù)骄W(wǎng)絡(luò)中去了沪摄。我們后面的學(xué)習(xí)會(huì)講如何進(jìn)行文件存儲(chǔ)和網(wǎng)絡(luò)傳輸

字節(jié)串解碼

當(dāng)我們的Python程序從文件中讀入文字信息，從網(wǎng)絡(luò)上接收文字信息纱烘，獲取的數(shù)據(jù)通常是使用某種字符編碼后的字節(jié)串杨拐。

程序通常需要解碼這些 字節(jié)串 為 字符串 ，這樣才方便程序理解和處理字符信息擂啥。

Python語(yǔ)言的解碼都是解碼成 unicode字符串對(duì)象哄陶。

要解碼字節(jié)串，必須要知道這個(gè)字節(jié)串是用什么字符編碼的方式進(jìn)行編碼的哺壶。

如果知道了屋吨，就可以用字節(jié)串對(duì)象的decode方法進(jìn)行解碼，參數(shù)指定了編碼方式

比如

print(b'\xe4\xbd\xa0\xe5\xa5\xbd'.decode('utf8'))
print(b'\xc4\xe3\xba\xc3'.decode('gbk'))

上面的兩行代碼都可以解碼出字符串 ‘你好’

如果不小心寫錯(cuò)了參數(shù)指定的編碼方式山宾，就可能返回錯(cuò)誤解碼結(jié)果至扰，比如

print(b'\xe4\xbd\xa0\xe5\xa5\xbd'.decode('gbk'))
返回 浣犲ソ

或者解碼失敗報(bào)錯(cuò)，比如

print(b'\xc4\xe3\xba\xc3'.decode('utf8'))

報(bào)如下錯(cuò)誤：
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc4 in position 0: invalid continuation byte

一些字符編解碼技巧

unicode數(shù)字轉(zhuǎn)換為字符

把 unicode數(shù)字轉(zhuǎn)換為字符资锰，使用函數(shù) chr() , 比如：

>>> chr(50)
'2'
>>> chr(20013)
'中'
>>> chr(0x4e2d)  # 0x開頭表示數(shù)字是16進(jìn)制
'中'

字符轉(zhuǎn)換為unicode數(shù)字

反過(guò)來(lái)敢课，要把字符轉(zhuǎn)換為對(duì)應(yīng)的unicode數(shù)字，使用函數(shù) ord()

該函數(shù)參數(shù)字符串里面只能有一個(gè)字符

>>> ord('2')
50
>>> ord('中')
20013

字符串編碼為 unicode轉(zhuǎn)義數(shù)字

除了utf8台妆，gbk 還有一種常見的編碼方式翎猛，叫做 unicode-escape 胖翰，就是直接用unicode數(shù)字字符串表示字符接剩，如下所示

>>> '白月黑羽'.encode('unicode-escape')
b'\\u767d\\u6708\\u9ed1\\u7fbd'

用unicode轉(zhuǎn)義數(shù)字寫字符串

>>> '\u767d\u6708\u9ed1\u7fbd'
'白月黑羽'

直接用16進(jìn)制數(shù)字創(chuàng)建 bytes

>>> b'\xb0\xd7\xd4\xc2\xba\xda\xd3\xf0'
b'\xb0\xd7\xd4\xc2\xba\xda\xd3\xf0'

>>> b'\xb0\xd7\xd4\xc2\xba\xda\xd3\xf0'.decode('gbk')
'白月黑羽'

字節(jié)串和 16進(jìn)制表示字節(jié)的字符串

>>> a = b'hello,123'
>>> a.hex()
'68656c6c6f2c313233'

反向操作，把 16進(jìn)制表示字節(jié)的字符串轉(zhuǎn)化為字節(jié)串就是

>>> bytes.fromhex('68656c6c6f2c313233')
b'hello,123'

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末萨咳，一起剝皮案震驚了整個(gè)濱河市懊缺，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌培他，老刑警劉巖鹃两，帶你破解...
沈念sama閱讀 219,490評(píng)論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異舀凛，居然都是意外死亡俊扳，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,581評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門猛遍，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)馋记，“玉大人号坡，你說(shuō)我怎么就攤上這事√菪眩” “怎么了宽堆？”我有些...
開封第一講書人閱讀 165,830評(píng)論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)茸习。經(jīng)常有香客問(wèn)我畜隶，道長(zhǎng)，這世上最難降的妖魔是什么号胚？我笑而不...
開封第一講書人閱讀 58,957評(píng)論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任籽慢，我火速辦了婚禮，結(jié)果婚禮上涕刚，老公的妹妹穿的比我還像新娘嗡综。我一直安慰自己，他們只是感情好杜漠，可當(dāng)我...
茶點(diǎn)故事閱讀 67,974評(píng)論 6贊 393
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開白布极景。她就那樣靜靜地躺著，像睡著了一般驾茴。火紅的嫁衣襯著肌膚如雪盼樟。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,754評(píng)論 1贊 307
城市分裂傳說(shuō)
那天锈至，我揣著相機(jī)與錄音晨缴，去河邊找鬼。笑死峡捡，一個(gè)胖子當(dāng)著我的面吹牛击碗，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播们拙，決...
沈念sama閱讀 40,464評(píng)論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼稍途，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了砚婆？” 一聲冷哼從身側(cè)響起械拍，我...
開封第一講書人閱讀 39,357評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎装盯，沒想到半個(gè)月后坷虑，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,847評(píng)論 1贊 317
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡埂奈，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,995評(píng)論 3贊 338
?白月光啟示錄
正文我和宋清朗相戀三年迄损，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片账磺。...
茶點(diǎn)故事閱讀 40,137評(píng)論 1贊 351
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡芹敌，死狀恐怖共屈，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情党窜，我是刑警寧澤拗引，帶...
沈念sama閱讀 35,819評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站幌衣，受9級(jí)特大地震影響矾削，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜豁护，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,482評(píng)論 3贊 331
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一哼凯、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧楚里，春花似錦断部、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,023評(píng)論 0贊 22
一樁弒父案蝴光，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至达址，卻和暖如春蔑祟，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背沉唠。一陣腳步聲響...
開封第一講書人閱讀 33,149評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工疆虚，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人满葛。一個(gè)月前我還...
沈念sama閱讀 48,409評(píng)論 3贊 373
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像嘀韧，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子乳蛾，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,086評(píng)論 2贊 355