轉(zhuǎn)自:http://www.byhy.net/tut/py/basic/12/
點(diǎn)擊這里许饿,邊看視頻講解,邊學(xué)習(xí)以下內(nèi)容
我們眼睛看到的電腦上顯示的字,包括漢字渗钉、英文雌桑、日文敲才、韓文,這些文字悦昵,在計(jì)算機(jī)內(nèi)部是怎么存儲(chǔ)的?
難道是刻上去的晌畅? 比如刻在硬盤上一個(gè)個(gè)這樣的字但指?
當(dāng)然不是,計(jì)算機(jī)都是用數(shù)字存儲(chǔ)信息的抗楔。
用 磁場(chǎng)棋凳、電信號(hào) 等物理介質(zhì)的 正負(fù) 狀態(tài) 表示 0 和 1,如果一個(gè)數(shù)字只由0和1 表示连躏,就是一個(gè)2進(jìn)制的數(shù)字表示法剩岳。
用連續(xù)的0和1,就可以代表很大的數(shù)字入热。
比如
二進(jìn)制 的 10
就表示十進(jìn)制 的 2
二進(jìn)制 的 110
就表示十進(jìn)制 的 6
從右向左拍棕,每位 上的 1 分別代表 2的0次方(就是1), 2的1次方(就是2)勺良,2的2次方(就是4)绰播,2的3次方(就是8) 等等, 依次類推尚困。
根據(jù)不同的使用場(chǎng)合幅垮,數(shù)字可以表示不同的意義。
比如,需要存儲(chǔ) 顏色
信息的時(shí)候忙芒, 0 可以用來(lái)代表 白色示弓, 1 代表紅色, 2 代表 黑色等等呵萨。
如果有10000種顏色奏属,可以用 0 到 9999 一共 10000個(gè)數(shù)字分別代表他們。
同樣的潮峦, 我們要存儲(chǔ) 文字
信息囱皿,也可以用不同的數(shù)字來(lái)代表不同的文字。
字符集
點(diǎn)擊這里忱嘹,邊看視頻講解嘱腥,邊學(xué)習(xí)以下內(nèi)容
計(jì)算機(jī)是美國(guó)人發(fā)明的,所以在開始的時(shí)候拘悦, 他們也沒有想到將來(lái)要支持全世界的文字齿兔。
所以,最早的時(shí)候础米,他們定義了一個(gè)規(guī)范分苇,定義一些數(shù)字 用來(lái)代表美國(guó)人使用的文字符號(hào)。
而美國(guó)人的單詞都是用字母拼出來(lái)的屁桑, 所以他們常用的基礎(chǔ)文字符號(hào)比較少医寿。
就是字母,再加上 !@#$%^&*(){[]}+- 等等這些符號(hào)蘑斧,也就100多個(gè)靖秩。
他們定義的規(guī)范就叫 ASCII (American Standard Code for Information Interchange) ,中文大意就是 美國(guó)信息交換標(biāo)準(zhǔn)碼
大家可以參考 百度上面的ASCII表
這個(gè) ASCII 碼里面用128個(gè)數(shù)字代表了128個(gè)字符竖瘾。
要存儲(chǔ)和傳輸這 128個(gè)字符對(duì)應(yīng)的文字信息 也很簡(jiǎn)單盆偿, 二進(jìn)制有 8 位就足夠了。
因?yàn)?的8次方等于256准浴,可以存儲(chǔ) 從 0 到255 一共 256個(gè)數(shù)字事扭, 可以表示 最多 256 個(gè)文字符號(hào)。
二進(jìn)制有 8 位 的長(zhǎng)度 被稱為 一個(gè) 字節(jié) 乐横。
所以一個(gè)字節(jié)就可以存放 任何一個(gè)ASCII 文字符號(hào)求橄。
ASCII 這樣的 用數(shù)字代表文字符號(hào)的規(guī)范,就被稱之為 字符集
后來(lái)計(jì)算機(jī)傳遍了全世界葡公,其它國(guó)家的文字符號(hào)就多了罐农。
我們中文,就有這么多的文字符號(hào)催什。小學(xué)的時(shí)候涵亏,我們有個(gè)3000常用字表(我驕傲一下,小學(xué)1年級(jí)我就認(rèn)識(shí)了近2000多個(gè)字), 光常用字就有3千個(gè)气筋。
當(dāng)然還有 韓文拆内、日文、繁體中文宠默、阿拉伯文等等麸恍。
顯然ASCII是不夠的,我們需要其它的數(shù)字來(lái)代表這些文字符號(hào)搀矫。
開始各個(gè)國(guó)家和地區(qū) 自己定義了自己的 字符集抹沪。
比如我們中國(guó)就定義另外一套規(guī)范, 規(guī)定了 用什么樣的數(shù)字代表什么樣的文字符號(hào)瓤球。
這套規(guī)范也在不斷的升級(jí)融欧,包括 GB2312、GBK卦羡、GB18030
各個(gè)國(guó)家定義了各國(guó)的文字的字符集噪馏,這就帶來(lái)了一個(gè)問(wèn)題。
現(xiàn)在全球交流很密切虹茶,有時(shí)一篇文章會(huì)使用多國(guó)文字,比如 同時(shí)使用 日文和中文隅要。
而各國(guó)的字符集往往是不包含別國(guó)文字的蝴罪,比如 GBK就不會(huì)包含 日文。
這時(shí)就沒法在一篇文章中存儲(chǔ)多國(guó)文字了步清。
為了解決這個(gè)問(wèn)題要门。 國(guó)際標(biāo)準(zhǔn)化組織定義了一個(gè)字符集,想包括世界上所有的文字符號(hào)廓啊。
這就是大名鼎鼎的 unicode 字符集欢搜。
這個(gè)字符集里面包括了現(xiàn)今世界上的常用文字符號(hào) 和 其對(duì)應(yīng)的數(shù)字表示。
這樣就解決了在一篇文章中包含多國(guó)文字的問(wèn)題了谴轮。
字符編碼
點(diǎn)擊這里炒瘟,邊看視頻講解,邊學(xué)習(xí)以下內(nèi)容
unicode 出現(xiàn)了第步,很好疮装,但是還有一個(gè)問(wèn)題。 字符怎么存儲(chǔ)和傳輸粘都。
由于歷史原因廓推,計(jì)算機(jī)是 以字節(jié)為單位 來(lái) 存儲(chǔ)和傳輸數(shù)據(jù)的,一個(gè)字節(jié) 由 8位二進(jìn)制數(shù)字表示翩隧,最多可以表示從0到255樊展, 一共256個(gè)字符。
最初只有ASCII碼的時(shí)候,一個(gè)字節(jié) 就可以存儲(chǔ)傳輸任何文字专缠。
但是unicode里面有10多萬(wàn)的文字符號(hào)雷酪,數(shù)字范圍 遠(yuǎn)遠(yuǎn) 超過(guò) 一個(gè)字節(jié)所能代表的數(shù)字。
所以一個(gè)字節(jié)不夠藤肢。
那么怎么用多個(gè)字節(jié)來(lái) 表示這些數(shù)字呢太闺?
這就有需要另外的規(guī)范。這些 如何用字節(jié)表示 字符對(duì)應(yīng)的數(shù)字 就是 字符編碼 規(guī)范
unicode字符 的編碼嘁圈,最常用的規(guī)范是 UTF8 和 UTF16 省骂。
比如 UTF8 表示 中文字符 你 ,就是用 3個(gè)字節(jié)表示的最住,對(duì)應(yīng)的16進(jìn)制表示是 E4 钞澳、BD、 A0
當(dāng)然我們中文字符集gb系列使用另外的編碼規(guī)范涨缚。
以后轧粟,我們會(huì)寫一篇文章,以UTF8為例脓魏,講解它是如何用多個(gè)字節(jié)存儲(chǔ) 數(shù)字的兰吟。
這里我們只要知道 不同的 編碼規(guī)范 對(duì)數(shù)字有不同的 用字節(jié)表示的方法就行了。
有了編碼規(guī)范茂翔,字符集 中的數(shù)字就可以轉(zhuǎn)化為字節(jié)進(jìn)行存儲(chǔ)和傳輸了混蔼。下面是學(xué)習(xí)視頻
Python3 的字符編碼和解碼
點(diǎn)擊這里,邊看視頻講解珊燎,邊學(xué)習(xí)以下內(nèi)容
字符串編碼
我們Python3語(yǔ)言里面的字符串對(duì)象是unicode字符串惭嚣,在內(nèi)存中實(shí)際存儲(chǔ)時(shí),使用的是 UTF16 編碼悔政。
但是我們通常不會(huì)將UTF16編碼的內(nèi)容寫到磁盤或者在網(wǎng)絡(luò)進(jìn)行傳輸晚吞, 因?yàn)閡tf16編碼比較浪費(fèi)空間。
特別是如果文字信息基本都是英文符號(hào)的情況下谋国, utf16 都會(huì)用2個(gè)字節(jié)來(lái)代表英文符號(hào)槽地。 一個(gè)字節(jié)其實(shí)就夠了。
所以芦瘾,Python語(yǔ)言要對(duì)字符串對(duì)象 進(jìn)行存儲(chǔ)和傳輸?shù)臅r(shí)候闷盔,通常要使用字符串的encode方法,參數(shù)指定編碼方式旅急,編碼為一個(gè) bytes 對(duì)象逢勾。
bytes對(duì)象的底層就是用一個(gè)個(gè)的字節(jié)來(lái)存儲(chǔ)字符串中的文字的。
同樣的字符串藐吮,用不同的編碼方式溺拱,有時(shí)會(huì)產(chǎn)生不同的bytes結(jié)果逃贝。
比如
print ('你好'.encode('utf8')) # 輸出 b'\xe4\xbd\xa0\xe5\xa5\xbd'
print ('你好'.encode('gbk')) # 輸出 b'\xc4\xe3\xba\xc3'
輸出內(nèi)容 中 b 開頭,表示這是一個(gè) 字節(jié)串bytes 對(duì)象
\x 說(shuō)明是用16進(jìn)制表示一個(gè)字節(jié)
你好 兩個(gè)字迫摔,使用 utf8 編碼 后的字節(jié)串沐扳,用16進(jìn)制來(lái)表示 就是6個(gè)字節(jié) e4bda0 e5a5bd
e4bda0 對(duì)應(yīng) 你
e5a5bd 對(duì)應(yīng) 好
你好 兩個(gè)字,使用 gbk 編碼 后的字節(jié)串句占,用16進(jìn)制來(lái)表示 卻是4個(gè)字節(jié) c4e3 bac3
c4e3 對(duì)應(yīng) 你
bac3 對(duì)應(yīng) 好
encode方法返回的是編碼后的字節(jié)串對(duì)象bytes 編碼為字節(jié)串對(duì)象 bytes 就可存儲(chǔ)到文件或者傳輸?shù)骄W(wǎng)絡(luò)中去了沪摄。 我們后面的學(xué)習(xí)會(huì)講如何進(jìn)行文件存儲(chǔ)和網(wǎng)絡(luò)傳輸
字節(jié)串解碼
當(dāng)我們的Python程序從文件中讀入文字信息, 從網(wǎng)絡(luò)上接收 文字信息纱烘,獲取的數(shù)據(jù)通常是使用某種字符編碼后的 字節(jié)串杨拐。
程序通常需要解碼這些 字節(jié)串 為 字符串 ,這樣才方便程序 理解和處理 字符信息擂啥。
Python語(yǔ)言的解碼 都是解碼成 unicode字符串對(duì)象哄陶。
要解碼字節(jié)串,必須要知道這個(gè)字節(jié)串是用什么字符編碼的方式進(jìn)行編碼的哺壶。
如果知道了屋吨,就可以用字節(jié)串對(duì)象的decode方法 進(jìn)行解碼,參數(shù)指定了編碼方式
比如
print(b'\xe4\xbd\xa0\xe5\xa5\xbd'.decode('utf8'))
print(b'\xc4\xe3\xba\xc3'.decode('gbk'))
上面的兩行代碼都可以解碼出 字符串 ‘你好’
如果不小心寫錯(cuò)了參數(shù)指定的編碼方式山宾,就可能返回錯(cuò)誤解碼結(jié)果 至扰, 比如
print(b'\xe4\xbd\xa0\xe5\xa5\xbd'.decode('gbk'))
返回 浣犲ソ
或者解碼失敗報(bào)錯(cuò),比如
print(b'\xc4\xe3\xba\xc3'.decode('utf8'))
報(bào)如下錯(cuò)誤:
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc4 in position 0: invalid continuation byte
一些字符編解碼技巧
unicode數(shù)字轉(zhuǎn)換為字符
把 unicode數(shù)字轉(zhuǎn)換為字符资锰, 使用函數(shù) chr()
, 比如:
>>> chr(50)
'2'
>>> chr(20013)
'中'
>>> chr(0x4e2d) # 0x開頭表示數(shù)字是16進(jìn)制
'中'
字符轉(zhuǎn)換為unicode數(shù)字
反過(guò)來(lái)敢课,要把 字符轉(zhuǎn)換為對(duì)應(yīng)的unicode數(shù)字,使用函數(shù) ord()
該函數(shù)參數(shù)字符串里面只能有一個(gè)字符
>>> ord('2')
50
>>> ord('中')
20013
字符串編碼為 unicode轉(zhuǎn)義數(shù)字
除了utf8台妆,gbk 還有一種常見的編碼方式翎猛,叫做 unicode-escape
胖翰,就是直接用unicode數(shù)字字符串表示字符接剩,如下所示
>>> '白月黑羽'.encode('unicode-escape')
b'\\u767d\\u6708\\u9ed1\\u7fbd'
用unicode轉(zhuǎn)義數(shù)字 寫字符串
>>> '\u767d\u6708\u9ed1\u7fbd'
'白月黑羽'
直接用16進(jìn)制數(shù)字創(chuàng)建 bytes
>>> b'\xb0\xd7\xd4\xc2\xba\xda\xd3\xf0'
b'\xb0\xd7\xd4\xc2\xba\xda\xd3\xf0'
>>> b'\xb0\xd7\xd4\xc2\xba\xda\xd3\xf0'.decode('gbk')
'白月黑羽'
字節(jié)串 和 16進(jìn)制表示字節(jié)的字符串
>>> a = b'hello,123'
>>> a.hex()
'68656c6c6f2c313233'
反向操作,把 16進(jìn)制表示字節(jié)的字符串 轉(zhuǎn)化為 字節(jié)串就是
>>> bytes.fromhex('68656c6c6f2c313233')
b'hello,123'