學(xué)習(xí):字符編碼

轉(zhuǎn)自:http://www.byhy.net/tut/py/basic/12/
點(diǎn)擊這里许饿,邊看視頻講解,邊學(xué)習(xí)以下內(nèi)容

我們眼睛看到的電腦上顯示的字,包括漢字渗钉、英文雌桑、日文敲才、韓文,這些文字悦昵,在計(jì)算機(jī)內(nèi)部是怎么存儲(chǔ)的?

難道是刻上去的晌畅? 比如刻在硬盤上一個(gè)個(gè)這樣的字但指?

當(dāng)然不是,計(jì)算機(jī)都是用數(shù)字存儲(chǔ)信息的抗楔。

用 磁場(chǎng)棋凳、電信號(hào) 等物理介質(zhì)的 正負(fù) 狀態(tài) 表示 0 和 1,如果一個(gè)數(shù)字只由0和1 表示连躏,就是一個(gè)2進(jìn)制的數(shù)字表示法剩岳。

用連續(xù)的0和1,就可以代表很大的數(shù)字入热。

比如

二進(jìn)制 的 10 就表示十進(jìn)制 的 2

二進(jìn)制 的 110 就表示十進(jìn)制 的 6

從右向左拍棕,每位 上的 1 分別代表 2的0次方(就是1), 2的1次方(就是2)勺良,2的2次方(就是4)绰播,2的3次方(就是8) 等等, 依次類推尚困。


根據(jù)不同的使用場(chǎng)合幅垮,數(shù)字可以表示不同的意義。

比如,需要存儲(chǔ) 顏色 信息的時(shí)候忙芒, 0 可以用來(lái)代表 白色示弓, 1 代表紅色, 2 代表 黑色等等呵萨。

如果有10000種顏色奏属,可以用 0 到 9999 一共 10000個(gè)數(shù)字分別代表他們。

同樣的潮峦, 我們要存儲(chǔ) 文字 信息囱皿,也可以用不同的數(shù)字來(lái)代表不同的文字。

字符集

點(diǎn)擊這里忱嘹,邊看視頻講解嘱腥,邊學(xué)習(xí)以下內(nèi)容

計(jì)算機(jī)是美國(guó)人發(fā)明的,所以在開始的時(shí)候拘悦, 他們也沒有想到將來(lái)要支持全世界的文字齿兔。

所以,最早的時(shí)候础米,他們定義了一個(gè)規(guī)范分苇,定義一些數(shù)字 用來(lái)代表美國(guó)人使用的文字符號(hào)。

而美國(guó)人的單詞都是用字母拼出來(lái)的屁桑, 所以他們常用的基礎(chǔ)文字符號(hào)比較少医寿。

就是字母,再加上 !@#$%^&*(){[]}+- 等等這些符號(hào)蘑斧,也就100多個(gè)靖秩。

他們定義的規(guī)范就叫 ASCII (American Standard Code for Information Interchange) ,中文大意就是 美國(guó)信息交換標(biāo)準(zhǔn)碼

大家可以參考 百度上面的ASCII表

這個(gè) ASCII 碼里面用128個(gè)數(shù)字代表了128個(gè)字符竖瘾。

要存儲(chǔ)和傳輸這 128個(gè)字符對(duì)應(yīng)的文字信息 也很簡(jiǎn)單盆偿, 二進(jìn)制有 8 位就足夠了。

因?yàn)?的8次方等于256准浴,可以存儲(chǔ) 從 0 到255 一共 256個(gè)數(shù)字事扭, 可以表示 最多 256 個(gè)文字符號(hào)。

二進(jìn)制有 8 位 的長(zhǎng)度 被稱為 一個(gè) 字節(jié) 乐横。

所以一個(gè)字節(jié)就可以存放 任何一個(gè)ASCII 文字符號(hào)求橄。

ASCII 這樣的 用數(shù)字代表文字符號(hào)的規(guī)范,就被稱之為 字符集

后來(lái)計(jì)算機(jī)傳遍了全世界葡公,其它國(guó)家的文字符號(hào)就多了罐农。

我們中文,就有這么多的文字符號(hào)催什。小學(xué)的時(shí)候涵亏,我們有個(gè)3000常用字表(我驕傲一下,小學(xué)1年級(jí)我就認(rèn)識(shí)了近2000多個(gè)字), 光常用字就有3千個(gè)气筋。

當(dāng)然還有 韓文拆内、日文、繁體中文宠默、阿拉伯文等等麸恍。

顯然ASCII是不夠的,我們需要其它的數(shù)字來(lái)代表這些文字符號(hào)搀矫。

開始各個(gè)國(guó)家和地區(qū) 自己定義了自己的 字符集抹沪。

比如我們中國(guó)就定義另外一套規(guī)范, 規(guī)定了 用什么樣的數(shù)字代表什么樣的文字符號(hào)瓤球。

這套規(guī)范也在不斷的升級(jí)融欧,包括 GB2312、GBK卦羡、GB18030

各個(gè)國(guó)家定義了各國(guó)的文字的字符集噪馏,這就帶來(lái)了一個(gè)問(wèn)題。

現(xiàn)在全球交流很密切虹茶,有時(shí)一篇文章會(huì)使用多國(guó)文字,比如 同時(shí)使用 日文和中文隅要。

而各國(guó)的字符集往往是不包含別國(guó)文字的蝴罪,比如 GBK就不會(huì)包含 日文。

這時(shí)就沒法在一篇文章中存儲(chǔ)多國(guó)文字了步清。

為了解決這個(gè)問(wèn)題要门。 國(guó)際標(biāo)準(zhǔn)化組織定義了一個(gè)字符集,想包括世界上所有的文字符號(hào)廓啊。

這就是大名鼎鼎的 unicode 字符集欢搜。

這個(gè)字符集里面包括了現(xiàn)今世界上的常用文字符號(hào) 和 其對(duì)應(yīng)的數(shù)字表示。

這樣就解決了在一篇文章中包含多國(guó)文字的問(wèn)題了谴轮。

字符編碼

點(diǎn)擊這里炒瘟,邊看視頻講解,邊學(xué)習(xí)以下內(nèi)容

unicode 出現(xiàn)了第步,很好疮装,但是還有一個(gè)問(wèn)題。 字符怎么存儲(chǔ)和傳輸粘都。

由于歷史原因廓推,計(jì)算機(jī)是 以字節(jié)為單位 來(lái) 存儲(chǔ)和傳輸數(shù)據(jù)的,一個(gè)字節(jié) 由 8位二進(jìn)制數(shù)字表示翩隧,最多可以表示從0到255樊展, 一共256個(gè)字符。

最初只有ASCII碼的時(shí)候,一個(gè)字節(jié) 就可以存儲(chǔ)傳輸任何文字专缠。

但是unicode里面有10多萬(wàn)的文字符號(hào)雷酪,數(shù)字范圍 遠(yuǎn)遠(yuǎn) 超過(guò) 一個(gè)字節(jié)所能代表的數(shù)字。

所以一個(gè)字節(jié)不夠藤肢。

那么怎么用多個(gè)字節(jié)來(lái) 表示這些數(shù)字呢太闺?

這就有需要另外的規(guī)范。這些 如何用字節(jié)表示 字符對(duì)應(yīng)的數(shù)字 就是 字符編碼 規(guī)范

unicode字符 的編碼嘁圈,最常用的規(guī)范是 UTF8 和 UTF16 省骂。

比如 UTF8 表示 中文字符 ,就是用 3個(gè)字節(jié)表示的最住,對(duì)應(yīng)的16進(jìn)制表示是 E4 钞澳、BD、 A0

當(dāng)然我們中文字符集gb系列使用另外的編碼規(guī)范涨缚。

以后轧粟,我們會(huì)寫一篇文章,以UTF8為例脓魏,講解它是如何用多個(gè)字節(jié)存儲(chǔ) 數(shù)字的兰吟。

這里我們只要知道 不同的 編碼規(guī)范 對(duì)數(shù)字有不同的 用字節(jié)表示的方法就行了。

有了編碼規(guī)范茂翔,字符集 中的數(shù)字就可以轉(zhuǎn)化為字節(jié)進(jìn)行存儲(chǔ)和傳輸了混蔼。下面是學(xué)習(xí)視頻

Python3 的字符編碼和解碼

點(diǎn)擊這里,邊看視頻講解珊燎,邊學(xué)習(xí)以下內(nèi)容

字符串編碼

我們Python3語(yǔ)言里面的字符串對(duì)象是unicode字符串惭嚣,在內(nèi)存中實(shí)際存儲(chǔ)時(shí),使用的是 UTF16 編碼悔政。

但是我們通常不會(huì)將UTF16編碼的內(nèi)容寫到磁盤或者在網(wǎng)絡(luò)進(jìn)行傳輸晚吞, 因?yàn)閡tf16編碼比較浪費(fèi)空間。

特別是如果文字信息基本都是英文符號(hào)的情況下谋国, utf16 都會(huì)用2個(gè)字節(jié)來(lái)代表英文符號(hào)槽地。 一個(gè)字節(jié)其實(shí)就夠了。

所以芦瘾,Python語(yǔ)言要對(duì)字符串對(duì)象 進(jìn)行存儲(chǔ)和傳輸?shù)臅r(shí)候闷盔,通常要使用字符串的encode方法,參數(shù)指定編碼方式旅急,編碼為一個(gè) bytes 對(duì)象逢勾。

bytes對(duì)象的底層就是用一個(gè)個(gè)的字節(jié)來(lái)存儲(chǔ)字符串中的文字的。

同樣的字符串藐吮,用不同的編碼方式溺拱,有時(shí)會(huì)產(chǎn)生不同的bytes結(jié)果逃贝。

比如

print ('你好'.encode('utf8')) # 輸出 b'\xe4\xbd\xa0\xe5\xa5\xbd'
print ('你好'.encode('gbk'))  # 輸出 b'\xc4\xe3\xba\xc3'

輸出內(nèi)容 中 b 開頭,表示這是一個(gè) 字節(jié)串bytes 對(duì)象

\x 說(shuō)明是用16進(jìn)制表示一個(gè)字節(jié)

你好 兩個(gè)字迫摔,使用 utf8 編碼 后的字節(jié)串沐扳,用16進(jìn)制來(lái)表示 就是6個(gè)字節(jié) e4bda0 e5a5bd

e4bda0 對(duì)應(yīng) 你
e5a5bd 對(duì)應(yīng) 好

你好 兩個(gè)字,使用 gbk 編碼 后的字節(jié)串句占,用16進(jìn)制來(lái)表示 卻是4個(gè)字節(jié) c4e3 bac3

c4e3 對(duì)應(yīng) 你
bac3 對(duì)應(yīng) 好

encode方法返回的是編碼后的字節(jié)串對(duì)象bytes 編碼為字節(jié)串對(duì)象 bytes 就可存儲(chǔ)到文件或者傳輸?shù)骄W(wǎng)絡(luò)中去了沪摄。 我們后面的學(xué)習(xí)會(huì)講如何進(jìn)行文件存儲(chǔ)和網(wǎng)絡(luò)傳輸

字節(jié)串解碼

當(dāng)我們的Python程序從文件中讀入文字信息, 從網(wǎng)絡(luò)上接收 文字信息纱烘,獲取的數(shù)據(jù)通常是使用某種字符編碼后的 字節(jié)串杨拐。

程序通常需要解碼這些 字節(jié)串字符串 ,這樣才方便程序 理解和處理 字符信息擂啥。

Python語(yǔ)言的解碼 都是解碼成 unicode字符串對(duì)象哄陶。

要解碼字節(jié)串,必須要知道這個(gè)字節(jié)串是用什么字符編碼的方式進(jìn)行編碼的哺壶。

如果知道了屋吨,就可以用字節(jié)串對(duì)象的decode方法 進(jìn)行解碼,參數(shù)指定了編碼方式

比如

print(b'\xe4\xbd\xa0\xe5\xa5\xbd'.decode('utf8'))
print(b'\xc4\xe3\xba\xc3'.decode('gbk'))

上面的兩行代碼都可以解碼出 字符串 ‘你好’

如果不小心寫錯(cuò)了參數(shù)指定的編碼方式山宾,就可能返回錯(cuò)誤解碼結(jié)果 至扰, 比如

print(b'\xe4\xbd\xa0\xe5\xa5\xbd'.decode('gbk'))
返回 浣犲ソ

或者解碼失敗報(bào)錯(cuò),比如

print(b'\xc4\xe3\xba\xc3'.decode('utf8'))

報(bào)如下錯(cuò)誤:
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc4 in position 0: invalid continuation byte

一些字符編解碼技巧

unicode數(shù)字轉(zhuǎn)換為字符

把 unicode數(shù)字轉(zhuǎn)換為字符资锰, 使用函數(shù) chr() , 比如:

>>> chr(50)
'2'
>>> chr(20013)
'中'
>>> chr(0x4e2d)  # 0x開頭表示數(shù)字是16進(jìn)制
'中'

字符轉(zhuǎn)換為unicode數(shù)字

反過(guò)來(lái)敢课,要把 字符轉(zhuǎn)換為對(duì)應(yīng)的unicode數(shù)字,使用函數(shù) ord()

該函數(shù)參數(shù)字符串里面只能有一個(gè)字符

>>> ord('2')
50
>>> ord('中')
20013

字符串編碼為 unicode轉(zhuǎn)義數(shù)字

除了utf8台妆,gbk 還有一種常見的編碼方式翎猛,叫做 unicode-escape 胖翰,就是直接用unicode數(shù)字字符串表示字符接剩,如下所示

>>> '白月黑羽'.encode('unicode-escape')
b'\\u767d\\u6708\\u9ed1\\u7fbd'

用unicode轉(zhuǎn)義數(shù)字 寫字符串

>>> '\u767d\u6708\u9ed1\u7fbd'
'白月黑羽'

直接用16進(jìn)制數(shù)字創(chuàng)建 bytes

>>> b'\xb0\xd7\xd4\xc2\xba\xda\xd3\xf0'
b'\xb0\xd7\xd4\xc2\xba\xda\xd3\xf0'

>>> b'\xb0\xd7\xd4\xc2\xba\xda\xd3\xf0'.decode('gbk')
'白月黑羽'

字節(jié)串 和 16進(jìn)制表示字節(jié)的字符串

>>> a = b'hello,123'
>>> a.hex()
'68656c6c6f2c313233'

反向操作,把 16進(jìn)制表示字節(jié)的字符串 轉(zhuǎn)化為 字節(jié)串就是

>>> bytes.fromhex('68656c6c6f2c313233')
b'hello,123'
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末萨咳,一起剝皮案震驚了整個(gè)濱河市懊缺,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌培他,老刑警劉巖鹃两,帶你破解...
    沈念sama閱讀 219,490評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異舀凛,居然都是意外死亡俊扳,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,581評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門猛遍,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)馋记,“玉大人号坡,你說(shuō)我怎么就攤上這事√菪眩” “怎么了宽堆?”我有些...
    開封第一講書人閱讀 165,830評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)茸习。 經(jīng)常有香客問(wèn)我畜隶,道長(zhǎng),這世上最難降的妖魔是什么号胚? 我笑而不...
    開封第一講書人閱讀 58,957評(píng)論 1 295
  • 正文 為了忘掉前任籽慢,我火速辦了婚禮,結(jié)果婚禮上涕刚,老公的妹妹穿的比我還像新娘嗡综。我一直安慰自己,他們只是感情好杜漠,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,974評(píng)論 6 393
  • 文/花漫 我一把揭開白布极景。 她就那樣靜靜地躺著,像睡著了一般驾茴。 火紅的嫁衣襯著肌膚如雪盼樟。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,754評(píng)論 1 307
  • 那天锈至,我揣著相機(jī)與錄音晨缴,去河邊找鬼。 笑死峡捡,一個(gè)胖子當(dāng)著我的面吹牛击碗,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播们拙,決...
    沈念sama閱讀 40,464評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼稍途,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了砚婆?” 一聲冷哼從身側(cè)響起械拍,我...
    開封第一講書人閱讀 39,357評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎装盯,沒想到半個(gè)月后坷虑,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,847評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡埂奈,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,995評(píng)論 3 338
  • 正文 我和宋清朗相戀三年迄损,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片账磺。...
    茶點(diǎn)故事閱讀 40,137評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡芹敌,死狀恐怖共屈,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情党窜,我是刑警寧澤拗引,帶...
    沈念sama閱讀 35,819評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站幌衣,受9級(jí)特大地震影響矾削,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜豁护,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,482評(píng)論 3 331
  • 文/蒙蒙 一哼凯、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧楚里,春花似錦断部、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,023評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至达址,卻和暖如春蔑祟,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背沉唠。 一陣腳步聲響...
    開封第一講書人閱讀 33,149評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工疆虚, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人满葛。 一個(gè)月前我還...
    沈念sama閱讀 48,409評(píng)論 3 373
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像嘀韧,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子乳蛾,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,086評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容