關(guān)于pyhton2.x中編碼問題的一點小理解

歡迎訪問個人博客：blog.spursgo.com

關(guān)于pyhton2.x中編碼問題的一點小理解

大約在一年前泪酱，當(dāng)時接觸pyhton爬蟲時（那時還是在Windows上開發(fā)學(xué)習(xí)）派殷，由于網(wǎng)頁中存在大量中文，自然不可避免的會涉及到編碼問題墓阀。剛剛?cè)腴T就遇到了python中的一個大麻煩：編碼問題毡惜，查了一些資料把手上的問題解決之后，就沒有去管編碼問題了斯撮。

一年后经伙，仍然習(xí)慣于python2.x。本來在macOS和ubuntu上寫得很順利得一個爬蟲程序勿锅，轉(zhuǎn)到windows 10上居然出現(xiàn)了大量的亂碼帕膜。

當(dāng)時真的很郁悶，為什么在其他操作系統(tǒng)上運行好好的程序粱甫，到Windows上就成這樣了呢泳叠？郁悶歸郁悶，問題還是要解決呀茶宵！

于是乎危纫，又開始和pyhton編碼問題打交道了。因為現(xiàn)在養(yǎng)成了寫博客的習(xí)慣乌庶，所以本次探究python編碼問題的過程我就詳細(xì)記錄了下來种蝶，以便以后再次遇到這個問題，可以很快的查看而不需要再次折騰瞒大。

各個擊破

1. Windows命令行的編碼

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

這是我程序中對pyhton腳本默認(rèn)編碼的處理螃征，python默認(rèn)的本來是ascii編碼，這里我改為了utf-8透敌。

因此盯滚，如果我在程序執(zhí)行這么一句：

print " "*25 + "〓個人博客：blog.spursgo.com〓"

那么踢械，打印出來的這句話就是默認(rèn)采用utf-8編碼格式，嗯哼魄藕，難道有什么不對嗎内列？
別忘了，我們還不知道Windows命令行窗口采取的編碼格式呢背率！
好的话瞧，趕快查閱一下！

右擊命令行窗口標(biāo)題欄--選擇屬性--點擊選項寝姿，之后我們會看到GBK的字樣：

2. 編碼格式介紹

哦交排，原來如此，我打印的是utf-8編碼格式饵筑，但是他卻采用gbk編碼格式埃篓，命令行窗口當(dāng)然不能正常顯示喏！

可能你覺得對python的各種編碼格式不是很了解翻翩，沒關(guān)系都许，網(wǎng)上有很多介紹編碼格式的文章，這里我推薦兩篇：

在Python中正確使用Unicode 這篇側(cè)重介紹在python中正確使用編碼

Python字符編碼詳解這篇側(cè)重介紹編碼格式

看完這兩篇文章后嫂冻，相信你會對pyhton中的編碼會有很深刻的認(rèn)識胶征。
這里，主要記錄一下我個人的一些理解和實驗操作：

2.1 python中的字節(jié)串和字符串

對java比較了解的同學(xué)桨仿，應(yīng)該會知道在java中不需要嚴(yán)格區(qū)分所謂的字節(jié)串和字符串睛低，java這門語言把編碼問題處理的非常好!
但是，在python2.x中服傍，這兩個概念卻是一定要理解的钱雷，不然各種編碼問題可能就會找上門來。
以下概念來自于自己的理解吹零，可能不是很嚴(yán)謹(jǐn)罩抗。
字節(jié)串：以字節(jié)為單位，它的每一個個體是字節(jié)灿椅，因此我們統(tǒng)計字節(jié)串的長度時套蒂，結(jié)果一定是所有字節(jié)的數(shù)量。

字符串：以字符為單位茫蛹，它的每一個個體是字符操刀，因此我們統(tǒng)計字符串的長度時，結(jié)果一定是所有字符的數(shù)量婴洼。

咦骨坑！怎么兩句話好像差不多? 是的，我們要區(qū)分的就是字符和字節(jié)：一個字符可以包含多個字節(jié)柬采。

說了這么多欢唾，還是來驗證一下吧：

len.png

從圖片中且警，我們可以可以清楚的看到，一個‘人’字礁遣，由于它的類型不一樣振湾，當(dāng)我們?nèi)￠L度時，得到的結(jié)果不一樣亡脸。
現(xiàn)在是不是對字節(jié)和字符有了更好的認(rèn)識了呢？

3. 編碼格式的互相轉(zhuǎn)換

decode ：解碼树酪，實現(xiàn)其他編碼格式到unicode的轉(zhuǎn)換
encode ：編碼浅碾，實現(xiàn)unicode到的轉(zhuǎn)換其他編碼格式

常見的其他編碼格式：utf-8,gbk,gb2312

這是有一個問題我們一定要重視：decode既然是其他編碼格式到unicode的轉(zhuǎn)換，達到解碼的目的续语，也就是說unicode本身不是一種編碼格式垂谢。因此，我們在進行編碼與解碼的時候疮茄，我們要弄清楚滥朱，這個被操作的對象是誰？否則力试，出現(xiàn)編碼問題的幾率會大大增加徙邻。

4. unicode的深刻理解

unicode實際上是一種字符集，神奇之處在于所有語言的字符都用這一種字符集來表示畸裳，它是全人類都承認(rèn)的一種統(tǒng)一標(biāo)準(zhǔn)缰犁。unicode映射了各種字符應(yīng)該用哪種方式來表示，而沒有指明具體的傳輸和儲存方式怖糊，這個工作是由utf來完成的帅容，如utf-8,utf-16。

5. 編碼解碼前后的差別

一個str類型的字節(jié)串解碼后就成了unicode的字符串伍伤，相反并徘，一個unicode類型的字符串解碼后就成了str的字節(jié)串。
以下是我的實驗代碼：

#coding:utf-8

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

country = '中國'
print type(country)
print country
country = country.decode('utf-8')
print type(country)
print country
country = country.encode('gbk')
print type(country)
print country

下面是執(zhí)行結(jié)果：

class.png

實驗結(jié)果很好的驗證了剛剛的結(jié)論扰魂。

6. 建議

6.1 更改文本編碼格式

#coding:utf-8

6.2 更改程序默認(rèn)編碼格式

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

6.3 盡可能的采用unicode作為過渡麦乞，輸出時編碼為需要的編碼格式

文/淺斟低唱

最后編輯于：2017.12.11 06:43:47

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市阅爽，隨后出現(xiàn)的幾起案子路幸，更是在濱河造成了極大的恐慌，老刑警劉巖付翁，帶你破解...
沈念sama閱讀 219,427評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件简肴，死亡現(xiàn)場離奇詭異，居然都是意外死亡百侧，警方通過查閱死者的電腦和手機砰识，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,551評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門能扒，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人辫狼，你說我怎么就攤上這事初斑。” “怎么了膨处？”我有些...
開封第一講書人閱讀 165,747評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵见秤，是天一觀的道長。經(jīng)常有香客問我真椿，道長鹃答，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,939評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任突硝，我火速辦了婚禮测摔，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘解恰。我一直安慰自己锋八，他們只是感情好，可當(dāng)我...
茶點故事閱讀 67,955評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布护盈。她就那樣靜靜地躺著挟纱，像睡著了一般。火紅的嫁衣襯著肌膚如雪黄琼。梳的紋絲不亂的頭發(fā)上樊销，一...
開封第一講書人閱讀 51,737評論 1贊 305
城市分裂傳說
那天，我揣著相機與錄音脏款，去河邊找鬼围苫。笑死，一個胖子當(dāng)著我的面吹牛撤师，可吹牛的內(nèi)容都是我干的剂府。我是一名探鬼主播，決...
沈念sama閱讀 40,448評論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼剃盾，長吁一口氣：“原來是場噩夢啊……” “哼腺占！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起痒谴，我...
開封第一講書人閱讀 39,352評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤衰伯，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后积蔚，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體意鲸，經(jīng)...
沈念sama閱讀 45,834評論 1贊 317
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,992評論 3贊 338
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了怎顾。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片读慎。...
茶點故事閱讀 40,133評論 1贊 351
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖槐雾，靈堂內(nèi)的尸體忽然破棺而出夭委，到底是詐尸還是另有隱情，我是刑警寧澤募强，帶...
沈念sama閱讀 35,815評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布株灸，位于F島的核電站，受9級特大地震影響擎值，放射性物質(zhì)發(fā)生泄漏蚂且。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,477評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一幅恋、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧泵肄，春花似錦捆交、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,022評論 0贊 22
一樁弒父案品追，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至冯丙，卻和暖如春肉瓦，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背胃惜。一陣腳步聲響...
開封第一講書人閱讀 33,147評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工泞莉，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人船殉。一個月前我還...
沈念sama閱讀 48,398評論 3贊 373
代替公主和親
正文我出身青樓鲫趁，卻偏偏與公主長得像，于是被迫代替她去往敵國和親利虫。傳聞我的和親對象是個殘疾皇子挨厚，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 45,077評論 2贊 355

關(guān)于pyhton2.x中編碼問題的一點小理解

關(guān)于pyhton2.x中編碼問題的一點小理解

各個擊破

1. Windows命令行的編碼

2. 編碼格式介紹

2.1 python中的字節(jié)串和字符串

3. 編碼格式的互相轉(zhuǎn)換

4. unicode的深刻理解

5. 編碼解碼前后的差別

6. 建議

6.1 更改文本編碼格式

6.2 更改程序默認(rèn)編碼格式

6.3 盡可能的采用unicode作為過渡麦乞，輸出時編碼為需要的編碼格式

推薦閱讀更多精彩內(nèi)容