關(guān)于pyhton2.x中編碼問題的一點小理解

歡迎訪問個人博客:blog.spursgo.com

關(guān)于pyhton2.x中編碼問題的一點小理解

大約在一年前泪酱,當(dāng)時接觸pyhton爬蟲時(那時還是在Windows上開發(fā)學(xué)習(xí))派殷,由于網(wǎng)頁中存在大量中文,自然不可避免的會涉及到編碼問題墓阀。剛剛?cè)腴T就遇到了python中的一個大麻煩:編碼問題毡惜,查了一些資料把手上的問題解決之后,就沒有去管編碼問題了斯撮。

一年后经伙,仍然習(xí)慣于python2.x。本來在macOS和ubuntu上寫得很順利得一個爬蟲程序勿锅,轉(zhuǎn)到windows 10上居然出現(xiàn)了大量的亂碼帕膜。


當(dāng)時真的很郁悶,為什么在其他操作系統(tǒng)上運行好好的程序粱甫,到Windows上就成這樣了呢泳叠?郁悶歸郁悶,問題還是要解決呀茶宵!

于是乎危纫,又開始和pyhton編碼問題打交道了。因為現(xiàn)在養(yǎng)成了寫博客的習(xí)慣乌庶,所以本次探究python編碼問題的過程我就詳細(xì)記錄了下來种蝶,以便以后再次遇到這個問題,可以很快的查看而不需要再次折騰瞒大。

各個擊破

1. Windows命令行的編碼

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

這是我程序中對pyhton腳本默認(rèn)編碼的處理螃征,python默認(rèn)的本來是ascii編碼,這里我改為了utf-8透敌。

因此盯滚,如果我在程序執(zhí)行這么一句:

print " "*25 + "〓個人博客:blog.spursgo.com〓"

那么踢械,打印出來的這句話就是默認(rèn)采用utf-8編碼格式,嗯哼魄藕,難道有什么不對嗎内列?
別忘了,我們還不知道Windows命令行窗口采取的編碼格式呢背率!
好的话瞧,趕快查閱一下!

右擊命令行窗口標(biāo)題欄--選擇屬性--點擊選項寝姿,之后我們會看到GBK的字樣:


2. 編碼格式介紹

哦交排,原來如此,我打印的是utf-8編碼格式饵筑,但是他卻采用gbk編碼格式埃篓,命令行窗口當(dāng)然不能正常顯示喏!

可能你覺得對python的各種編碼格式不是很了解翻翩,沒關(guān)系都许,網(wǎng)上有很多介紹編碼格式的文章,這里我推薦兩篇:

在Python中正確使用Unicode 這篇側(cè)重介紹在python中正確使用編碼

Python字符編碼詳解 這篇側(cè)重介紹編碼格式

看完這兩篇文章后嫂冻,相信你會對pyhton中的編碼會有很深刻的認(rèn)識胶征。
這里,主要記錄一下我個人的一些理解和實驗操作:

2.1 python中的字節(jié)串和字符串

對java比較了解的同學(xué)桨仿,應(yīng)該會知道在java中不需要嚴(yán)格區(qū)分所謂的字節(jié)串和字符串睛低,java這門語言把編碼問題處理的非常好!
但是,在python2.x中服傍,這兩個概念卻是一定要理解的钱雷,不然各種編碼問題可能就會找上門來。
以下概念來自于自己的理解吹零,可能不是很嚴(yán)謹(jǐn)罩抗。
字節(jié)串:以字節(jié)為單位,它的每一個個體是字節(jié)灿椅,因此我們統(tǒng)計字節(jié)串的長度時套蒂,結(jié)果一定是所有字節(jié)的數(shù)量。

字符串:以字符為單位茫蛹,它的每一個個體是字符操刀,因此我們統(tǒng)計字符串的長度時,結(jié)果一定是所有字符的數(shù)量婴洼。

咦骨坑!怎么兩句話好像差不多? 是的,我們要區(qū)分的就是字符和字節(jié):一個字符可以包含多個字節(jié)柬采。

說了這么多欢唾,還是來驗證一下吧:

len.png

從圖片中且警,我們可以可以清楚的看到,一個‘人’字礁遣,由于它的類型不一樣振湾,當(dāng)我們?nèi)¢L度時,得到的結(jié)果不一樣亡脸。
現(xiàn)在是不是對字節(jié)和字符有了更好的認(rèn)識了呢?

3. 編碼格式的互相轉(zhuǎn)換

decode :解碼树酪,實現(xiàn)其他編碼格式到unicode的轉(zhuǎn)換
encode :編碼浅碾,實現(xiàn)unicode到的轉(zhuǎn)換其他編碼格式

常見的其他編碼格式:utf-8,gbk,gb2312

這是有一個問題我們一定要重視:decode既然是其他編碼格式到unicode的轉(zhuǎn)換,達到解碼的目的续语,也就是說unicode本身不是一種編碼格式垂谢。因此,我們在進行編碼與解碼的時候疮茄,我們要弄清楚滥朱,這個被操作的對象是誰?否則力试,出現(xiàn)編碼問題的幾率會大大增加徙邻。

4. unicode的深刻理解

unicode實際上是一種字符集,神奇之處在于所有語言的字符都用這一種字符集來表示畸裳,它是全人類都承認(rèn)的一種統(tǒng)一標(biāo)準(zhǔn)缰犁。unicode映射了各種字符應(yīng)該用哪種方式來表示,而沒有指明具體的傳輸和儲存方式怖糊,這個工作是由utf來完成的帅容,如utf-8,utf-16。

5. 編碼解碼前后的差別

一個str類型的字節(jié)串解碼后就成了unicode的字符串伍伤,相反并徘,一個unicode類型的字符串解碼后就成了str的字節(jié)串。
以下是我的實驗代碼:

#coding:utf-8

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

country = '中國'
print type(country)
print country
country = country.decode('utf-8')
print type(country)
print country
country = country.encode('gbk')
print type(country)
print country

下面是執(zhí)行結(jié)果:

class.png

實驗結(jié)果很好的驗證了剛剛的結(jié)論扰魂。

6. 建議

6.1 更改文本編碼格式

#coding:utf-8

6.2 更改程序默認(rèn)編碼格式

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

6.3 盡可能的采用unicode作為過渡麦乞,輸出時編碼為需要的編碼格式

文/淺斟低唱

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市阅爽,隨后出現(xiàn)的幾起案子路幸,更是在濱河造成了極大的恐慌,老刑警劉巖付翁,帶你破解...
    沈念sama閱讀 219,427評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件简肴,死亡現(xiàn)場離奇詭異,居然都是意外死亡百侧,警方通過查閱死者的電腦和手機砰识,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,551評論 3 395
  • 文/潘曉璐 我一進店門能扒,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人辫狼,你說我怎么就攤上這事初斑。” “怎么了膨处?”我有些...
    開封第一講書人閱讀 165,747評論 0 356
  • 文/不壞的土叔 我叫張陵见秤,是天一觀的道長。 經(jīng)常有香客問我真椿,道長鹃答,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,939評論 1 295
  • 正文 為了忘掉前任突硝,我火速辦了婚禮测摔,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘解恰。我一直安慰自己锋八,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,955評論 6 392
  • 文/花漫 我一把揭開白布护盈。 她就那樣靜靜地躺著挟纱,像睡著了一般。 火紅的嫁衣襯著肌膚如雪黄琼。 梳的紋絲不亂的頭發(fā)上樊销,一...
    開封第一講書人閱讀 51,737評論 1 305
  • 那天,我揣著相機與錄音脏款,去河邊找鬼围苫。 笑死,一個胖子當(dāng)著我的面吹牛撤师,可吹牛的內(nèi)容都是我干的剂府。 我是一名探鬼主播,決...
    沈念sama閱讀 40,448評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼剃盾,長吁一口氣:“原來是場噩夢啊……” “哼腺占!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起痒谴,我...
    開封第一講書人閱讀 39,352評論 0 276
  • 序言:老撾萬榮一對情侶失蹤衰伯,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后积蔚,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體意鲸,經(jīng)...
    沈念sama閱讀 45,834評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,992評論 3 338
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了怎顾。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片读慎。...
    茶點故事閱讀 40,133評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖槐雾,靈堂內(nèi)的尸體忽然破棺而出夭委,到底是詐尸還是另有隱情,我是刑警寧澤募强,帶...
    沈念sama閱讀 35,815評論 5 346
  • 正文 年R本政府宣布株灸,位于F島的核電站,受9級特大地震影響擎值,放射性物質(zhì)發(fā)生泄漏蚂且。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,477評論 3 331
  • 文/蒙蒙 一幅恋、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧泵肄,春花似錦捆交、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,022評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至冯丙,卻和暖如春肉瓦,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背胃惜。 一陣腳步聲響...
    開封第一講書人閱讀 33,147評論 1 272
  • 我被黑心中介騙來泰國打工泞莉, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人船殉。 一個月前我還...
    沈念sama閱讀 48,398評論 3 373
  • 正文 我出身青樓鲫趁,卻偏偏與公主長得像,于是被迫代替她去往敵國和親利虫。 傳聞我的和親對象是個殘疾皇子挨厚,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,077評論 2 355

推薦閱讀更多精彩內(nèi)容

  • 字符集和編碼簡介 在編程中常常可以見到各種字符集和編碼糠惫,包括ASCII,MBCS,Unicode等字符集疫剃。確切的說...
    蘭山小亭閱讀 8,498評論 0 13
  • 可以看我的博客 lmwen.top 或者訂閱我的公眾號 簡介有稍微接觸python的人就會知道,python中...
    ayuLiao閱讀 3,119評論 1 5
  • 編碼問題一直困擾著開發(fā)人員硼讽,尤其在 Java 中更加明顯巢价,因為 Java 是跨平臺語言,不同平臺之間編碼之間的切換...
    x360閱讀 2,480評論 1 20
  • 大概每個人在使用軟件時都遇到過亂碼的問題,這是由于字符的編碼和解碼方式不一致導(dǎo)致蹄溉,我們知道計算機只認(rèn)識二進制數(shù)據(jù)咨油,...
    楚客閱讀 1,427評論 1 9
  • 現(xiàn)在越來越多的創(chuàng)業(yè)公司都想找全棧工程師,因此市場上就出現(xiàn)了很多偽全棧工程師柒爵,特別是學(xué)會了Node的前端工程師役电,前端...
    offbye西濤閱讀 4,962評論 35 75