python編碼問題

為什么想講這個(gè)問題讲仰?主要是最近自己遇到這個(gè)問題檐什,然后就是把自己看到的一起交流一下。

記得我們?cè)谧x取文件內(nèi)容的時(shí)候深夯,老是會(huì)涉及到編碼解碼的問題抖格,特別是有的文件內(nèi)容常用的編碼還不支持,這就令人非常的煩咕晋。下面列出一行常用的讀取文件內(nèi)容代碼雹拄。

with open('a.txt','r',encoding='utf-8') as pp:

這里面主要是三個(gè)參數(shù),第一個(gè)是文件名掌呜,第二個(gè)是只讀的方式打開文件滓玖,第三個(gè)是編碼解碼格式,為什么我要說是編碼解碼格式呢质蕉?先來普及一下基本的知識(shí)势篡。

字節(jié)和字符翩肌;字符是人類所能識(shí)別的基礎(chǔ)單元,比如英文單詞‘love’,這個(gè)單詞是由四個(gè)字母組成禁悠,四個(gè)字母中每個(gè)字母都代表我們能識(shí)別的字符單元念祭,同理中文‘你好’,你和好分別代表2個(gè)字符單元。字符大致就可以這樣簡(jiǎn)單的理解绷蹲;那么字節(jié)呢棒卷?我們都知道計(jì)算機(jī)中所能識(shí)別的都是二進(jìn)制位顾孽,也就是0-1串祝钢,一個(gè)字節(jié)就代表8位二進(jìn)制位。

字節(jié)和字符又是怎么聯(lián)系到一起呢若厚?簡(jiǎn)單的說就是怎么把人類語言轉(zhuǎn)變成計(jì)算機(jī)能讀懂的語言拦英,編碼這個(gè)時(shí)候就應(yīng)運(yùn)而生了,編碼方式的差異決定多少字節(jié)代表一個(gè)字符测秸,比如以前常見的ASCII就是一個(gè)字節(jié)對(duì)應(yīng)一個(gè)字符疤估,相當(dāng)于我制定了一個(gè)規(guī)則,然后你按照這個(gè)規(guī)則將文字(字符)轉(zhuǎn)換成計(jì)算機(jī)能理解的東西(字節(jié))霎冯。解碼呢铃拇?就是編碼的逆過程,用相應(yīng)編碼的規(guī)則將計(jì)算機(jī)內(nèi)的東西(字節(jié))轉(zhuǎn)換成人類理解的東西(文字).

編碼:字符到字節(jié)的轉(zhuǎn)換

解碼:字節(jié)到字符的轉(zhuǎn)換

把這兩個(gè)過程運(yùn)用到文件的讀取中更好理解沈撞。計(jì)算機(jī)讀取文本和寫入文本的方式是字節(jié)流慷荔,讀取文件的時(shí)候,把字節(jié)流轉(zhuǎn)換成字符缠俺,實(shí)際上就是解碼過程显晶,同時(shí),將字符寫到文件中去壹士,實(shí)際上就是編碼過程磷雇。

有的人可能說,我怎么記得python中讀取文件的時(shí)候躏救,解碼后的字符都是unicode編碼唯笙,這又是怎么回事?我查了下別人說的優(yōu)勢(shì)盒使,有以下三點(diǎn):

1.可以處理非英文內(nèi)容

2.可以使用第三方庫

3.接收任何的輸入內(nèi)容

相當(dāng)于字節(jié)流解碼變成unicode編碼的字符崩掘,unicode字符作為python內(nèi)部處理通用字符,最后編碼變成其他字符忠怖。

順便提一句呢堰,前面的with方法中無論讀取還是寫入,都是encoding變量后面填參數(shù)凡泣,讀取對(duì)應(yīng)就是解碼方式枉疼,寫入對(duì)應(yīng)編碼方式皮假,python3默認(rèn)編碼方式是utf-8。

關(guān)于unicode的詳細(xì)介紹以及編碼的演變可以點(diǎn)擊下面的鏈接:

編碼演變歷史

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末骂维,一起剝皮案震驚了整個(gè)濱河市惹资,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌航闺,老刑警劉巖褪测,帶你破解...
    沈念sama閱讀 218,607評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異潦刃,居然都是意外死亡侮措,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,239評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門乖杠,熙熙樓的掌柜王于貴愁眉苦臉地迎上來分扎,“玉大人,你說我怎么就攤上這事胧洒∥废牛” “怎么了?”我有些...
    開封第一講書人閱讀 164,960評(píng)論 0 355
  • 文/不壞的土叔 我叫張陵卫漫,是天一觀的道長(zhǎng)菲饼。 經(jīng)常有香客問我,道長(zhǎng)列赎,這世上最難降的妖魔是什么宏悦? 我笑而不...
    開封第一講書人閱讀 58,750評(píng)論 1 294
  • 正文 為了忘掉前任,我火速辦了婚禮粥谬,結(jié)果婚禮上肛根,老公的妹妹穿的比我還像新娘。我一直安慰自己漏策,他們只是感情好派哲,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,764評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著掺喻,像睡著了一般芭届。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上感耙,一...
    開封第一講書人閱讀 51,604評(píng)論 1 305
  • 那天褂乍,我揣著相機(jī)與錄音,去河邊找鬼即硼。 笑死逃片,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的只酥。 我是一名探鬼主播褥实,決...
    沈念sama閱讀 40,347評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼呀狼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了损离?” 一聲冷哼從身側(cè)響起哥艇,我...
    開封第一講書人閱讀 39,253評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎僻澎,沒想到半個(gè)月后貌踏,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,702評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡窟勃,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,893評(píng)論 3 336
  • 正文 我和宋清朗相戀三年祖乳,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片拳恋。...
    茶點(diǎn)故事閱讀 40,015評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡凡资,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出谬运,到底是詐尸還是另有隱情,我是刑警寧澤垦藏,帶...
    沈念sama閱讀 35,734評(píng)論 5 346
  • 正文 年R本政府宣布梆暖,位于F島的核電站,受9級(jí)特大地震影響掂骏,放射性物質(zhì)發(fā)生泄漏轰驳。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,352評(píng)論 3 330
  • 文/蒙蒙 一弟灼、第九天 我趴在偏房一處隱蔽的房頂上張望级解。 院中可真熱鬧,春花似錦田绑、人聲如沸勤哗。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,934評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽芒划。三九已至,卻和暖如春欧穴,著一層夾襖步出監(jiān)牢的瞬間民逼,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,052評(píng)論 1 270
  • 我被黑心中介騙來泰國打工涮帘, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留拼苍,地道東北人伊磺。 一個(gè)月前我還...
    沈念sama閱讀 48,216評(píng)論 3 371
  • 正文 我出身青樓社付,卻偏偏與公主長(zhǎng)得像穿挨,于是被迫代替她去往敵國和親袱讹。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,969評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容

  • 幾個(gè)基本概念 bit二進(jìn)制位棚点, 是計(jì)算機(jī)內(nèi)部數(shù)據(jù)儲(chǔ)存的最小單位早处,11010100是一個(gè)8位二進(jìn)制數(shù)。一個(gè)二進(jìn)制位只...
    西電大俠閱讀 3,571評(píng)論 1 8
  • 閱讀python源代碼的時(shí)候不難發(fā)現(xiàn)許多文件開頭都有這樣一行內(nèi)容: 如果想在python中使用中文瘫析,這樣的一行聲明...
    Fengya閱讀 756評(píng)論 0 50
  • 字符是用戶可以讀寫的最小單位贬循。計(jì)算機(jī)所能支持的字符組成的集合咸包,就叫做字符集。字符集通常以二維表的形式存在杖虾。二維表的...
    劉惜有閱讀 8,116評(píng)論 2 14
  • 字符集和編碼簡(jiǎn)介 在編程中常忱锰保可以見到各種字符集和編碼,包括ASCII,MBCS,Unicode等字符集奇适。確切的說...
    蘭山小亭閱讀 8,494評(píng)論 0 13
  • 文/林江影月 01. 今天讀的是《追風(fēng)箏的人》第4到6章嚷往。 這篇讀后感是我在看到內(nèi)容簡(jiǎn)介的之后寫出來的葛账,稍后我會(huì)再...
    林江影月閱讀 599評(píng)論 0 1