對于很多接觸Python的人而言芬萍,字符的處理和語言整體的溫順可靠相比顯得格外桀驁不馴難以駕馭。
本文不談復(fù)雜的理論,就經(jīng)驗教你字符處理八字真言:確定編碼蜓谋,同類交互。
文章針對Python 2.7炭分,主要因為3對的編碼已經(jīng)有了很大的改善并且實際原理一樣桃焕,更改一下操作命令即可。
了解完本文捧毛,你可以輕松解決文字處理观堂,特殊平臺(Windows?)下的編碼,爬蟲編碼等問題呀忧。
閱讀建議
本文分為如下幾個部分:
- 原理
- 具體操作
- 建議的使用習(xí)慣
- 疑難問題解答
如果想要了解我給出的使用習(xí)慣师痕,可以直接跳到建議的使用習(xí)慣。
如果只想要解決相關(guān)問題可以直接跳到疑難問題解答而账。
希望本文能夠幫到你胰坟。
原理
為了理解方便,這里不談理論只做類比泞辐,具體想要進一步了解各種編碼的理論的搜狗一下好了笔横。
首先說一下我們?yōu)槭裁磿龅礁魇礁鳂拥木幋a問題:
- 因為我們沒有統(tǒng)一編碼
- 因為我們沒有用對命令(傳對數(shù)據(jù))
再說一下編碼是什么,Python的編碼看似復(fù)雜咐吼,實際上可以看做只有兩類編碼:Unicode吹缔,二進制
- Unicode 相信都很熟悉:,就是
\u0000
這樣的 - 二進制編碼也很簡單锯茄,就是
\x00\x00
這樣的厢塘,平巢杳唬看到的utf-8
,cp936
都是二進制編碼 - 二進制編碼是具象的,
10001100
原樣就可以存儲晚碾,而Unicode是抽象的抓半,不能這樣存
#coding=utf8
# Unicode編碼演示
print('Unicode:')
print(repr(u'Unicode編碼'))`
# 二進制編碼演示
print(u'二進制編碼:')
print(repr('Unicode編碼'))`
# 只是看個樣子,代碼不必去深究
再說怎么做格嘁,就是只有同種編碼之間才可以操作
- 舉個簡單的類比
就把一串?dāng)?shù)據(jù)比為烤鴨琅关,我們作為人和鴨子不同種看待烤鴨的態(tài)度完全不一樣。
我們看到的是晚上的配菜讥蔽,鴨子看到的是自己二舅涣易。
那么我在逛烤鴨店的時候用錯編碼就會報錯。
因為我在烤鴨店看到了滿世界的二舅冶伞。
- 這里說的同種就是我們熟悉的各種編碼方式:
utf-8
,unicode
,ucs-bom
- 這也就是編碼問題的核心逼侦,非常重要峡懈。
最后說一下Python的環(huán)境
- 本身代碼是用Ascii解碼的吨艇,文件里有Ascii無法解碼的內(nèi)容的話要告知Python怎么解碼
- 內(nèi)部大量命令都是默認接受Unicode
# 告知的命令就是下面這一行嘉蕾,刪掉就會報錯
#coding=utf8
print(u'測試編碼')
具體操作
拿到各種編碼的內(nèi)容自然是不用說,那么如果我們想要自己構(gòu)造怎么做呢芋类,看下面:
#coding=utf8
# 字符串前面加u會默認構(gòu)造出Unicode的字符串
unicodeString = u'Unicode字符串'
# 字符串前面什么都不加會構(gòu)造出默認編碼(首行限定了現(xiàn)在的utf8)的字符串
utf8String = 'Utf-8字符串'
# 當(dāng)然隆嗅,沒有首行,默認的編碼是Ascii
那么他們之間怎么轉(zhuǎn)換呢侯繁,同樣很簡單:
# 接上一段程序
# Unicode轉(zhuǎn)化為二進制編碼中的一種:utf8
unicodeString.encode('utf8')
# 二進制編碼根據(jù)自己的編碼種類轉(zhuǎn)化為Unicode
utf8String.decode('utf8')
# 如果二進制編碼中混進了奇怪的東西可以根據(jù)需求用特殊的decode策略
print(repr('u8字\x00符串'.decode('utf8', 'replace')))
那么怎么樣會出現(xiàn)問題呢:
# 接上一段程序
# 如果我們把他們轉(zhuǎn)化成同樣的編碼方式就可以操作(例如相加)
print(repr(unicodeString + utf8String.decode('utf8')))
print(repr(unicodeString.encode('utf8') + utf8String))
# 但如果不轉(zhuǎn)化胖喳,當(dāng)然就會出現(xiàn)滿世界的烤鴨二舅啦
unicodeString + utf8String
# 所以另一方面也發(fā)現(xiàn),編碼轉(zhuǎn)換是需要我們告訴程序怎么做的
# 所有`decode`操作都會生成Unicode編碼贮竟,這是為了方便我之前說的大量接受Unicode的內(nèi)部命令
所以我們需要確定程序使用的編碼丽焊,這是我們需要告訴程序的東西
- 一方面在操作字符串的時候確定是同種編碼
- 另一方面在使用非自己寫的命令時,一般使用Unicode咕别,或者使用接收二進制編碼的命令
#coding=utf8
# 這里拿寫入文件舉例
# 一般使用Unicode
with open('Unicode.txt', 'w') as f: f.write(u'Unicode測試')
# 或者使用接收二進制編碼的命令
with open('Utf8.txt', 'wb') as f: f.write('Utf8測試')
# 你可以反過來做個測試技健,自然會報錯
# 二進制的命令方便了在不知道怎么解碼的情況下也能進行操作(寫入文件)
我建議的使用習(xí)慣
相信到這里我已經(jīng)把我對于編碼的理解講完了。
我們?yōu)槭裁磿龅礁魇礁鳂拥木幋a問題:
- 因為我們沒有統(tǒng)一編碼
- 因為我們沒有用對命令(傳對數(shù)據(jù))
所以這里再重申一下八字真言:確定編碼惰拱,同類交互
- 碰到問題雌贱,問一下自己,我現(xiàn)在是哪種編碼
- 同一種編碼才能交互偿短,那我應(yīng)該是哪種編碼
這里給出我的使用習(xí)慣:
- 確定一種內(nèi)部編碼
- 內(nèi)部編碼的選擇優(yōu)先級如下:程序必須使用的編碼欣孤、第三方包使用的編碼、你喜歡的編碼翔冀、Unicode
- 在輸出時再更改到特定的編碼
記得在開始整個程序之前確定內(nèi)部的編碼导街,否則編碼一團糟會產(chǎn)生很多不必要的bug披泪。
不要迷信內(nèi)部Unicode纤子,例如Evernote開發(fā)就應(yīng)該根據(jù)第三方包使用的Utf8確定內(nèi)部編碼。
疑難問題解答
編碼識別
說了要確定編碼,那么拿到一串二進制要怎么確定編碼呢控硼?
最簡單的方法是chardet
:(需要安裝)
python -m pip install chardet
使用非常簡單:
#coding=utf8
from chardet import detect
print(detect('這是一串utf8的測試字符'))
# 結(jié)果:`{'confidence': 0.99, 'encoding': 'utf-8'}`
另外例如抓取網(wǎng)站泽论,那么頭文件中很有可能有提示如何解碼,記得不要忘記了卡乾。
編碼轉(zhuǎn)換
很可能因為字符串中參雜了奇怪的東西翼悴,導(dǎo)致即使編碼種類正確,依舊無法解碼幔妨。
我知道我之前講過了鹦赎,但可能有人直接跳疑難問題解答嘛。
這里可以使用decode
的第二個參數(shù):
#coding=utf8
# 字符串中混進了\x00
rubbishUtf8String = 'Utf-8字\x00符串'
print(repr(rubbishUtf8String.decode('utf8', 'replace')))
print(repr(rubbishUtf8String.decode('utf8', 'ignore')))
特殊平臺下編碼
很多人都說Windows是個坑误堡,即使在Python 3下面也一樣古话。
因為中文文件名出來都是亂碼。
這里使用一個取巧的方法:平臺編碼再特殊锁施,起碼命令行讀取和創(chuàng)建一個文件夾不會出亂碼吧陪踩。
import sys, os
for folder in os.walk('.').next()[1]:
print(folder.decode(sys.stdin.encoding))
同樣的輸入輸出也可以這樣做優(yōu)化:
import sys
def sys_print(msg):
print(msg.encode(sys.stdin.encoding))
def sys_input(msg):
return raw_input(msg.encode(sys.stdin.encoding)).decode(sys.stdin.encoding)
文件寫入
如果抓下來一個內(nèi)容不知道怎么解碼,但還是想要寫入文件怎么辦
寫入文件的時候制定用二進制命令即可:
#coding=utf8
import urllib
with open('Utf8.txt', 'wb') as f: f.write('Utf8測試')
# 比如抓了個網(wǎng)頁悉抵,不知道編碼也可以寫入文件進行一系列操作
content = urllib.urlopen('http://www.baidu.com').read()
with open('baidu.txt', 'wb') as f: f.write(content)
裸Unicode字符
Unicode存成六個Ascii字符怎么辦肩狂?其實也可以decode
#coding=utf8
# 這是普通的Unicode
s = u'測'
for i in s: print(i)
print(repr(s))
# 這是裸Unicode,實際存成了六個Ascii
s = repr(s)[2:-1]
for i in s: print(i)
print(repr(s))
# 轉(zhuǎn)化其實也很簡單
s = s.decode('unicode-escape')
for i in s: print(i)
print(repr(s))
結(jié)束語
希望讀完這篇文章能對你有幫助姥饰,有什么不足之處萬望指正(鞠躬)傻谁。
有什么想法或者想要關(guān)注我的更新,歡迎來Github上Star或者Fork我的項目列粪。
160623
LittleCoder
EOF