默認編碼
字符串
python2 文本字符串默認編碼是ASCII罐脊,中文默認UTF-8
python3 文本字符串默認編碼是Unicode
解釋器
python2 解釋器編碼默認是ASCII
python3 解釋器編碼默認是UTF-8
encode\decode
非Unicode 進行 decode
返回Unicode
Unicode 進行 encode
返回非Unicode
寫入文件
"w"
python3
- "w"只能寫Unicode
python2
- "w" 方法可以寫入Unicode和非Unicode
- "w" 方法如果寫入Unicode會自動轉(zhuǎn)成解釋器的默認編碼手销。
想使用python2寫入中文
必須是Unicode的中文
1.修改解釋器編碼為utf-8廊佩,這樣就可以處理包含中文的Unicode字符串寫入了
# coding:utf-8
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
a = u"世界"
with open('utf8.txt','w') as f:
f.write(a)
注意:使用這種方法請不要使用pycharm缤至,原生python2.7中會有這個方法碎绎,但是pycharm把這個方法屏蔽了
- 使用codecs模塊寫入文件略步,將Unicode字符串按encoding參數(shù)指定的編碼寫入:
# coding:utf-8
import codecs
unicode_str = u"世界"
with codecs.open("hello.txt", "w", encoding="utf-8") as :
f.write(unicode_str)
"w" 方法寫入非Unicode,英文會直接寫入盯滚,中文只能在使用上面的方法一才能寫入踢械。
例如已經(jīng)將Unicode.decode("utf-8"),就寫入utf-8。
"wb"
python3
- "wb" 方法只能寫入非Unicode
python2
- "wb"方法只能寫入非Unicode字符串("utf-8"魄藕、"GBK"等)
讀取文件
"r"
- python3 r 讀出來的是Unicode
- python2 r讀出來的是非Unicode
"rb"
- python3 rb 讀出來的非Unicode
- python2 rb 讀出來的是非Unicode
查看系統(tǒng)默認編碼
import sys
# 打印出系統(tǒng)默認編碼方式
print(sys.getdefaultencoding())
修改默認編碼
# 修改系統(tǒng)默認編碼
sys.setdefaultencoding('utf8')
類Unicode字符串轉(zhuǎn)換成Unicode字符串
將一個類Unicode字符串(長得像Unicode内列,但是它是個普通字符串),解碼為真正的Unicode
# python2中
s = "\u4f60\u597d\u4e16\u75c"
# 這樣操作它就變成真正的Unicode
unicodee_str = s.decode("unicode-escape")
print(unicodee_str) # u"\u4f60\u597d\u4e16\u75c"
注意:不管python2還是python3 遇到類Unicode碼(類似于這種"\u4f60\u597d\u4e16\u75c"
)它其實是長得像Unicode碼的Unicode碼背率;
先變成非Unicode话瞧,之后再decode("unicode-escape"),可以將類Unicode變成Unicode碼寝姿。
Json化寫入文件
將字典json化保存成系統(tǒng)指定編碼
如果python2會將unicode字符串編碼成ascii保存成文件交排,這時候就需要兩步
- 指定編碼寫入
json.dumps(字典,ensure_ascii=False)
# coding:utf-8
class TencentPipeline(object):
def open_spider(self,spider):
# 按指定編碼保存文件
self.f = codecs.open("tencent.json", "w",encoding='utf-8')
def process_item(self,item,spider):
# ensure_ascii=False不以ascii編碼保存文件
json_str = json.dumps(dict(item),ensure_ascii=False) + ',\n'
self.f.write(json_str)
return item
def close_spider(self,spider):
self.f.close()