文章作者:Tyan
博客:noahsnail.com ?|? CSDN ?|? 簡書
Python處理字符串夷都,寫文件時會碰到許多的編碼問題鸟废,特別是涉及到中文的時候肮砾,非常煩人饵史,但又不得不學(xué)。下面主要記錄工作過程中碰到的Python編碼問題嘴拢。
1. 字符串編碼
Python的字符串類型為str
桩盲,可以通過type
函數(shù)查看返回的類型。Python中字符串默認(rèn)的編碼方式需要通過sys.getfilesystemencoding()
查看席吴,通常是utf-8
赌结。u'中文'
構(gòu)造出來的是unicode
類型捞蛋,不是str
類型。
# 查看字符串編碼方式
>>> import sys
>>> print sys.getfilesystemencoding()
utf-8
>>> s1 = '中國'
>>> s2 = u'中國'
>>> type(s1)
<type 'str'>
>>> type(s2)
<type 'unicode'>
str
類型和unicode
類型分別有decode
和encode
函數(shù)姑曙。str.decode
用來將str
轉(zhuǎn)為unicode
襟交,unicode.encode
用來將unicdoe
轉(zhuǎn)為str
。用法如下:
# decode
>>> s1.decode('utf8')
u'\u4e2d\u56fd'
>>> type(s1.decode('utf8'))
<type 'unicode'>
# encode
>>> s2.encode('utf8')
'\xe4\xb8\xad\xe5\x9b\xbd'
>>> type(s2.encode('utf8'))
<type 'str'>
2. 代碼文件編碼
py
文件默認(rèn)的編碼是ASCII編碼伤靠,中文顯示時會進行ASCII編碼到系統(tǒng)默認(rèn)編碼的轉(zhuǎn)換,在運行Python文件時經(jīng)常會報錯啼染。因此需要設(shè)置py
文件的編碼為utf-8
宴合。設(shè)置方式如下:
# _*_ coding: utf-8 _*_