ACSII碼不包含中文连锯, 報(bào)語(yǔ)法錯(cuò)誤
檢查系統(tǒng)的默認(rèn)編碼
import sys
print sys.getdefaultencoding()
聲明編碼
1党巾,#coding=utf-8
2萎庭,# -- coding:utf-8 --
打開(kāi)文件有中文
1齿拂,打開(kāi)文件
2, f = open(“路徑/文件名”,“r”)
content = f.read()
f.close()
3吗购,content.decode(“gbk”).encode(“utf-8”)
python 編碼機(jī)制
內(nèi)部所有編碼為Unicode編碼 Unicode屬于一個(gè)中轉(zhuǎn)碼
中文的編碼是gbk編碼
utf-8 萬(wàn)國(guó)碼 是Unicode的分支
亂碼—》Unicode編碼—-》轉(zhuǎn)換為需要的編碼
decode()—>Unicode中轉(zhuǎn)碼—》encode()
isinstance()數(shù)據(jù)判斷
if isinstance(content,unicode):
print cotent.encode(“utf-8”)
else:
pint conten.decode(“gbk”).encode(“utf-8”)