- 問題
reponse.encoding
默認(rèn)為 gb2312
, 出現(xiàn)部分中文亂碼
- 解決方法
將response.encoding
設(shè)置為 gbk
因為gb2312
只支持六千多個漢字的編碼,
而gbk
支持1萬多個漢字編碼蜒简。
- 代碼示例
import requests
url = .....
headers = .......
response = requests.get(url=url)
# response.encoding 默認(rèn)為gb2312蚤氏,出現(xiàn)部分中文亂碼
# 通過以下方式設(shè)置編碼方式
response.encoding = 'gbk'
- 編碼方式的區(qū)別
gbk
一般用于繁體中文代赁,
是國家標(biāo)準(zhǔn)gb2312
基礎(chǔ)上擴容后兼容gb2312
的標(biāo)準(zhǔn)。
文字編碼(中英文)用雙字節(jié)編碼兽掰,是國家編碼芭碍,
通用性比utf8
差,但utf8
占用的數(shù)據(jù)庫比gbk
大gb2312
一般用于簡體中文gb2312
只支持六千多個漢字的編碼
而gbk
支持1萬多個漢字編碼孽尽。utf8
是全球通用窖壕,
用于解決國際上字符的一種多字節(jié)編碼,
英文使用8
位(一個字節(jié))杉女,
中文使用28
位(3個字節(jié))瞻讽。
現(xiàn)在一般都用utf8
編碼。
允許含BOM
,但一般不包含BOM
。