python獲取網(wǎng)頁內(nèi)容的相關(guān)編碼問題

當網(wǎng)頁編碼不規(guī)范無法獲取正確編碼格式的時候可能會出現(xiàn)的一些問題的解決方法:

1.常規(guī)習(xí)慣性的添加

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

2.頁面編碼不是UTF-8沖突的時候處理

UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 215: ordinal not in range(128)
# 第三方的模塊
import chardet
import requests

url = 'http://my.oschina.net/u/1188877/blog'
req = requests.get(url, timeout=5, verify=False, allow_redirects=True)
# detect()返回 --> {'confidence': 1.0, 'encoding': 'ascii'} --> 前面是準確率,后面是編碼格式
codes = charder.detect(url)[1]
page_content = req.content.decode(codes, 'ignore').encode('utf-8')

3.可能存在部分網(wǎng)站沒GZIP壓縮的情況下,造成requests自動解壓處理的時候異常問題

ContentDecodingError: ('Received response with content-encoding: gzip, but failed to decode it.', error('Error -3 while decompressing: incorrect header check',))

4.單獨使用上面幾種處理方法的時候可能會出現(xiàn)單個比較特殊的錯誤蒲跨,所以最好的處理方法是整合上面的所有方案

import sys
reload(sys)
sys.setdefaultencoding('utf-8')
# 第三方的模塊
import chardet
import requests

url = 'http://my.oschina.net/u/1188877/blog'
req = requests.get(url, headers={'Accept-Encoding': ''}, timeout=5, verify=False, allow_redirects=True)
codes = charder.detect(url)[1]
page_content = req.content.decode(codes, 'ignore').encode('utf-8')

django提交的POST數(shù)據(jù)寫入含中文編碼錯誤

# 2016-01-18更新
# 網(wǎng)頁ajax post的數(shù)據(jù)為ASCII編碼的畦攘,遇中文處理會報錯
# 'ascii' codec can't decode byte 0xe5 in position 0: ordinal not in range(128)

6.數(shù)據(jù)庫MySQLdb中文亂碼小問題

# 報錯如下
_mysql_exceptions.OperationalError: (2019, "Can't initialize character set utf-8 (path: /usr/share/mysql/charsets/)")
 # python
 conn = MySQLdb.connect(host, user, passwd, dbname, port, charset="utf-8")
 # 粗心問題,查看/usr/share/mysql/charsets/Index.xml文件會發(fā)現(xiàn)并沒有utf-8的編碼慨亲,只有utf8
 conn = MySQLdb.connect(host, user, passwd, dbname, port, charset="utf-8")
 # 數(shù)據(jù)庫設(shè)置成utf-8们拙,python文件設(shè)置成utf-8沼死,頁面文件設(shè)置成utf-8锡移,over呕童,一般不會亂碼
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市淆珊,隨后出現(xiàn)的幾起案子夺饲,更是在濱河造成了極大的恐慌,老刑警劉巖施符,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件往声,死亡現(xiàn)場離奇詭異,居然都是意外死亡戳吝,警方通過查閱死者的電腦和手機浩销,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來听哭,“玉大人慢洋,你說我怎么就攤上這事÷脚蹋” “怎么了普筹?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長礁遣。 經(jīng)常有香客問我斑芜,道長肩刃,這世上最難降的妖魔是什么祟霍? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮盈包,結(jié)果婚禮上沸呐,老公的妹妹穿的比我還像新娘。我一直安慰自己呢燥,他們只是感情好崭添,可當我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著叛氨,像睡著了一般呼渣。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上寞埠,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天屁置,我揣著相機與錄音,去河邊找鬼仁连。 笑死蓝角,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播使鹅,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼揪阶,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了患朱?” 一聲冷哼從身側(cè)響起鲁僚,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎裁厅,沒想到半個月后蕴茴,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡姐直,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年倦淀,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片声畏。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡撞叽,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出插龄,到底是詐尸還是另有隱情愿棋,我是刑警寧澤,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布均牢,位于F島的核電站糠雨,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏徘跪。R本人自食惡果不足惜甘邀,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望垮庐。 院中可真熱鬧松邪,春花似錦、人聲如沸哨查。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽寒亥。三九已至邮府,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間溉奕,已是汗流浹背褂傀。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留腐宋,地道東北人紊服。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓檀轨,卻偏偏與公主長得像,于是被迫代替她去往敵國和親欺嗤。 傳聞我的和親對象是個殘疾皇子参萄,可洞房花燭夜當晚...
    茶點故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容