Python網(wǎng)站爬蟲(chóng)編寫中字符編碼的解決方案分享

問(wèn)題介紹

問(wèn)題1:常用網(wǎng)站的編碼格式有哪些?

答:utf-8,GB2312,GBK等

國(guó)內(nèi)常用網(wǎng)站的字符編碼

問(wèn)題2:這些字符集有什么區(qū)別?

答:請(qǐng)見(jiàn)我的另外一篇文章

問(wèn)題3:在抓取不同編碼網(wǎng)站時(shí),有什么比較好的解決思路嗎?

答:先解析網(wǎng)站編碼格式,然后使用編碼轉(zhuǎn)換,一般轉(zhuǎn)成utf-8


工具介紹

名稱:chardet模塊

下載地址:chardet 2.3.0 : Python Package Index

功能:編碼識(shí)別


實(shí)際應(yīng)用

1.解析少量信息

import chardet
import urllib
TestCodes = urllib.urlopen('http://www.baidu.com/').read()
print chardet.detect(TestCodes)

運(yùn)行結(jié)果:
 {'confidence': 0.99, 'encoding': 'GB2312'}

2.大量信息解析(只解析一部分)

import urllib
from chardet.universaldetector import UniversalDetector
usock = urllib.urlopen('http://www.baidu.com/')
#創(chuàng)建一個(gè)檢測(cè)對(duì)象
detector = UniversalDetector()
for line in usock.readlines():
 #分塊進(jìn)行測(cè)試诞仓,直到達(dá)到閾值
    detector.feed(line)
    if detector.done: break
#關(guān)閉檢測(cè)對(duì)象
detector.close()
usock.close()
#輸出檢測(cè)結(jié)果
print detector.result

運(yùn)行結(jié)果:
{'confidence': 0.99, 'encoding': 'GB2312'}

小結(jié)

1.在處理字符編碼類型未知的時(shí)候,我們可以通過(guò)chardet模塊獲得字符編碼類型,然后對(duì)其進(jìn)行重新編碼

2.當(dāng)數(shù)據(jù)量過(guò)大時(shí)我們只需要解析一小部分,不必全部解析.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末墩剖,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌后德,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,482評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件折晦,死亡現(xiàn)場(chǎng)離奇詭異货抄,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)蒲跨,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,377評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門译断,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人或悲,你說(shuō)我怎么就攤上這事孙咪】疤疲” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 152,762評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵翎蹈,是天一觀的道長(zhǎng)淮菠。 經(jīng)常有香客問(wèn)我,道長(zhǎng)荤堪,這世上最難降的妖魔是什么合陵? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,273評(píng)論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮澄阳,結(jié)果婚禮上拥知,老公的妹妹穿的比我還像新娘。我一直安慰自己碎赢,他們只是感情好低剔,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,289評(píng)論 5 373
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著肮塞,像睡著了一般户侥。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上峦嗤,一...
    開(kāi)封第一講書(shū)人閱讀 49,046評(píng)論 1 285
  • 那天蕊唐,我揣著相機(jī)與錄音,去河邊找鬼烁设。 笑死替梨,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的装黑。 我是一名探鬼主播副瀑,決...
    沈念sama閱讀 38,351評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼恋谭!你這毒婦竟也來(lái)了糠睡?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 36,988評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤疚颊,失蹤者是張志新(化名)和其女友劉穎狈孔,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體材义,經(jīng)...
    沈念sama閱讀 43,476評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡均抽,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,948評(píng)論 2 324
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了其掂。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片油挥。...
    茶點(diǎn)故事閱讀 38,064評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出深寥,到底是詐尸還是另有隱情攘乒,我是刑警寧澤,帶...
    沈念sama閱讀 33,712評(píng)論 4 323
  • 正文 年R本政府宣布惋鹅,位于F島的核電站持灰,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏负饲。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,261評(píng)論 3 307
  • 文/蒙蒙 一喂链、第九天 我趴在偏房一處隱蔽的房頂上張望返十。 院中可真熱鬧,春花似錦椭微、人聲如沸洞坑。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,264評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)迟杂。三九已至,卻和暖如春本慕,著一層夾襖步出監(jiān)牢的瞬間排拷,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,486評(píng)論 1 262
  • 我被黑心中介騙來(lái)泰國(guó)打工锅尘, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留监氢,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,511評(píng)論 2 354
  • 正文 我出身青樓藤违,卻偏偏與公主長(zhǎng)得像浪腐,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子顿乒,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,802評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容