python3爬蟲演練-糗事百科

今天的想的是加強一下python3爬蟲的技巧，以爬糗事百科的段子作為練習(xí)目標(biāo)，以下是爬蟲經(jīng)歷疏尿。

1.導(dǎo)包

主要導(dǎo)兩類包，一個是網(wǎng)絡(luò)請求包urllib易桃，另一個是正則表達式包re

import urllib.request,urllib.error
import re

2.構(gòu)建url

我要爬的是糗事百科的24小時里的段子褥琐，它的網(wǎng)址是

http://www.qiushibaike.com/hot

于是我的url構(gòu)成如下，pageNum表示頁數(shù)

url='http://www.qiushibaike.com/hot/page/' + str(pageNum)

3.增加報頭晤郑，偽裝瀏覽器

如果不加報頭直接抓取源代碼似乎會報錯敌呈，所以我偽裝了一下嚼鹉，打開chrome進入糗事百科，再右鍵打開檢查->network->request headers驱富，
把User-Agent復(fù)制了

user_agent='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36' 
Headers={'User-Agent':user_agent}

請求報頭

4.構(gòu)建正則表達式

這是核心的地方锚赤，我一開始寫的時候每一個標(biāo)簽都去匹配，然后正則表達式寫得很長很長褐鸥，最后還不知哪里錯了打印不出結(jié)果线脚，后來請教了別人寫正則表達式的方法，發(fā)現(xiàn)只需要匹配核心的標(biāo)簽即可叫榕，其他無關(guān)的標(biāo)簽一律用.*?匹配浑侥。
先看看我要抓取的內(nèi)容吧

一條糗事百科的段子

像上圖這樣就是一條段子，由于圖片不可能顯示晰绎，所以即使是有圖片的段子我也只顯示文字寓落，那么我要匹配的內(nèi)容有：用戶的名字，段子的內(nèi)容荞下，“好笑”前面的數(shù)字伶选，“好笑”這兩個字，“評論”前面的數(shù)字尖昏，“評論”這兩個字
那么我就要在源代碼中找到這些內(nèi)容仰税，通過查看源代碼發(fā)現(xiàn)，一個段子的代碼是下面這種格式

<div class="article block untagged mb15" id='qiushi_tag_117121225'>

<div class="author clearfix">

<a href="/users/30591370/" target="_blank" rel="nofollow">

![逆風(fēng)的單車](http://upload-images.jianshu.io/upload_images/1467278-8c565aa521823b85.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

</a>

<a href="/users/30591370/" target="_blank" title="逆風(fēng)的單車">

<h2>逆風(fēng)的單車</h2>

</a>

</div>

<div class="content">

小時候喜歡摸堂弟頭抽诉，喊他小不點陨簇，如今當(dāng)兵回來的他，喜歡摸著我的頭迹淌，喊我“老 部（不）長”河绽，還特么時不時的摔我一跤！０η浴耙饰！

</div>

<div class="stats">

<span class="stats-vote"><i class="number">3760</i> 好笑</span>

<span class="stats-comments">

<span class="dash"> · </span>

<a href="/article/117121225" data-share="/article/117121225" id="c-117121225" class="qiushi_comments" target="_blank">

<i class="number">32</i> 評論

</a>

</span>

</div>

我們要的東西的位置一目了然，首先是用戶的名字：

<h2>逆風(fēng)的單車</h2>

然后是段子的內(nèi)容：

<div class="content">
小時候喜歡摸堂弟頭句携，喊他小不點榔幸，如今當(dāng)兵回來的他，喜歡摸著我的頭矮嫉，喊我“老 部（不）長”削咆，還特么時不時的摔我一跤！４浪瘛拨齐！
</div>

接著是“好笑”

<span class="stats-vote"><i class="number">3760</i> 好笑</span>

最后是評論

<a href="/article/117121225" data-share="/article/117121225" id="c-117121225" class="qiushi_comments" target="_blank">
<i class="number">32</i> 評論</a>

所以我們可以寫出正則表達式

pattern=re.compile('<h2>(.*?)</h2>.*?<div class="content">(.*?)</div>.*?<i class="number">(.*?)</i> (.*?)</span>.*?<i class="number">(.*?)</i>(.*?)</a>',re.S)

注：因為是順序匹配，所以“好笑”和評論只需要用<i class="number">匹配就好昨寞，其他雜七雜八的東西一律用.*?代替

5.寫出請求

剩下的就是使用urllib來抓取源代碼匹配后輸出了

try:
     request=urllib.request.Request(url,headers=Headers)
     response=urllib.request.urlopen(request).read().decode('utf-8')
     items=re.findall(pattern,response)#     for item in items:
         print(item[0],item[1],item[2],item[3],item[4],item[5])
except urllib.error.URLError as  e:
     if hasattr(e,'code'):
         print(e.code)
     if hasattr(e,'reason'):
         print(e.reason)

完整的代碼是

import urllib.request,urllib.error
import re
pageNum=1
url='http://www.qiushibaike.com/hot/page/' + str(pageNum)
user_agent='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36' Headers={'User-Agent':user_agent}
pattern=re.compile('<h2>(.*?)</h2>.*?<div class="content">(.*?)</div>.*?<i class="number">(.*?)</i> (.*?)</span>.*?<i class="number">(.*?)</i>(.*?)</a>',re.S)
try: 
  request=urllib.request.Request(url,headers=Headers) 
  response=urllib.request.urlopen(request).read().decode('utf-8') 
  items=re.findall(pattern,response)
  for item in items:     
    print(item[0],item[1],item[2],item[3],item[4],item[5])
except urllib.error.URLError as e: 
  if hasattr(e,'code'): 
    print(e.code) 
  if hasattr(e,'reason'): 
    print(e.reason)

這樣就能抓到啦瞻惋。

參考：
Python爬蟲實戰(zhàn)一之爬取糗事百科段子

最后編輯于：2017.12.03 21:52:56

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末厦滤，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子歼狼，更是在濱河造成了極大的恐慌掏导，老刑警劉巖，帶你破解...
沈念sama閱讀 211,265評論 6贊 490
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件羽峰，死亡現(xiàn)場離奇詭異趟咆，居然都是意外死亡，警方通過查閱死者的電腦和手機梅屉，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,078評論 2贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門值纱，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人坯汤，你說我怎么就攤上這事虐唠。” “怎么了惰聂？”我有些...
開封第一講書人閱讀 156,852評論 0贊 347
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵疆偿，是天一觀的道長。經(jīng)常有香客問我庶近，道長翁脆，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 56,408評論 1贊 283
?港島之戀（遺憾婚禮）
正文為了忘掉前任鼻种，我火速辦了婚禮，結(jié)果婚禮上沙热，老公的妹妹穿的比我還像新娘叉钥。我一直安慰自己，他們只是感情好篙贸，可當(dāng)我...
茶點故事閱讀 65,445評論 5贊 384
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布投队。她就那樣靜靜地躺著，像睡著了一般爵川。火紅的嫁衣襯著肌膚如雪敷鸦。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 49,772評論 1贊 290
城市分裂傳說
那天寝贡，我揣著相機與錄音扒披，去河邊找鬼。笑死圃泡，一個胖子當(dāng)著我的面吹牛碟案，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播颇蜡，決...
沈念sama閱讀 38,921評論 3贊 406
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼价说，長吁一口氣：“原來是場噩夢啊……” “哼辆亏！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起鳖目，我...
開封第一講書人閱讀 37,688評論 0贊 266
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤扮叨，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后领迈，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體彻磁，經(jīng)...
沈念sama閱讀 44,130評論 1贊 303
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,467評論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年惦费，在試婚紗的時候發(fā)現(xiàn)自己被綠了兵迅。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 38,617評論 1贊 340
活死人
序言：一個原本活蹦亂跳的男人離奇死亡薪贫，死狀恐怖恍箭，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情瞧省，我是刑警寧澤扯夭，帶...
沈念sama閱讀 34,276評論 4贊 329
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站鞍匾，受9級特大地震影響交洗，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜橡淑，卻給世界環(huán)境...
茶點故事閱讀 39,882評論 3贊 312
男人毒藥：我在死后第九天來索命
文/蒙蒙一构拳、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧梁棠，春花似錦置森、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,740評論 0贊 21
一樁弒父案概耻，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽馆类。三九已至谣光，卻和暖如春十艾，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背模闲。一陣腳步聲響...
開封第一講書人閱讀 31,967評論 1贊 265
情欲美人皮
我被黑心中介騙來泰國打工建瘫，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人围橡。一個月前我還...
沈念sama閱讀 46,315評論 2贊 360
代替公主和親
正文我出身青樓暖混，卻偏偏與公主長得像，于是被迫代替她去往敵國和親翁授。傳聞我的和親對象是個殘疾皇子拣播，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 43,486評論 2贊 348