實(shí)戰(zhàn)1——爬取百度糗事百科段子

目標(biāo):爬取百度糗事百科段子帘营,url 為http://www.qiushibaike.com/,爬取前20個(gè)網(wǎng)頁中每個(gè)網(wǎng)頁的每個(gè)段子的發(fā)布人琼富、段子內(nèi)容仪吧、點(diǎn)贊數(shù)、評(píng)論數(shù)鞠眉,然后把內(nèi)容保存在一個(gè) BaiduQiushi.txt 文件中薯鼠。

一、 分析網(wǎng)頁結(jié)構(gòu)


通過分析 url 可以發(fā)現(xiàn)規(guī)律械蹋,使用該規(guī)律來實(shí)現(xiàn)換頁功能出皇。
即:” http://www.qiushibaike.com/8hr/page/” + pagenum +”/?s=4966067”

然后查看頁面源代碼,輔助 chrome 審查元素元素功能快速定位所需內(nèi)容位置哗戈。
可以發(fā)現(xiàn)郊艘,每個(gè)段子都是包括在div 標(biāo)簽內(nèi)的。

發(fā)布人:

段子內(nèi)容:

點(diǎn)贊數(shù):

評(píng)論數(shù):

二唯咬、 確定使用技術(shù)路線

這里獲取內(nèi)容的方式有很多種纱注,可以使用 requests + re 。也可是使用 beautifulsoup胆胰。
不過感覺這個(gè)例子比較小狞贱,我就只使用了 requests 和 re 來實(shí)現(xiàn)。

三蜀涨、 步驟

1. 實(shí)現(xiàn)換頁功能瞎嬉,生成 url 列表 urls。
2. 遍歷 urls 這個(gè)列表厚柳,解析每個(gè)頁面的 html 源代碼氧枣。
3. 對(duì)于每個(gè) html,獲得發(fā)布人模塊别垮,放置在 everyblock 列表中便监。
4. 遍歷每個(gè) everyblock 列表,提取每個(gè)段子的發(fā)布人碳想、段子內(nèi)容烧董、點(diǎn)贊數(shù)、評(píng)論數(shù)

四移袍、 代碼

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time    : 2017/3/18 15:10
# @Author  : zxp
# @Site    : 
# @File    : zxp_CrowBaiduQiushi.py
# @Software: PyCharm Community Edition
import requests
import re
import sys
reload(sys)
sys.setdefaultencoding('utf8')

def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        print url + ':獲取失敗老充!'

def getEveryBlock(html):
    everyblock = re.findall('(<div class="article block untagged mb15".*?<div class="single-clear"></div>)', html, re.S)
    return everyblock

def getInfo(block):
    info = {}
    info['author'] = re.search('<h2>(.*?)</h2>', block, re.S).group(1)
    info['content'] = re.search('<span>(.*?)</span>', block, re.S).group(1)
    likeandcomment = re.findall('<i class="number">(.*?)</i>', block, re.S)
    info['like'] = likeandcomment[0]
    if len(likeandcomment) == 1:
        info['comment'] = '0'
    else:
        info['comment'] = likeandcomment[1]
    return info

def saveAllInfo(all_info):
    f = open('BaiduQiushi.txt', 'a')
    for each in all_info:
        f.writelines('author:' + each['author'] + '\n')
        f.writelines('content:' + each['content'] + '\n')
        f.writelines('like:' + each['like'] + '\n')
        f.writelines('comment:' + each['comment'] + '\n\n')
    f.close()

def main():
    urls = []
    all_info = []
    pagenum = 20
    for i in xrange(1, pagenum + 1):
        url = 'http://www.qiushibaike.com/8hr/page/' + str(i) + '/?s=4966067'
        urls.append(url)
    for url in urls:
        html = getHTMLText(url)
        everyblock = getEveryBlock(html)
        for each in everyblock:
            info = getInfo(each)
            all_info.append(info)
    saveAllInfo(all_info)


if __name__ == '__main__':
    main()
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末葡盗,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌觅够,老刑警劉巖胶背,帶你破解...
    沈念sama閱讀 217,826評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異喘先,居然都是意外死亡钳吟,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,968評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門窘拯,熙熙樓的掌柜王于貴愁眉苦臉地迎上來红且,“玉大人,你說我怎么就攤上這事涤姊∠痉” “怎么了?”我有些...
    開封第一講書人閱讀 164,234評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵思喊,是天一觀的道長(zhǎng)壁酬。 經(jīng)常有香客問我,道長(zhǎng)恨课,這世上最難降的妖魔是什么舆乔? 我笑而不...
    開封第一講書人閱讀 58,562評(píng)論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮剂公,結(jié)果婚禮上希俩,老公的妹妹穿的比我還像新娘。我一直安慰自己诬留,他們只是感情好斜纪,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,611評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著文兑,像睡著了一般盒刚。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上绿贞,一...
    開封第一講書人閱讀 51,482評(píng)論 1 302
  • 那天因块,我揣著相機(jī)與錄音,去河邊找鬼籍铁。 笑死涡上,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的拒名。 我是一名探鬼主播吩愧,決...
    沈念sama閱讀 40,271評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼增显!你這毒婦竟也來了雁佳?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,166評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎糖权,沒想到半個(gè)月后堵腹,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,608評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡星澳,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,814評(píng)論 3 336
  • 正文 我和宋清朗相戀三年疚顷,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片禁偎。...
    茶點(diǎn)故事閱讀 39,926評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡腿堤,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出届垫,到底是詐尸還是另有隱情释液,我是刑警寧澤,帶...
    沈念sama閱讀 35,644評(píng)論 5 346
  • 正文 年R本政府宣布装处,位于F島的核電站误债,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏妄迁。R本人自食惡果不足惜寝蹈,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,249評(píng)論 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望登淘。 院中可真熱鬧箫老,春花似錦、人聲如沸黔州。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,866評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽流妻。三九已至牲蜀,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間绅这,已是汗流浹背涣达。 一陣腳步聲響...
    開封第一講書人閱讀 32,991評(píng)論 1 269
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留证薇,地道東北人度苔。 一個(gè)月前我還...
    沈念sama閱讀 48,063評(píng)論 3 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像浑度,于是被迫代替她去往敵國(guó)和親寇窑。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,871評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容

  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理箩张,服務(wù)發(fā)現(xiàn)甩骏,斷路器完残,智...
    卡卡羅2017閱讀 134,656評(píng)論 18 139
  • 版權(quán)聲明:本文為作者原創(chuàng)文章,可以隨意轉(zhuǎn)載横漏,但必須在明確位置表明出處!J斓唷缎浇! 通過上一遍文章我們對(duì)python的基礎(chǔ)...
    愛做飯的老謝閱讀 708評(píng)論 0 0
  • 已經(jīng)同步到gitbook,想閱讀的請(qǐng)轉(zhuǎn)到gitbook: Django 1.10 中文文檔 URL dispatc...
    leyu閱讀 14,202評(píng)論 0 16
  • 聲明:本文講解的實(shí)戰(zhàn)內(nèi)容赴肚,均僅用于學(xué)習(xí)交流素跺,請(qǐng)勿用于任何商業(yè)用途! 一誉券、前言 強(qiáng)烈建議:請(qǐng)?jiān)陔娔X的陪同下指厌,閱讀本文...
    Bruce_Szh閱讀 12,704評(píng)論 6 28
  • 1 前言 作為一名合格的數(shù)據(jù)分析師,其完整的技術(shù)知識(shí)體系必須貫穿數(shù)據(jù)獲取踊跟、數(shù)據(jù)存儲(chǔ)踩验、數(shù)據(jù)提取、數(shù)據(jù)分析商玫、數(shù)據(jù)挖掘箕憾、...
    whenif閱讀 18,072評(píng)論 45 523