實(shí)戰(zhàn)1——爬取百度糗事百科段子

目標(biāo)：爬取百度糗事百科段子帘营，url 為http://www.qiushibaike.com/，爬取前20個(gè)網(wǎng)頁中每個(gè)網(wǎng)頁的每個(gè)段子的發(fā)布人琼富、段子內(nèi)容仪吧、點(diǎn)贊數(shù)、評(píng)論數(shù)鞠眉，然后把內(nèi)容保存在一個(gè) BaiduQiushi.txt 文件中薯鼠。

一、分析網(wǎng)頁結(jié)構(gòu)

通過分析 url 可以發(fā)現(xiàn)規(guī)律械蹋，使用該規(guī)律來實(shí)現(xiàn)換頁功能出皇。
即：” http://www.qiushibaike.com/8hr/page/” + pagenum +”/?s=4966067”

然后查看頁面源代碼，輔助 chrome 審查元素元素功能快速定位所需內(nèi)容位置哗戈。
可以發(fā)現(xiàn)郊艘，每個(gè)段子都是包括在div 標(biāo)簽內(nèi)的。

發(fā)布人：

段子內(nèi)容：

點(diǎn)贊數(shù)：

評(píng)論數(shù)：

二唯咬、確定使用技術(shù)路線

這里獲取內(nèi)容的方式有很多種纱注，可以使用 requests + re 。也可是使用 beautifulsoup胆胰。
不過感覺這個(gè)例子比較小狞贱，我就只使用了 requests 和 re 來實(shí)現(xiàn)。

三蜀涨、步驟

1．實(shí)現(xiàn)換頁功能瞎嬉，生成 url 列表 urls。
2．遍歷 urls 這個(gè)列表厚柳，解析每個(gè)頁面的 html 源代碼氧枣。
3．對(duì)于每個(gè) html，獲得發(fā)布人模塊别垮，放置在 everyblock 列表中便监。
4．遍歷每個(gè) everyblock 列表，提取每個(gè)段子的發(fā)布人碳想、段子內(nèi)容烧董、點(diǎn)贊數(shù)、評(píng)論數(shù)

四移袍、代碼

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time    : 2017/3/18 15:10
# @Author  : zxp
# @Site    : 
# @File    : zxp_CrowBaiduQiushi.py
# @Software: PyCharm Community Edition
import requests
import re
import sys
reload(sys)
sys.setdefaultencoding('utf8')

def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        print url + '：獲取失敗老充！'

def getEveryBlock(html):
    everyblock = re.findall('(<div class="article block untagged mb15".*?<div class="single-clear"></div>)', html, re.S)
    return everyblock

def getInfo(block):
    info = {}
    info['author'] = re.search('<h2>(.*?)</h2>', block, re.S).group(1)
    info['content'] = re.search('<span>(.*?)</span>', block, re.S).group(1)
    likeandcomment = re.findall('<i class="number">(.*?)</i>', block, re.S)
    info['like'] = likeandcomment[0]
    if len(likeandcomment) == 1:
        info['comment'] = '0'
    else:
        info['comment'] = likeandcomment[1]
    return info

def saveAllInfo(all_info):
    f = open('BaiduQiushi.txt', 'a')
    for each in all_info:
        f.writelines('author:' + each['author'] + '\n')
        f.writelines('content:' + each['content'] + '\n')
        f.writelines('like:' + each['like'] + '\n')
        f.writelines('comment:' + each['comment'] + '\n\n')
    f.close()

def main():
    urls = []
    all_info = []
    pagenum = 20
    for i in xrange(1, pagenum + 1):
        url = 'http://www.qiushibaike.com/8hr/page/' + str(i) + '/?s=4966067'
        urls.append(url)
    for url in urls:
        html = getHTMLText(url)
        everyblock = getEveryBlock(html)
        for each in everyblock:
            info = getInfo(each)
            all_info.append(info)
    saveAllInfo(all_info)


if __name__ == '__main__':
    main()

最后編輯于：2017.12.06 04:21:23

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末葡盗，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌觅够，老刑警劉巖胶背，帶你破解...
沈念sama閱讀 217,826評(píng)論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異喘先，居然都是意外死亡钳吟，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,968評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門窘拯，熙熙樓的掌柜王于貴愁眉苦臉地迎上來红且，“玉大人，你說我怎么就攤上這事涤姊∠痉” “怎么了？”我有些...
開封第一講書人閱讀 164,234評(píng)論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵思喊，是天一觀的道長(zhǎng)壁酬。經(jīng)常有香客問我，道長(zhǎng)恨课，這世上最難降的妖魔是什么舆乔？我笑而不...
開封第一講書人閱讀 58,562評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮剂公，結(jié)果婚禮上希俩，老公的妹妹穿的比我還像新娘。我一直安慰自己诬留，他們只是感情好斜纪，可當(dāng)我...
茶點(diǎn)故事閱讀 67,611評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著文兑，像睡著了一般盒刚。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上绿贞，一...
開封第一講書人閱讀 51,482評(píng)論 1贊 302
城市分裂傳說
那天因块，我揣著相機(jī)與錄音，去河邊找鬼籍铁。笑死涡上，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的拒名。我是一名探鬼主播吩愧，決...
沈念sama閱讀 40,271評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼增显！你這毒婦竟也來了雁佳？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,166評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎糖权，沒想到半個(gè)月后堵腹，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,608評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡星澳，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,814評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年疚顷，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片禁偎。...
茶點(diǎn)故事閱讀 39,926評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡腿堤，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出届垫，到底是詐尸還是另有隱情释液，我是刑警寧澤，帶...
沈念sama閱讀 35,644評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布装处，位于F島的核電站误债，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏妄迁。R本人自食惡果不足惜寝蹈，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,249評(píng)論 3贊 329
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望登淘。院中可真熱鬧箫老，春花似錦、人聲如沸黔州。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,866評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽流妻。三九已至牲蜀，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間绅这，已是汗流浹背涣达。一陣腳步聲響...
開封第一講書人閱讀 32,991評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來泰國(guó)打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留证薇，地道東北人度苔。一個(gè)月前我還...
沈念sama閱讀 48,063評(píng)論 3贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像浑度，于是被迫代替她去往敵國(guó)和親寇窑。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,871評(píng)論 2贊 354

實(shí)戰(zhàn)1——爬取百度糗事百科段子

一、 分析網(wǎng)頁結(jié)構(gòu)

二唯咬、 確定使用技術(shù)路線

三蜀涨、 步驟

四移袍、 代碼

推薦閱讀更多精彩內(nèi)容

一、分析網(wǎng)頁結(jié)構(gòu)

二唯咬、確定使用技術(shù)路線

三蜀涨、步驟

四移袍、代碼