最近開(kāi)始學(xué)習(xí)python,這里就作為學(xué)習(xí)記錄减宣,記錄自己的python之路盐须。
本條爬蟲(chóng)爬取的是糗事百科的24小時(shí)熱門(mén)里面的玩荠,作者漆腌,內(nèi)容,以及點(diǎn)贊數(shù)目阶冈。使用的是python3闷尿,以及requests和bs4里面的BeautifulSoup。代碼如下:
import requests
from bs4 import BeautifulSoup
def trade_spider(max_page):
page = 1
while page <= max_page:
url = 'http://www.qiushibaike.com/hot/page/' + str(page)
source_code = requests.get(url)
plain_text = source_code.text
soup = BeautifulSoup(plain_text, 'html.parser')
for content in soup.findAll('div', {'class': 'article block untagged mb15'}):
author = content.h2.string
detail = content.find('div', {'class': 'content'}).get_text()
like = content.i.string
with open('duanzi.txt', 'a') as file:
file.write(author + '\n')
file.write(detail + '\n')
file.write(like + '\n')
file.write('=*=' * 50 + '\n')
page += 1
trade_spider(1)
輸出結(jié)果:
子小祎
老媽和二姨用手機(jī)視頻聊天女坑,聽(tīng)到二姨在那邊說(shuō):“信號(hào)不好填具,光能看到你嘎巴嘴,聽(tīng)不著聲兒”。老爸在一旁很淡定的說(shuō):“不是信號(hào)不好劳景,她在那吃東西呢誉简,沒(méi)說(shuō)話(huà)”。老爸太跟得上節(jié)奏了盟广!
2191
==============================================
⌒oOㄣ先聖遺風(fēng)の
這畫(huà)我給滿(mǎn)分
2410
===============================================
moomer
記得上學(xué)的時(shí)候每天騎自行車(chē)闷串,我總是不帶車(chē)鎖。我爸老是提醒我把車(chē)鎖上筋量,還說(shuō)一定一定要把車(chē)鎖好烹吵,我問(wèn)他為什么,他說(shuō)怕我丟車(chē)桨武。到后來(lái)肋拔,我問(wèn)我媽這件事情,我媽說(shuō):“你爸上學(xué)的時(shí)候就是個(gè)偷車(chē)的…”
4471
===============================================
好客山東人民
老婆買(mǎi)了一袋大米呀酸,用電動(dòng)車(chē)馱回家后才發(fā)現(xiàn)米袋子一角爛了個(gè)口子凉蜂,在路上已經(jīng)漏了許多大米。兒子趕緊走到門(mén)外七咧,看著電動(dòng)車(chē)剛才行駛的軌跡跃惫,自言自語(yǔ)說(shuō):這就是傳說(shuō)中的米線(xiàn)吧!7265
===============================================*
可以修改max_page來(lái)達(dá)到爬取多頁(yè)面的效果艾栋。