大家好,今天給大家分享一下如何利用python抓取百度貼吧相關(guān)信息
為了演示抬吟,我就隨便在iphone貼吧找了一個(gè)內(nèi)容相對(duì)豐富的帖子萨咕。
大家好,今天給大家分享一下如何利用python抓取百度貼吧相關(guān)信息
為了演示火本,我就隨便在iphone貼吧找了一個(gè)內(nèi)容相對(duì)豐富的帖子危队。
我們只是演示,所以我選擇抓取
回帖時(shí)間
回帖內(nèi)容
回帖時(shí)
這3個(gè)信息钙畔,其實(shí)比較聰明的人應(yīng)該知道茫陆,這個(gè)可以做信息聚合,標(biāo)題+這些回復(fù)內(nèi)容不就是一篇原創(chuàng)信息擎析。
先分析一下思路:
1簿盅、獲取單個(gè)頁(yè)面的源代碼
2、大概看一下頁(yè)數(shù),當(dāng)然我們也可以用正則獲取
這里舉例桨醋,我看了一下有733頁(yè)的信息棚瘟,演示我就抓取前100頁(yè)吧。
3喜最、信息量比較大偎蘸,這里我們可能會(huì)利用到多線程的抓取
4、獲取每一頁(yè)所要獲取的內(nèi)容返顺,這里用傳統(tǒng)正則可能稍微復(fù)雜一點(diǎn)禀苦,我們用神器xpath
5、最后把獲取到的內(nèi)容整理一下寫(xiě)入到文本文件contents.txt里
代碼這里不方便發(fā)遂鹊,不然文章可能會(huì)被刪除振乏,有興趣的到我公眾號(hào)可以去看
運(yùn)行效果如下:
可以看到,抓取到了將近1萬(wàn)行的數(shù)據(jù)秉扑,運(yùn)行時(shí)間才幾秒中慧邮,非常快了舟陆。
有興趣的可以自己試試
李亞濤簡(jiǎn)介:11年網(wǎng)站運(yùn)營(yíng)管理經(jīng)驗(yàn),seo實(shí)戰(zhàn)教練,python爬蟲(chóng)高手,建站專家
著有《15天成為python爬蟲(chóng)高手視頻教程》误澳、《python爬蟲(chóng)加強(qiáng)班視頻教程》、《手機(jī)網(wǎng)站SEO優(yōu)化教程》電子書(shū)秦躯、《seo優(yōu)化系統(tǒng)視頻教程》等