大規(guī)模批量采集微信公眾號(hào)文章
記錄一下今天的成果叨咖,確實(shí)可以抓取到瘩例,配置完成之后1分鐘可以抓取100+(后來(lái)優(yōu)化了一下,可以達(dá)到300左右)片吧甸各,我沒(méi)有用多進(jìn)程垛贤,如果是多進(jìn)程的話(huà),效率會(huì)翻倍的增加趣倾。
抓取思路
網(wǎng)上的方法大約有三種
第一:通過(guò)搜狗微信? 搜索入口 聘惦,模擬搜索抓取,效率比較低儒恋,而且還有驗(yàn)證碼善绎,反爬蟲(chóng)機(jī)制;建議放棄诫尽。
第二:通過(guò)抓包工具截取htts請(qǐng)求的數(shù)據(jù)包禀酱,意思就是使用pc端微信登錄,監(jiān)聽(tīng)公眾號(hào)的推送消息牧嫉,每當(dāng)監(jiān)聽(tīng)到推送之后就把數(shù)據(jù)獲取下來(lái)剂跟,缺點(diǎn)是無(wú)法獲取以前的歷史記錄
第三:通過(guò)微信公眾號(hào)的后臺(tái)獲取cookie和token來(lái)抓取酣藻;缺點(diǎn)是需要注冊(cè)一個(gè)公眾號(hào)曹洽,而且token有過(guò)期時(shí)間
第四:萬(wàn)能key或者公眾號(hào)key抓取 ,key有效時(shí)間為兩個(gè)小時(shí)辽剧,每個(gè)微信號(hào)一天最多可以抓取1200次送淆,優(yōu)勢(shì)只要解決key的自動(dòng)獲取就非常方便自動(dòng)。
以上幾種是網(wǎng)友提供的思路怕轿,都可以實(shí)現(xiàn)偷崩,但同時(shí)也都有缺點(diǎn)。
以下是我用第三種方法實(shí)現(xiàn)的撤卢;
使用php,node.js都可以抓然吩洹;
1.注冊(cè)微信公眾放吩,登錄之后選擇新建素材智听,然后點(diǎn)擊超鏈接,搜索任意公眾號(hào),保存該公眾號(hào)的fakeid到推,同時(shí)保存cookie和token考赛,
2.在https請(qǐng)求中 設(shè)置header的cookie為第1步保存的cookie,參數(shù)是token莉测,發(fā)送https請(qǐng)求颜骤,你會(huì)驚奇的發(fā)現(xiàn)已經(jīng)拿下某公眾號(hào)的歷史記錄 (默認(rèn)40條);
3.然后根據(jù)列表里面的內(nèi)容鏈接地址捣卤,再獲取具體的網(wǎng)頁(yè)內(nèi)容忍抽;
4.把獲取的內(nèi)容存到本地的數(shù)據(jù)庫(kù)中
總結(jié):以上思路僅供參考,具體實(shí)現(xiàn)需要靠自己董朝;
提示:源碼收費(fèi)鸠项,還請(qǐng)諒解;
------------------------------------------------------------------------------
鑒于有人咨詢(xún)了一下抓取程序價(jià)格子姜,我在這里聲明一下:
抓取的功能沒(méi)有你想的那么智能
1.需要指定公眾號(hào)(可以指定多個(gè)祟绊,沒(méi)有上限)
2.需要設(shè)置token以及對(duì)應(yīng)的cookie參數(shù);
3.抓取速度哥捕,大約一分鐘可以抓取300左右(視網(wǎng)絡(luò)牧抽,內(nèi)容多少而定)
看到這里,你還沒(méi)有放棄遥赚,那么看來(lái)你是真相要了扬舒。
可以一次性需求
可以購(gòu)買(mǎi)源碼,因?yàn)樵创a是我自己開(kāi)發(fā)方便我自己閱讀用的鸽捻,一般要買(mǎi)源碼的都需要做一些修改和開(kāi)發(fā)呼巴,視情況而定
如需詳細(xì)聯(lián)系 請(qǐng)加 qq 958230839? 另外我們支持全網(wǎng)抓取和大規(guī)模抓取 包括閱讀數(shù) 好看數(shù)和評(píng)論數(shù)