自動抓取微信數(shù)據(jù)程序?qū)崿F(xiàn)詳細(xì)步驟-包括閱讀數(shù)和點(diǎn)贊數(shù)

在線工具:微信文章轉(zhuǎn)PDF
抓取程序已開源:wechat_spider

程序原理

準(zhǔn)備工作

1. 安裝Node.js

去Node.js 官網(wǎng)下載對應(yīng)操作系統(tǒng)的安裝包,然后按照默認(rèn)步驟安裝至電腦中降淮。

下載地址:http://nodejs.cn/download/

安裝好之后扔役,打開終端或命令行運(yùn)行輸入下面代碼始藕,檢查是否安裝成功啡邑,如果成功,會輸出當(dāng)前Node 版本號呻粹。

node -v

2. 安裝AnyProxy 代理服務(wù)器

命令行或終端輸入以下命令勇哗,表示全局安裝AnyProxy 程序包:

npm install -g anyproxy

如果是Mac 系統(tǒng)昼扛,可能需要在命令前添加sudo ,然后輸入密碼:

sudo npm install -g anyproxy

輸入以上命令后欲诺,電腦會自動從網(wǎng)絡(luò)下載程序包并安裝野揪。

參考網(wǎng)址:https://github.com/alibaba/anyproxy

3. 啟動AnyProxy

終端輸入:

anyproxy

Mac 系統(tǒng)需輸入(以后的命令也是需要輸入sudo ,下面就忽略不寫了):

sudo anyproxy

如出現(xiàn)下面提示瞧栗,則表明安裝成功:

4. 安裝HTTPS 網(wǎng)絡(luò)傳輸所需的證書

電腦安裝

微信采用加密的HTTPS 網(wǎng)絡(luò)傳輸斯稳,所以需要安裝證書。結(jié)束上面的運(yùn)行程序迹恐,一般為ctrl + c 挣惰。然后在終端運(yùn)行命令:

anyproxy --root

此時會在文件夾生成rootCA.crt 證書與對應(yīng)的密鑰rootCA.key,根據(jù)提示打開對應(yīng)文件夾殴边,雙擊安裝rootCA.crt 證書憎茂。

手機(jī)安裝

電腦命令行或終端輸入anyproxy 命令啟動代理程序,然后瀏覽器中輸入網(wǎng)址http://localhost:8002/qr_root锤岸,則會出現(xiàn)證書二維碼竖幔,然后手機(jī)掃描此證書二維碼,下載按照提示完成安裝即可是偷。

參考網(wǎng)址1:https://github.com/alibaba/anyproxy/wiki/HTTPS%E7%9B%B8%E5%85%B3%E6%95%99%E7%A8%8B

參考網(wǎng)址2:http://anyproxy.io/cn.html#配置幫助

安裝mysql 模塊部分

默認(rèn)你的電腦上已經(jīng)安裝了mysql 數(shù)據(jù)庫拳氢,現(xiàn)在node 連接mysql 數(shù)據(jù)庫募逞,也需要安裝一個程序包來實(shí)現(xiàn):

npm install -g mysql

程序部分

程序地址

windows 程序AnyProxy 默認(rèn)的安裝目錄在:C:\Users\你的用戶名\AppData\Roaming\npm\node_modules\anyproxy

Mac 安裝目錄為:/usr/local/lib/node_modules/anyproxy

本程序?yàn)樾薷暮驮黾覣nyProxy 中lib 文件中對應(yīng)的代碼部分。

我的代碼部分

我會發(fā)送給你下面5個文件馋评,你只需覆蓋掉lib 目錄中對應(yīng)的文件即可放接。(建議先備份)

./anyproxy
    ./lib
        myRule.js
        rule_default.js
        1.png
        requestHandler.js
        httpsServerMgr.js
  • 其中邏輯部分主要寫在myRule.js 文件中,此文件已做了詳細(xì)的注釋
  • rule_default.js 是判斷各種網(wǎng)絡(luò)請求數(shù)據(jù)然后調(diào)用對應(yīng)的方法
  • 1.png 為很小的一個圖片留特,替換手機(jī)所有圖片請求纠脾,加快網(wǎng)絡(luò)傳輸速度
  • 其余兩個文件是注釋掉了之前在終端打印的一些提示性的字符,不重要

運(yùn)行程序部分

anyproxy -i

終端輸入以上命令即可運(yùn)行蜕青。參數(shù)-i 表示開啟HTTPS 苟蹈。

可操作myRule.js 文件,選擇對應(yīng)的功能右核。修改文件后慧脱,需重啟程序。

運(yùn)行后蒙兰,確保電腦和手機(jī)在同一個WiFi 環(huán)境下磷瘤,然后根據(jù)提示設(shè)置手機(jī)WiFi 的代理芒篷,輸入代理網(wǎng)址與端口(運(yùn)行后終端會提示連接地址)搜变。

之后選擇查看公眾號文章,即可自動抓取數(shù)據(jù)至數(shù)據(jù)庫中针炉。

myRule.js 代碼主要部分

三個主要函數(shù):

getProfile - 對歷史頁的操作挠他,獲取文章其他數(shù)據(jù);插入自動翻頁代碼
getReadAndLikeNum - 獲取文章點(diǎn)贊篡帕、閱讀殖侵、打賞等數(shù)據(jù)
insertJsForRefresh - 對文章頁的操作,主要是插入自動翻頁代碼

代碼原理

此程序?yàn)槭录?qū)動镰烧。即一開始要給定一個觸發(fā)事件拢军,例如打開歷史詳情頁或打開某篇文章。

微信打開歷史詳情頁之后會觸發(fā)事件怔鳖,運(yùn)行getProfile 函數(shù)茉唉,跳至下一個歷史詳情頁后又會觸發(fā)打開歷史詳情頁此事件。

同理结执,微信打開文章頁會觸發(fā)事件運(yùn)行insertJsForRefresh 函數(shù)度陆,此函數(shù)會向網(wǎng)頁中插入一段腳本自動翻頁,當(dāng)翻頁后献幔,又會觸發(fā)此事件懂傀,然后一直運(yùn)行下去。同時蜡感,打開文章頁時蹬蚁,微信會請求另一個鏈接恃泪,然后會自動觸發(fā)getReadAndLikeNum 函數(shù)。

歷史詳情頁有4種插入js 代碼的方式缚忧,已在代碼中注釋悟泵。

Js 注入詳解

文章頁自動翻頁原理為在網(wǎng)頁head 部分插入類似以下形式代碼,表示隔5s 跳轉(zhuǎn)至下一個文章頁

<meta http-equiv="refresh" content="5;url=https://..." />

歷史詳情頁注入Js 腳本示例闪水,將以下腳本插入至返回給微信客戶端的數(shù)據(jù)中糕非,可以使網(wǎng)頁自動下拉至最低端,到最早一篇文章之后再跳轉(zhuǎn)至下一個歷史消息詳情頁:

<script type="text/javascript">
    var end = document.createElement("p");
    document.body.appendChild(end);
    (function scrollDown(){
        // 下拉至頁面最低端后球榆,微信會自動向服務(wù)器請求數(shù)據(jù)
        end.scrollIntoView();
        var loadMore = document.getElementsByClassName("loadmore with_line")[0];
        // 判斷是否到達(dá)最早一篇文章
        if (!loadMore.style.display) {
            document.body.scrollIntoView();
            // 插入meta朽肥,使10秒后自動翻頁
            var meta = document.createElement("meta");
            meta.httpEquiv = "refresh";meta.content = "10;url=' + nextProLink + '";
            document.head.appendChild(meta);
        } else {
            // 每個隨機(jī)時間段下拉網(wǎng)頁
            setTimeout(scrollDown,Math.floor(Math.random()*2000+1000));
        }
    })();
</script>

我在代碼部分寫了4個這樣類似的腳本,用于實(shí)現(xiàn)不同情況下特定的功能持钉。你可在運(yùn)行時作出選擇衡招。

數(shù)據(jù)庫部分

myRule.js 文件開頭會有數(shù)據(jù)庫連接,對應(yīng)修改成自己的數(shù)據(jù)庫配置每强。

// 創(chuàng)建數(shù)據(jù)庫連接始腾,需根據(jù)自己數(shù)據(jù)庫賬號密碼修改
var connection = mysql.createConnection({
    host: 'localhost',
    user: 'root',
    password: '0000',
    database: 'phone_weixin'
});

數(shù)據(jù)庫中有4張表,分別對應(yīng)文章信息空执,歷史消息抓取記錄和公眾號信息浪箭。

msg
history
mpaccout
content

表的結(jié)構(gòu)也在發(fā)你的文件中。在mysql 數(shù)據(jù)庫中新建好即可辨绊。

數(shù)據(jù)庫字段解釋

msg.sql
    id  -  文章id奶栖,自動遞增
    msg_title  -  文章標(biāo)題
    msg_link  -  文章永久鏈接
    publish_time  -  文章發(fā)布時間,13位時間戳形式
    modi_time  -  數(shù)據(jù)抓取時間门坷,13位時間戳形式
    read_num  -  閱讀量
    like_num  -  點(diǎn)贊量
    reward_total_count  -  安卓手機(jī)贊賞量
    msg_idx  -  文章發(fā)布位置宣鄙,首條、二條等等
    msg_biz  -  公眾號唯一標(biāo)識默蚌,重要
    msg_source_url  -  文章閱讀原文鏈接冻晤,若無則空
    msg_cover  -  文章封面圖片鏈接
    msg_digest  -  文章摘要
    is_fail  -  文章是否刪除,如果刪除改為1绸吸,下次就不在抓取
    copyright_stat  -  文章是否原創(chuàng)標(biāo)識 11為原創(chuàng) 100為無原創(chuàng) 101為轉(zhuǎn)發(fā)
    author  -  文章作者
    
mpaccount.sql
    id  -  公眾號id鼻弧,自動遞增
    biz  -  公眾號唯一標(biāo)識
    nickname  -  公眾號名稱
    metavalue  -  公眾號id
    
history.sql
    id  -  公眾號id,自動遞增
    biz  -  公眾號唯一標(biāo)識
    url  -  上次抓取的鏈接
    moditime  -  上次抓取時間
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末惯裕,一起剝皮案震驚了整個濱河市温数,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌蜻势,老刑警劉巖撑刺,帶你破解...
    沈念sama閱讀 217,277評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異握玛,居然都是意外死亡够傍,警方通過查閱死者的電腦和手機(jī)甫菠,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評論 3 393
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來冕屯,“玉大人寂诱,你說我怎么就攤上這事“财福” “怎么了痰洒?”我有些...
    開封第一講書人閱讀 163,624評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長浴韭。 經(jīng)常有香客問我丘喻,道長,這世上最難降的妖魔是什么念颈? 我笑而不...
    開封第一講書人閱讀 58,356評論 1 293
  • 正文 為了忘掉前任泉粉,我火速辦了婚禮,結(jié)果婚禮上榴芳,老公的妹妹穿的比我還像新娘嗡靡。我一直安慰自己,他們只是感情好窟感,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,402評論 6 392
  • 文/花漫 我一把揭開白布讨彼。 她就那樣靜靜地躺著,像睡著了一般肌括。 火紅的嫁衣襯著肌膚如雪点骑。 梳的紋絲不亂的頭發(fā)上酣难,一...
    開封第一講書人閱讀 51,292評論 1 301
  • 那天谍夭,我揣著相機(jī)與錄音,去河邊找鬼憨募。 笑死紧索,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的菜谣。 我是一名探鬼主播珠漂,決...
    沈念sama閱讀 40,135評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼尾膊!你這毒婦竟也來了媳危?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,992評論 0 275
  • 序言:老撾萬榮一對情侶失蹤冈敛,失蹤者是張志新(化名)和其女友劉穎待笑,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體抓谴,經(jīng)...
    沈念sama閱讀 45,429評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡暮蹂,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,636評論 3 334
  • 正文 我和宋清朗相戀三年寞缝,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片仰泻。...
    茶點(diǎn)故事閱讀 39,785評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡荆陆,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出集侯,到底是詐尸還是另有隱情被啼,我是刑警寧澤,帶...
    沈念sama閱讀 35,492評論 5 345
  • 正文 年R本政府宣布棠枉,位于F島的核電站趟据,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏术健。R本人自食惡果不足惜汹碱,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,092評論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望荞估。 院中可真熱鬧咳促,春花似錦、人聲如沸勘伺。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,723評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽飞醉。三九已至冲茸,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間缅帘,已是汗流浹背轴术。 一陣腳步聲響...
    開封第一講書人閱讀 32,858評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留钦无,地道東北人逗栽。 一個月前我還...
    沈念sama閱讀 47,891評論 2 370
  • 正文 我出身青樓,卻偏偏與公主長得像失暂,于是被迫代替她去往敵國和親彼宠。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,713評論 2 354

推薦閱讀更多精彩內(nèi)容

  • Ubuntu的發(fā)音 Ubuntu摧冀,源于非洲祖魯人和科薩人的語言,發(fā)作 oo-boon-too 的音。了解發(fā)音是有意...
    螢火蟲de夢閱讀 99,260評論 9 467
  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 172,099評論 25 707
  • linux資料總章2.1 1.0寫的不好抱歉 但是2.0已經(jīng)改了很多 但是錯誤還是無法避免 以后資料會慢慢更新 大...
    數(shù)據(jù)革命閱讀 12,161評論 2 33
  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理按价,服務(wù)發(fā)現(xiàn)惭适,斷路器,智...
    卡卡羅2017閱讀 134,654評論 18 139
  • 進(jìn)入職場后才發(fā)現(xiàn),excel無處不在框产,經(jīng)常會接到領(lǐng)導(dǎo)通知要做各種表格凄杯,尤其是繁瑣的數(shù)據(jù)匯總和篩選。但是每次做表總會...
    艾米小姐閱讀 1,956評論 13 93