wechat_spider 微信爬蟲

基于Node 的微信爬蟲士鸥，通過中間人代理的原理，批量獲取微信文章數(shù)據(jù)谆级，包括閱讀量烤礁、點贊量和評論等數(shù)據(jù)。

開始

安裝前準(zhǔn)備

查看安裝 node肥照，版本大于 8.8.1
安裝 MongoDB脚仔，版本大于 3.4.6
安裝Redis
安裝Node 全局模塊nodemon 和pm2 查看

安裝

git clone https://github.com/lqqyt2423/wechat_spider.git
cd wechat_spider
npm install

本項目基于代理模塊AnyProxy，解析微信HTTPS 請求需在電腦和手機(jī)上都安裝證書舆绎。AnyProxy 證書安裝鲤脏。

使用

Administrator@PC-201805221036 MINGW64 /e/ufutx_project/wechat_spider (master)
$ npm start

> wechat_spider@1.1.0 start E:\ufutx_project\wechat_spider
> nodemon index.js --ignore client/

[nodemon] 1.17.5
[nodemon] to restart at any time, enter `rs`
[nodemon] watching: *.*
[nodemon] starting `node index.js`
請配置代理:  xx.xx.xx.xx:8101
可視化界面: http://localhost:8104

確保電腦和手機(jī)連接同一WIFI ，npm start 之后，命令行輸出請配置代理: xx.xx.xx.xx:8101 類似語句猎醇，手機(jī)設(shè)置代理為此IP 和端口（即為AnyProxy 證書安裝的最后一步：設(shè)置代理）
瀏覽器打開可視化界面: http://localhost:8104
打開任意公眾號 =》查看"歷史文章" =》便自動幫你爬取數(shù)據(jù) =》觀察電腦命令行的輸出窥突，查看數(shù)據(jù)是否保存至MongoDB

自定義配置

目前可支持的配置項舉例如下：
* 控制是否開啟文章或歷史詳情頁自動跳轉(zhuǎn)
* 控制跳轉(zhuǎn)時間間隔
* 根據(jù)文章發(fā)布時間控制抓取范圍
* 是否保存文章正文內(nèi)容
* 是否保存文章評論
* 可編輯index.js ，config.js 和targetBiz.json 進(jìn)行自定義配置姑食。文件中注釋有詳細(xì)說明波岛。

前端頁面由React 編寫茅坛，如需修改音半，可編輯client 文件中的代碼。

MongoDB 數(shù)據(jù)信息

數(shù)據(jù)庫database: wechat_spider

數(shù)據(jù)表collections:

posts - 文章數(shù)據(jù)
profiles - 公眾號數(shù)據(jù)
comments - 評論數(shù)據(jù)
categories - 自定義的公眾號分類

從MongoDB 導(dǎo)出數(shù)據(jù)

mongoexport --db wechat_spider --collection posts --type=csv --fields title,link,publishAt,readNum,likeNum,msgBiz,msgMid,msgIdx,sourceUrl,cover,digest,isFail --out ~/Desktop/posts.csv

以上命令會導(dǎo)出數(shù)據(jù)至桌面的posts.csv 中贡蓖。

最后編輯于：2018.05.29 20:41:16

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末曹鸠，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子斥铺，更是在濱河造成了極大的恐慌彻桃，老刑警劉巖，帶你破解...
沈念sama閱讀 211,948評論 6贊 492
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件晾蜘，死亡現(xiàn)場離奇詭異邻眷，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)剔交，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,371評論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門肆饶，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人岖常，你說我怎么就攤上這事驯镊。” “怎么了竭鞍？”我有些...
開封第一講書人閱讀 157,490評論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵板惑，是天一觀的道長。經(jīng)常有香客問我偎快，道長冯乘，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 56,521評論 1贊 284
?港島之戀（遺憾婚禮）
正文為了忘掉前任晒夹，我火速辦了婚禮裆馒，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘惋戏。我一直安慰自己领追，他們只是感情好，可當(dāng)我...
茶點故事閱讀 65,627評論 6贊 386
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布响逢。她就那樣靜靜地躺著绒窑，像睡著了一般。火紅的嫁衣襯著肌膚如雪舔亭。梳的紋絲不亂的頭發(fā)上些膨，一...
開封第一講書人閱讀 49,842評論 1贊 290
城市分裂傳說
那天蟀俊，我揣著相機(jī)與錄音，去河邊找鬼订雾。笑死肢预，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的洼哎。我是一名探鬼主播烫映，決...
沈念sama閱讀 38,997評論 3贊 408
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼噩峦！你這毒婦竟也來了锭沟？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 37,741評論 0贊 268
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤识补，失蹤者是張志新（化名）和其女友劉穎族淮，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體凭涂，經(jīng)...
沈念sama閱讀 44,203評論 1贊 303
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡祝辣，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,534評論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了切油。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蝙斜。...
茶點故事閱讀 38,673評論 1贊 341
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖白翻，靈堂內(nèi)的尸體忽然破棺而出乍炉，到底是詐尸還是另有隱情，我是刑警寧澤滤馍，帶...
沈念sama閱讀 34,339評論 4贊 330
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布岛琼，位于F島的核電站，受9級特大地震影響巢株，放射性物質(zhì)發(fā)生泄漏槐瑞。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 39,955評論 3贊 313
男人毒藥：我在死后第九天來索命
文/蒙蒙一阁苞、第九天我趴在偏房一處隱蔽的房頂上張望困檩。院中可真熱鬧，春花似錦那槽、人聲如沸悼沿。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,770評論 0贊 21
一樁弒父案骚灸，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽糟趾。三九已至，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間义郑，已是汗流浹背蝶柿。一陣腳步聲響...
開封第一講書人閱讀 32,000評論 1贊 266
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留非驮，地道東北人交汤。一個月前我還...
沈念sama閱讀 46,394評論 2贊 360
代替公主和親
正文我出身青樓，卻偏偏與公主長得像劫笙，于是被迫代替她去往敵國和親芙扎。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 43,562評論 2贊 349

wechat_spider 微信爬蟲

開始

安裝前準(zhǔn)備

安裝

使用

自定義配置

MongoDB 數(shù)據(jù)信息

從MongoDB 導(dǎo)出數(shù)據(jù)

推薦閱讀更多精彩內(nèi)容