wechat_spider 微信爬蟲

基于Node 的微信爬蟲士鸥,通過中間人代理的原理,批量獲取微信文章數(shù)據(jù)谆级,包括閱讀量烤礁、點贊量和評論等數(shù)據(jù)。

開始

安裝前準(zhǔn)備

安裝

git clone https://github.com/lqqyt2423/wechat_spider.git
cd wechat_spider
npm install

本項目基于代理模塊AnyProxy,解析微信HTTPS 請求需在電腦和手機(jī)上都安裝證書舆绎。AnyProxy 證書安裝鲤脏。

使用

Administrator@PC-201805221036 MINGW64 /e/ufutx_project/wechat_spider (master)
$ npm start

> wechat_spider@1.1.0 start E:\ufutx_project\wechat_spider
> nodemon index.js --ignore client/

[nodemon] 1.17.5
[nodemon] to restart at any time, enter `rs`
[nodemon] watching: *.*
[nodemon] starting `node index.js`
請配置代理:  xx.xx.xx.xx:8101
可視化界面: http://localhost:8104
  • 確保電腦和手機(jī)連接同一WIFI ,npm start 之后,命令行輸出請配置代理: xx.xx.xx.xx:8101 類似語句猎醇,手機(jī)設(shè)置代理為此IP 和端口(即為AnyProxy 證書安裝的最后一步:設(shè)置代理)
  • 瀏覽器打開可視化界面: http://localhost:8104
  • 打開任意公眾號 =》查看"歷史文章" =》便自動幫你爬取數(shù)據(jù) =》觀察電腦命令行的輸出窥突,查看數(shù)據(jù)是否保存至MongoDB

自定義配置

目前可支持的配置項舉例如下:
* 控制是否開啟文章或歷史詳情頁自動跳轉(zhuǎn)
* 控制跳轉(zhuǎn)時間間隔
* 根據(jù)文章發(fā)布時間控制抓取范圍
* 是否保存文章正文內(nèi)容
* 是否保存文章評論
* 可編輯index.js ,config.js 和targetBiz.json 進(jìn)行自定義配置姑食。文件中注釋有詳細(xì)說明波岛。

前端頁面由React 編寫茅坛,如需修改音半,可編輯client 文件中的代碼。

MongoDB 數(shù)據(jù)信息

數(shù)據(jù)庫database: wechat_spider

數(shù)據(jù)表collections:

  • posts - 文章數(shù)據(jù)
  • profiles - 公眾號數(shù)據(jù)
  • comments - 評論數(shù)據(jù)
  • categories - 自定義的公眾號分類

從MongoDB 導(dǎo)出數(shù)據(jù)

mongoexport --db wechat_spider --collection posts --type=csv --fields title,link,publishAt,readNum,likeNum,msgBiz,msgMid,msgIdx,sourceUrl,cover,digest,isFail --out ~/Desktop/posts.csv

以上命令會導(dǎo)出數(shù)據(jù)至桌面的posts.csv 中贡蓖。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末曹鸠,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子斥铺,更是在濱河造成了極大的恐慌彻桃,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,948評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件晾蜘,死亡現(xiàn)場離奇詭異邻眷,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)剔交,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,371評論 3 385
  • 文/潘曉璐 我一進(jìn)店門肆饶,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人岖常,你說我怎么就攤上這事驯镊。” “怎么了竭鞍?”我有些...
    開封第一講書人閱讀 157,490評論 0 348
  • 文/不壞的土叔 我叫張陵板惑,是天一觀的道長。 經(jīng)常有香客問我偎快,道長冯乘,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,521評論 1 284
  • 正文 為了忘掉前任晒夹,我火速辦了婚禮裆馒,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘惋戏。我一直安慰自己领追,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 65,627評論 6 386
  • 文/花漫 我一把揭開白布响逢。 她就那樣靜靜地躺著绒窑,像睡著了一般。 火紅的嫁衣襯著肌膚如雪舔亭。 梳的紋絲不亂的頭發(fā)上些膨,一...
    開封第一講書人閱讀 49,842評論 1 290
  • 那天蟀俊,我揣著相機(jī)與錄音,去河邊找鬼订雾。 笑死肢预,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的洼哎。 我是一名探鬼主播烫映,決...
    沈念sama閱讀 38,997評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼噩峦!你這毒婦竟也來了锭沟?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,741評論 0 268
  • 序言:老撾萬榮一對情侶失蹤识补,失蹤者是張志新(化名)和其女友劉穎族淮,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體凭涂,經(jīng)...
    沈念sama閱讀 44,203評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡祝辣,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,534評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了切油。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蝙斜。...
    茶點故事閱讀 38,673評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖白翻,靈堂內(nèi)的尸體忽然破棺而出乍炉,到底是詐尸還是另有隱情,我是刑警寧澤滤馍,帶...
    沈念sama閱讀 34,339評論 4 330
  • 正文 年R本政府宣布岛琼,位于F島的核電站,受9級特大地震影響巢株,放射性物質(zhì)發(fā)生泄漏槐瑞。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,955評論 3 313
  • 文/蒙蒙 一阁苞、第九天 我趴在偏房一處隱蔽的房頂上張望困檩。 院中可真熱鬧,春花似錦那槽、人聲如沸悼沿。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,770評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽糟趾。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間义郑,已是汗流浹背蝶柿。 一陣腳步聲響...
    開封第一講書人閱讀 32,000評論 1 266
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留非驮,地道東北人交汤。 一個月前我還...
    沈念sama閱讀 46,394評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像劫笙,于是被迫代替她去往敵國和親芙扎。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,562評論 2 349

推薦閱讀更多精彩內(nèi)容