GitHub 微信公眾號(hào)爬蟲(chóng)推薦
本文推薦 GitHub 微信公眾號(hào)爬蟲(chóng)article_spider 盗似。
微信公眾號(hào)爬蟲(chóng)有別于一般的網(wǎng)頁(yè)爬蟲(chóng)蛾方,由于是一個(gè)相對(duì)封閉的內(nèi)容平臺(tái),入口比較少,所以難度就有點(diǎn)大了哀军。大概查找了一下,發(fā)覺(jué)基本上不能自動(dòng)化的打却,無(wú)論是用 Selenium 杉适,抓包工具(Fiddler);還是從搜狗微信搜索柳击,”管理”-“素材管理”中的“公眾號(hào)查找”猿推,都只能是實(shí)現(xiàn)半自動(dòng)化。而且有很多文章介紹的方法或是從 GitHub 上找到的大多源碼都不能用了捌肴。
最近也有保存微信公眾號(hào)歷史文章的需求蹬叭,想著由于時(shí)間關(guān)系以及難度關(guān)系就不重復(fù)造輪子了藕咏。幸運(yùn)的是從 GitHub 上找到了一個(gè)可用的源碼倉(cāng)庫(kù)article_spider,(地址是:https://github.com/f111fei/article_spider)在此感謝源碼作者具垫。
article_spider 已經(jīng)實(shí)現(xiàn)以下功能:
- 爬取公眾號(hào)所有文章數(shù)據(jù)
- 支持自動(dòng)識(shí)別驗(yàn)證碼
- 離線數(shù)據(jù)庫(kù)侈离,包含文章原始信息,文章圖片
- 微信文章預(yù)覽
article_spider 的 README 寫(xiě)得很明了筝蚕,除了開(kāi)箱即用卦碾,還是源碼學(xué)習(xí)的好材料。
如果你有保存微信公眾號(hào)歷史文章的需求或是想學(xué)習(xí)微信公眾號(hào)爬蟲(chóng)起宽,趕緊嘗試下article_spider 吧:https://github.com/f111fei/article_spider