WechatSogou[1]- 微信公眾號(hào)爬蟲(chóng)》滴牵基于搜狗微信搜索的微信公眾號(hào)爬蟲(chóng)接口姑子,可以擴(kuò)展成基于搜狗搜索的爬蟲(chóng),返回結(jié)果是列表测僵,每一項(xiàng)均是公眾號(hào)具體信息字典街佑。[1]: https://github.com/Chyroc/WechatSogou
DouBanSpider[2]- 豆瓣讀書(shū)爬蟲(chóng)谢翎。可以爬下豆瓣讀書(shū)標(biāo)簽下的所有圖書(shū)沐旨,按評(píng)分排名依次存儲(chǔ)森逮,存儲(chǔ)到Excel中,可方便大家篩選搜羅磁携,比如篩選評(píng)價(jià)人數(shù)>1000的高分書(shū)籍褒侧;可依據(jù)不同的主題存儲(chǔ)到Excel不同的Sheet ,采用User Agent偽裝為瀏覽器進(jìn)行爬取谊迄,并加入隨機(jī)延時(shí)來(lái)更好的模仿瀏覽器行為闷供,避免爬蟲(chóng)被封。[2]: https://github.com/lanbing510/DouBanSpider
zhihu_spider[3]- 知乎爬蟲(chóng)统诺。此項(xiàng)目的功能是爬取知乎用戶(hù)信息以及人際拓?fù)潢P(guān)系歪脏,爬蟲(chóng)框架使用scrapy,數(shù)據(jù)存儲(chǔ)使用mongodb粮呢。[3]: https://github.com/LiuRoy/zhihu_spider
bilibili-user[4]- Bilibili用戶(hù)爬蟲(chóng)婿失。總數(shù)據(jù)數(shù):20119918鬼贱,抓取字段:用戶(hù)id移怯,昵稱(chēng),性別这难,頭像舟误,等級(jí),經(jīng)驗(yàn)值姻乓,粉絲數(shù)嵌溢,生日,地址蹋岩,注冊(cè)時(shí)間赖草,簽名,等級(jí)與經(jīng)驗(yàn)值等剪个。抓取之后生成B站用戶(hù)數(shù)據(jù)報(bào)告秧骑。[4]: https://github.com/airingursb/bilibili-user
SinaSpider[5]- 新浪微博爬蟲(chóng)。主要爬取新浪微博用戶(hù)的個(gè)人信息扣囊、微博信息乎折、粉絲和關(guān)注。代碼獲取新浪微博Cookie進(jìn)行登錄侵歇,可通過(guò)多賬號(hào)登錄來(lái)防止新浪的反扒骂澄。主要使用 scrapy 爬蟲(chóng)框架。[5]: https://github.com/LiuXingMing/SinaSpider
distribute_crawler[6]- 小說(shuō)下載分布式爬蟲(chóng)惕虑。使用scrapy,redis, mongodb,graphite實(shí)現(xiàn)的一個(gè)分布式網(wǎng)絡(luò)爬蟲(chóng),底層存儲(chǔ)mongodb集群,分布式使用redis實(shí)現(xiàn),爬蟲(chóng)狀態(tài)顯示使用graphite實(shí)現(xiàn)坟冲,主要針對(duì)一個(gè)小說(shuō)站點(diǎn)磨镶。[6]: https://github.com/gnemoug/distribute_crawler
CnkiSpider[7]- 中國(guó)知網(wǎng)爬蟲(chóng)。設(shè)置檢索條件后健提,執(zhí)行src/CnkiSpider.py抓取數(shù)據(jù)琳猫,抓取數(shù)據(jù)存儲(chǔ)在/data目錄下,每個(gè)數(shù)據(jù)文件的第一行為字段名稱(chēng)矩桂。[7]: https://github.com/yanzhou/CnkiSpider
LianJiaSpider[8]- 鏈家網(wǎng)爬蟲(chóng)沸移。爬取北京地區(qū)鏈家歷年二手房成交記錄。涵蓋鏈家爬蟲(chóng)一文的全部代碼侄榴,包括鏈家模擬登錄代碼雹锣。[8]: https://github.com/lanbing510/LianJiaSpider
scrapy_jingdong[9]- 京東爬蟲(chóng)●希基于scrapy的京東網(wǎng)站爬蟲(chóng)蕊爵,保存格式為csv。[9]: https://github.com/taizilongxu/scrapy_jingdong
QQ-Groups-Spider[10]- QQ 群爬蟲(chóng)桦山。批量抓取 QQ 群信息攒射,包括群名稱(chēng)、群號(hào)恒水、群人數(shù)会放、群主、群簡(jiǎn)介等內(nèi)容钉凌,最終生成 XLS(X) / CSV 結(jié)果文件咧最。[10]: https://github.com/caspartse/QQ-Groups-Spider
wooyun_public[11]-烏云爬蟲(chóng)。 烏云公開(kāi)漏洞御雕、知識(shí)庫(kù)爬蟲(chóng)和搜索矢沿。全部公開(kāi)漏洞的列表和每個(gè)漏洞的文本內(nèi)容存在mongodb中,大概約2G內(nèi)容酸纲;如果整站爬全部文本和圖片作為離線(xiàn)查詢(xún)捣鲸,大概需要10G空間、2小時(shí)(10M電信帶寬)闽坡;爬取全部知識(shí)庫(kù)栽惶,總共約500M空間。漏洞搜索使用了Flask作為web server疾嗅,bootstrap作為前端外厂。[11]: https://github.com/hanc00l/wooyun_public
2016.9.11補(bǔ)充:
QunarSpider[12]- 去哪兒網(wǎng)爬蟲(chóng)。 網(wǎng)絡(luò)爬蟲(chóng)之Selenium使用代理登陸:爬取去哪兒網(wǎng)站宪迟,使用selenium模擬瀏覽器登陸酣衷,獲取翻頁(yè)操作交惯。代理可以存入一個(gè)文件次泽,程序讀取并使用穿仪。支持多進(jìn)程抓取。[12]: https://github.com/lining0806/QunarSpider
findtrip[13]- 機(jī)票爬蟲(chóng)(去哪兒和攜程網(wǎng))意荤。Findtrip是一個(gè)基于Scrapy的機(jī)票爬蟲(chóng)啊片,目前整合了國(guó)內(nèi)兩大機(jī)票網(wǎng)站(去哪兒 + 攜程)。[13]: https://github.com/fankcoder/findtrip
163spider[14] - 基于requests玖像、MySQLdb紫谷、torndb的網(wǎng)易客戶(hù)端內(nèi)容爬蟲(chóng)。[14]: https://github.com/leyle/163spider
doubanspiders[15]- 豆瓣電影捐寥、書(shū)籍笤昨、小組、相冊(cè)握恳、東西等爬蟲(chóng)集瞒窒。[15]: https://github.com/dontcontactme/doubanspiders
QQSpider[16]- QQ空間爬蟲(chóng),包括日志乡洼、說(shuō)說(shuō)崇裁、個(gè)人信息等,一天可抓取 400 萬(wàn)條數(shù)據(jù)束昵。[16]:https://github.com/LiuXingMing/QQSpider
baidu-music-spider[17]- 百度mp3全站爬蟲(chóng)拔稳,使用redis支持?jǐn)帱c(diǎn)續(xù)傳。[17]: https://github.com/Shu-Ji/baidu-music-spider
tbcrawler[18]- 淘寶和天貓的爬蟲(chóng),可以根據(jù)搜索關(guān)鍵詞,物品id來(lái)抓去頁(yè)面的信息锹雏,數(shù)據(jù)存儲(chǔ)在mongodb巴比。[18]: https://github.com/pakoo/tbcrawler
stockholm[19]- 一個(gè)股票數(shù)據(jù)(滬深)爬蟲(chóng)和選股策略測(cè)試框架。根據(jù)選定的日期范圍抓取所有滬深兩市股票的行情數(shù)據(jù)逼侦。支持使用表達(dá)式定義選股策略匿辩。支持多線(xiàn)程處理。保存數(shù)據(jù)到JSON文件榛丢、CSV文件铲球。[19]https://github.com/benitoro/stockholm
--------------------------
本項(xiàng)目收錄各種Python網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)開(kāi)源代碼,并長(zhǎng)期更新晰赞,歡迎補(bǔ)充稼病。
更多Python干貨歡迎掃碼關(guān)注:
微信公眾號(hào):Python中文社區(qū)
知乎專(zhuān)欄:Python中文社區(qū) <https://zhuanlan.zhihu.com/zimei>
Python QQ交流群 :273186166
--------------------------
微信公眾號(hào):Python中文社區(qū)
Python中文社區(qū) QQ交流群:
--------------------------
Python學(xué)習(xí)資源下載:
Python開(kāi)發(fā)基礎(chǔ)教學(xué)視頻百度網(wǎng)盤(pán)下載地址:http://pan.baidu.com/s/1dEAlfSP
(密碼請(qǐng)關(guān)注微信公眾號(hào)“Python中文社區(qū)”后回復(fù)“視頻”二字獲取)
Python學(xué)習(xí)資料PDF電子書(shū)大合集百度網(wǎng)盤(pán)下載地址:http://pan.baidu.com/s/1bpuqex5
(密碼請(qǐng)關(guān)注微信公眾號(hào)“Python中文社區(qū)”后回復(fù)“資料”二字獲纫从恪)
Python學(xué)習(xí)思維腦圖大全匯總打包百度網(wǎng)盤(pán)下載地址?:http://pan.baidu.com/s/1qYH6Tek
(密碼請(qǐng)關(guān)注微信公眾號(hào)“Python中文社區(qū)”后回復(fù)“思維”二字獲热蛔摺)