推薦｜23個Python爬蟲開源項目代碼：爬取微信揪漩、淘寶、豆瓣吏口、知乎奄容、微博等

今天為大家整理了23個Python爬蟲項目冰更。整理的原因是，爬蟲入門簡單快速昂勒，也非常適合新入門的小伙伴培養(yǎng)信心蜀细。所有鏈接指向GitHub，祝大家玩的愉快

1戈盈、WechatSogou [1]– 微信公眾號爬蟲审葬。

基于搜狗微信搜索的微信公眾號爬蟲接口，可以擴展成基于搜狗搜索的爬蟲奕谭，返回結(jié)果是列表，每一項均是公眾號具體信息字典痴荐。

github地址：https://github.com/Chyroc/WechatSogou

2血柳、DouBanSpider [2]– 豆瓣讀書爬蟲。

可以爬下豆瓣讀書標簽下的所有圖書生兆，按評分排名依次存儲难捌，存儲到Excel中，可方便大家篩選搜羅鸦难，比如篩選評價人數(shù)>1000的高分書籍根吁；可依據(jù)不同的主題存儲到Excel不同的Sheet ，采用User Agent偽裝為瀏覽器進行爬取合蔽，并加入隨機延時來更好的模仿瀏覽器行為击敌，避免爬蟲被封。

github地址：https://github.com/lanbing510/DouBanSpider

3拴事、zhihu_spider [3]– 知乎爬蟲沃斤。

此項目的功能是爬取知乎用戶信息以及人際拓撲關(guān)系，爬蟲框架使用scrapy刃宵，數(shù)據(jù)存儲使用mongo

github地址：https://github.com/LiuRoy/zhihu_spider

4衡瓶、bilibili-user [4]– Bilibili用戶爬蟲。

總數(shù)據(jù)數(shù)：20119918牲证，抓取字段：用戶id哮针，昵稱，性別坦袍，頭像十厢，等級，經(jīng)驗值捂齐，粉絲數(shù)寿烟，生日，地址辛燥，注冊時間筛武，簽名缝其，等級與經(jīng)驗值等。抓取之后生成B站用戶數(shù)據(jù)報告徘六。

github地址：https://github.com/airingursb/bilibili-user

5内边、SinaSpider [5]– 新浪微博爬蟲。

主要爬取新浪微博用戶的個人信息待锈、微博信息漠其、粉絲和關(guān)注。代碼獲取新浪微博Cookie進行登錄竿音，可通過多賬號登錄來防止新浪的反扒和屎。主要使用 scrapy 爬蟲框架。

github地址：https://github.com/LiuXingMing/SinaSpider

6春瞬、distribute_crawler [6]– 小說下載分布式爬蟲柴信。

使用scrapy,Redis, MongoDB,graphite實現(xiàn)的一個分布式網(wǎng)絡(luò)爬蟲,底層存儲MongoDB集群,分布式使用Redis實現(xiàn),爬蟲狀態(tài)顯示使用graphite實現(xiàn)，主要針對一個小說站點宽气。

github地址：https://github.com/gnemoug/distribute_crawler

7随常、CnkiSpider [7]– 中國知網(wǎng)爬蟲。

設(shè)置檢索條件后萄涯，執(zhí)行src/CnkiSpider.py抓取數(shù)據(jù)绪氛，抓取數(shù)據(jù)存儲在/data目錄下，每個數(shù)據(jù)文件的第一行為字段名稱涝影。

github地址：https://github.com/yanzhou/CnkiSpider

8枣察、LianJiaSpider [8]– 鏈家網(wǎng)爬蟲。

爬取北京地區(qū)鏈家歷年二手房成交記錄燃逻。涵蓋鏈家爬蟲一文的全部代碼询件，包括鏈家模擬登錄代碼。

github地址：https://github.com/lanbing510/LianJiaSpider

9唆樊、scrapy_jingdong [9]– 京東爬蟲宛琅。

基于scrapy的京東網(wǎng)站爬蟲，保存格式為csv逗旁。

github地址：https://github.com/taizilongxu/scrapy_jingdong

10嘿辟、QQ-Groups-Spider [10]– QQ 群爬蟲。

批量抓取 QQ 群信息片效，包括群名稱红伦、群號、群人數(shù)淀衣、群主昙读、群簡介等內(nèi)容，最終生成 XLS(X) / CSV 結(jié)果文件膨桥。

github地址：https://github.com/caspartse/QQ-Groups-Spider

11蛮浑、wooyun_public[11]-烏云爬蟲唠叛。

烏云公開漏洞、知識庫爬蟲和搜索沮稚。全部公開漏洞的列表和每個漏洞的文本內(nèi)容存在MongoDB中艺沼，大概約2G內(nèi)容；如果整站爬全部文本和圖片作為離線查詢蕴掏，大概需要10G空間障般、2小時（10M電信帶寬）；爬取全部知識庫盛杰，總共約500M空間挽荡。漏洞搜索使用了Flask作為web server，bootstrap作為前端即供。

https://github.com/hanc00l/wooyun_public

12定拟、spider[12]– hao123網(wǎng)站爬蟲。

以hao123為入口頁面募狂，滾動爬取外鏈，收集網(wǎng)址角雷，并記錄網(wǎng)址上的內(nèi)鏈和外鏈數(shù)目祸穷，記錄title等信息，windows7 32位上測試勺三，目前每24個小時雷滚，可收集數(shù)據(jù)為10萬左右

https://github.com/simapple/spider

13、findtrip [13]– 機票爬蟲（去哪兒和攜程網(wǎng)）吗坚。

Findtrip是一個基于Scrapy的機票爬蟲祈远，目前整合了國內(nèi)兩大機票網(wǎng)站（去哪兒 + 攜程）。

https://github.com/fankcoder/findtrip

14商源、163spider [14] – 基于requests车份、MySQLdb、torndb的網(wǎng)易客戶端內(nèi)容爬蟲

https://github.com/leyle/163spider

15牡彻、doubanspiders[15]– 豆瓣電影扫沼、書籍、小組庄吼、相冊缎除、東西等爬蟲集

https://github.com/fanpei91/doubanspiders

16、QQSpider [16]– QQ空間爬蟲总寻，包括日志器罐、說說、個人信息等渐行，一天可抓取 400 萬條數(shù)據(jù)轰坊。

https://github.com/LiuXingMing/QQSpider

17铸董、baidu-music-spider [17]– 百度mp3全站爬蟲，使用redis支持斷點續(xù)傳衰倦。

https://github.com/Shu-Ji/baidu-music-spider

18袒炉、tbcrawler[18]– 淘寶和天貓的爬蟲,可以根據(jù)搜索關(guān)鍵詞,物品id來抓去頁面的信息，數(shù)據(jù)存儲在mongodb樊零。

https://github.com/pakoo/tbcrawler

stockholm [19]– 一個股票數(shù)據(jù)（滬深）爬蟲和選股策略測試框架我磁。根據(jù)選定的日期范圍抓19、取所有滬深兩市股票的行情數(shù)據(jù)驻襟。支持使用表達式定義選股策略夺艰。支持多線程處理。保存數(shù)據(jù)到JSON文件沉衣、CSV文件郁副。

https://github.com/benitoro/stockholm

20、BaiduyunSpider[20]-百度云盤爬蟲豌习。

https://github.com/k1995/BaiduyunSpider

21存谎、Spider[21]-社交數(shù)據(jù)爬蟲。支持微博,知乎,豆瓣肥隆。

https://github.com/Qutan/Spider

22既荚、proxy pool[22]-Python爬蟲代理IP池(proxy pool)。

https://github.com/jhao104/proxy_pool

23栋艳、music-163[23]-爬取網(wǎng)易云音樂所有歌曲的評論恰聘。

https://github.com/RitterHou/music-163

最后編輯于：2019.10.09 09:53:08

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市吸占，隨后出現(xiàn)的幾起案子晴叨，更是在濱河造成了極大的恐慌，老刑警劉巖矾屯，帶你破解...
沈念sama閱讀 218,858評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件兼蕊，死亡現(xiàn)場離奇詭異，居然都是意外死亡件蚕，警方通過查閱死者的電腦和手機遍略，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,372評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來骤坐，“玉大人绪杏，你說我怎么就攤上這事∨ι埽” “怎么了蕾久？”我有些...
開封第一講書人閱讀 165,282評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長拌夏。經(jīng)常有香客問我僧著，道長履因，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,842評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任盹愚，我火速辦了婚禮栅迄，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘皆怕。我一直安慰自己毅舆，他們只是感情好，可當我...
茶點故事閱讀 67,857評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布愈腾。她就那樣靜靜地躺著憋活，像睡著了一般。火紅的嫁衣襯著肌膚如雪虱黄。梳的紋絲不亂的頭發(fā)上悦即，一...
開封第一講書人閱讀 51,679評論 1贊 305
城市分裂傳說
那天，我揣著相機與錄音橱乱，去河邊找鬼辜梳。笑死，一個胖子當著我的面吹牛泳叠，可吹牛的內(nèi)容都是我干的作瞄。我是一名探鬼主播，決...
沈念sama閱讀 40,406評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼析二，長吁一口氣：“原來是場噩夢啊……” “哼粉洼！你這毒婦竟也來了节预？” 一聲冷哼從身側(cè)響起叶摄，我...
開封第一講書人閱讀 39,311評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎安拟，沒想到半個月后蛤吓，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,767評論 1贊 315
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡糠赦，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,945評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年会傲，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片拙泽。...
茶點故事閱讀 40,090評論 1贊 350
活死人
序言：一個原本活蹦亂跳的男人離奇死亡淌山，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出顾瞻，到底是詐尸還是另有隱情泼疑，我是刑警寧澤，帶...
沈念sama閱讀 35,785評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布荷荤，位于F島的核電站退渗，受9級特大地震影響移稳，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜会油，卻給世界環(huán)境...
茶點故事閱讀 41,420評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一个粱、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧翻翩，春花似錦都许、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,988評論 0贊 22
一樁弒父案梭稚，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至絮吵，卻和暖如春弧烤，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背蹬敲。一陣腳步聲響...
開封第一講書人閱讀 33,101評論 1贊 271
情欲美人皮
我被黑心中介騙來泰國打工暇昂，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人伴嗡。一個月前我還...
沈念sama閱讀 48,298評論 3贊 372
代替公主和親
正文我出身青樓急波，卻偏偏與公主長得像，于是被迫代替她去往敵國和親瘪校。傳聞我的和親對象是個殘疾皇子澄暮，可洞房花燭夜當晚...
茶點故事閱讀 45,033評論 2贊 355

推薦｜23個Python爬蟲開源項目代碼：爬取微信揭糕、淘寶萝快、豆瓣、知乎著角、微博等

推薦｜23個Python爬蟲開源項目代碼：爬取微信揪漩、淘寶、豆瓣吏口、知乎奄容、微博等

推薦閱讀更多精彩內(nèi)容