推薦|23個Python爬蟲開源項目代碼:爬取微信揪漩、淘寶、豆瓣吏口、知乎奄容、微博等

今天為大家整理了23個Python爬蟲項目冰更。整理的原因是,爬蟲入門簡單快速昂勒,也非常適合新入門的小伙伴培養(yǎng)信心蜀细。所有鏈接指向GitHub,祝大家玩的愉快

1戈盈、WechatSogou [1]– 微信公眾號爬蟲审葬。

基于搜狗微信搜索的微信公眾號爬蟲接口,可以擴展成基于搜狗搜索的爬蟲奕谭,返回結(jié)果是列表,每一項均是公眾號具體信息字典痴荐。

github地址:https://github.com/Chyroc/WechatSogou

2血柳、DouBanSpider [2]– 豆瓣讀書爬蟲。

可以爬下豆瓣讀書標簽下的所有圖書生兆,按評分排名依次存儲难捌,存儲到Excel中,可方便大家篩選搜羅鸦难,比如篩選評價人數(shù)>1000的高分書籍根吁;可依據(jù)不同的主題存儲到Excel不同的Sheet ,采用User Agent偽裝為瀏覽器進行爬取合蔽,并加入隨機延時來更好的模仿瀏覽器行為击敌,避免爬蟲被封。

github地址:https://github.com/lanbing510/DouBanSpider

3拴事、zhihu_spider [3]– 知乎爬蟲沃斤。

此項目的功能是爬取知乎用戶信息以及人際拓撲關(guān)系,爬蟲框架使用scrapy刃宵,數(shù)據(jù)存儲使用mongo

github地址:https://github.com/LiuRoy/zhihu_spider

4衡瓶、bilibili-user [4]– Bilibili用戶爬蟲。

總數(shù)據(jù)數(shù):20119918牲证,抓取字段:用戶id哮针,昵稱,性別坦袍,頭像十厢,等級,經(jīng)驗值捂齐,粉絲數(shù)寿烟,生日,地址辛燥,注冊時間筛武,簽名缝其,等級與經(jīng)驗值等。抓取之后生成B站用戶數(shù)據(jù)報告徘六。

github地址:https://github.com/airingursb/bilibili-user

5内边、SinaSpider [5]– 新浪微博爬蟲。

主要爬取新浪微博用戶的個人信息待锈、微博信息漠其、粉絲和關(guān)注。代碼獲取新浪微博Cookie進行登錄竿音,可通過多賬號登錄來防止新浪的反扒和屎。主要使用 scrapy 爬蟲框架。

github地址:https://github.com/LiuXingMing/SinaSpider

6春瞬、distribute_crawler [6]– 小說下載分布式爬蟲柴信。

使用scrapy,Redis, MongoDB,graphite實現(xiàn)的一個分布式網(wǎng)絡(luò)爬蟲,底層存儲MongoDB集群,分布式使用Redis實現(xiàn),爬蟲狀態(tài)顯示使用graphite實現(xiàn),主要針對一個小說站點宽气。

github地址:https://github.com/gnemoug/distribute_crawler

7随常、CnkiSpider [7]– 中國知網(wǎng)爬蟲。

設(shè)置檢索條件后萄涯,執(zhí)行src/CnkiSpider.py抓取數(shù)據(jù)绪氛,抓取數(shù)據(jù)存儲在/data目錄下,每個數(shù)據(jù)文件的第一行為字段名稱涝影。

github地址:https://github.com/yanzhou/CnkiSpider

8枣察、LianJiaSpider [8]– 鏈家網(wǎng)爬蟲。

爬取北京地區(qū)鏈家歷年二手房成交記錄燃逻。涵蓋鏈家爬蟲一文的全部代碼询件,包括鏈家模擬登錄代碼。

github地址:https://github.com/lanbing510/LianJiaSpider

9唆樊、scrapy_jingdong [9]– 京東爬蟲宛琅。

基于scrapy的京東網(wǎng)站爬蟲,保存格式為csv逗旁。

github地址:https://github.com/taizilongxu/scrapy_jingdong

10嘿辟、QQ-Groups-Spider [10]– QQ 群爬蟲。

批量抓取 QQ 群信息片效,包括群名稱红伦、群號、群人數(shù)淀衣、群主昙读、群簡介等內(nèi)容,最終生成 XLS(X) / CSV 結(jié)果文件膨桥。

github地址:https://github.com/caspartse/QQ-Groups-Spider

11蛮浑、wooyun_public[11]-烏云爬蟲唠叛。

烏云公開漏洞、知識庫爬蟲和搜索沮稚。全部公開漏洞的列表和每個漏洞的文本內(nèi)容存在MongoDB中艺沼,大概約2G內(nèi)容;如果整站爬全部文本和圖片作為離線查詢蕴掏,大概需要10G空間障般、2小時(10M電信帶寬);爬取全部知識庫盛杰,總共約500M空間挽荡。漏洞搜索使用了Flask作為web server,bootstrap作為前端即供。

https://github.com/hanc00l/wooyun_public

12定拟、spider[12]– hao123網(wǎng)站爬蟲。

以hao123為入口頁面募狂,滾動爬取外鏈,收集網(wǎng)址角雷,并記錄網(wǎng)址上的內(nèi)鏈和外鏈數(shù)目祸穷,記錄title等信息,windows7 32位上測試勺三,目前每24個小時雷滚,可收集數(shù)據(jù)為10萬左右

https://github.com/simapple/spider

13、findtrip [13]– 機票爬蟲(去哪兒和攜程網(wǎng))吗坚。

Findtrip是一個基于Scrapy的機票爬蟲祈远,目前整合了國內(nèi)兩大機票網(wǎng)站(去哪兒 + 攜程)。

https://github.com/fankcoder/findtrip

14商源、163spider [14] – 基于requests车份、MySQLdb、torndb的網(wǎng)易客戶端內(nèi)容爬蟲

https://github.com/leyle/163spider

15牡彻、doubanspiders[15]– 豆瓣電影扫沼、書籍、小組庄吼、相冊缎除、東西等爬蟲集

https://github.com/fanpei91/doubanspiders

16、QQSpider [16]– QQ空間爬蟲总寻,包括日志器罐、說說、個人信息等渐行,一天可抓取 400 萬條數(shù)據(jù)轰坊。

https://github.com/LiuXingMing/QQSpider

17铸董、baidu-music-spider [17]– 百度mp3全站爬蟲,使用redis支持斷點續(xù)傳衰倦。

https://github.com/Shu-Ji/baidu-music-spider

18袒炉、tbcrawler[18]– 淘寶和天貓的爬蟲,可以根據(jù)搜索關(guān)鍵詞,物品id來抓去頁面的信息,數(shù)據(jù)存儲在mongodb樊零。

https://github.com/pakoo/tbcrawler

stockholm [19]– 一個股票數(shù)據(jù)(滬深)爬蟲和選股策略測試框架我磁。根據(jù)選定的日期范圍抓19、取所有滬深兩市股票的行情數(shù)據(jù)驻襟。支持使用表達式定義選股策略夺艰。支持多線程處理。保存數(shù)據(jù)到JSON文件沉衣、CSV文件郁副。

https://github.com/benitoro/stockholm

20、BaiduyunSpider[20]-百度云盤爬蟲豌习。

https://github.com/k1995/BaiduyunSpider

21存谎、Spider[21]-社交數(shù)據(jù)爬蟲。支持微博,知乎,豆瓣肥隆。

https://github.com/Qutan/Spider

22既荚、proxy pool[22]-Python爬蟲代理IP池(proxy pool)。

https://github.com/jhao104/proxy_pool

23栋艳、music-163[23]-爬取網(wǎng)易云音樂所有歌曲的評論恰聘。

https://github.com/RitterHou/music-163

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市吸占,隨后出現(xiàn)的幾起案子晴叨,更是在濱河造成了極大的恐慌,老刑警劉巖矾屯,帶你破解...
    沈念sama閱讀 218,858評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件兼蕊,死亡現(xiàn)場離奇詭異,居然都是意外死亡件蚕,警方通過查閱死者的電腦和手機遍略,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,372評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來骤坐,“玉大人绪杏,你說我怎么就攤上這事∨ι埽” “怎么了蕾久?”我有些...
    開封第一講書人閱讀 165,282評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長拌夏。 經(jīng)常有香客問我僧著,道長履因,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,842評論 1 295
  • 正文 為了忘掉前任盹愚,我火速辦了婚禮栅迄,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘皆怕。我一直安慰自己毅舆,他們只是感情好,可當我...
    茶點故事閱讀 67,857評論 6 392
  • 文/花漫 我一把揭開白布愈腾。 她就那樣靜靜地躺著憋活,像睡著了一般。 火紅的嫁衣襯著肌膚如雪虱黄。 梳的紋絲不亂的頭發(fā)上悦即,一...
    開封第一講書人閱讀 51,679評論 1 305
  • 那天,我揣著相機與錄音橱乱,去河邊找鬼辜梳。 笑死,一個胖子當著我的面吹牛泳叠,可吹牛的內(nèi)容都是我干的作瞄。 我是一名探鬼主播,決...
    沈念sama閱讀 40,406評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼析二,長吁一口氣:“原來是場噩夢啊……” “哼粉洼!你這毒婦竟也來了节预?” 一聲冷哼從身側(cè)響起叶摄,我...
    開封第一講書人閱讀 39,311評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎安拟,沒想到半個月后蛤吓,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,767評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡糠赦,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,945評論 3 336
  • 正文 我和宋清朗相戀三年会傲,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片拙泽。...
    茶點故事閱讀 40,090評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡淌山,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出顾瞻,到底是詐尸還是另有隱情泼疑,我是刑警寧澤,帶...
    沈念sama閱讀 35,785評論 5 346
  • 正文 年R本政府宣布荷荤,位于F島的核電站退渗,受9級特大地震影響移稳,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜会油,卻給世界環(huán)境...
    茶點故事閱讀 41,420評論 3 331
  • 文/蒙蒙 一个粱、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧翻翩,春花似錦都许、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,988評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至絮吵,卻和暖如春弧烤,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背蹬敲。 一陣腳步聲響...
    開封第一講書人閱讀 33,101評論 1 271
  • 我被黑心中介騙來泰國打工暇昂, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人伴嗡。 一個月前我還...
    沈念sama閱讀 48,298評論 3 372
  • 正文 我出身青樓急波,卻偏偏與公主長得像,于是被迫代替她去往敵國和親瘪校。 傳聞我的和親對象是個殘疾皇子澄暮,可洞房花燭夜當晚...
    茶點故事閱讀 45,033評論 2 355

推薦閱讀更多精彩內(nèi)容