今天為大家整理了23個Python爬蟲項目冰更。整理的原因是,爬蟲入門簡單快速昂勒,也非常適合新入門的小伙伴培養(yǎng)信心蜀细。所有鏈接指向GitHub,祝大家玩的愉快
1戈盈、WechatSogou [1]– 微信公眾號爬蟲审葬。
基于搜狗微信搜索的微信公眾號爬蟲接口,可以擴展成基于搜狗搜索的爬蟲奕谭,返回結(jié)果是列表,每一項均是公眾號具體信息字典痴荐。
github地址:https://github.com/Chyroc/WechatSogou
2血柳、DouBanSpider [2]– 豆瓣讀書爬蟲。
可以爬下豆瓣讀書標簽下的所有圖書生兆,按評分排名依次存儲难捌,存儲到Excel中,可方便大家篩選搜羅鸦难,比如篩選評價人數(shù)>1000的高分書籍根吁;可依據(jù)不同的主題存儲到Excel不同的Sheet ,采用User Agent偽裝為瀏覽器進行爬取合蔽,并加入隨機延時來更好的模仿瀏覽器行為击敌,避免爬蟲被封。
github地址:https://github.com/lanbing510/DouBanSpider
3拴事、zhihu_spider [3]– 知乎爬蟲沃斤。
此項目的功能是爬取知乎用戶信息以及人際拓撲關(guān)系,爬蟲框架使用scrapy刃宵,數(shù)據(jù)存儲使用mongo
github地址:https://github.com/LiuRoy/zhihu_spider
4衡瓶、bilibili-user [4]– Bilibili用戶爬蟲。
總數(shù)據(jù)數(shù):20119918牲证,抓取字段:用戶id哮针,昵稱,性別坦袍,頭像十厢,等級,經(jīng)驗值捂齐,粉絲數(shù)寿烟,生日,地址辛燥,注冊時間筛武,簽名缝其,等級與經(jīng)驗值等。抓取之后生成B站用戶數(shù)據(jù)報告徘六。
github地址:https://github.com/airingursb/bilibili-user
5内边、SinaSpider [5]– 新浪微博爬蟲。
主要爬取新浪微博用戶的個人信息待锈、微博信息漠其、粉絲和關(guān)注。代碼獲取新浪微博Cookie進行登錄竿音,可通過多賬號登錄來防止新浪的反扒和屎。主要使用 scrapy 爬蟲框架。
github地址:https://github.com/LiuXingMing/SinaSpider
6春瞬、distribute_crawler [6]– 小說下載分布式爬蟲柴信。
使用scrapy,Redis, MongoDB,graphite實現(xiàn)的一個分布式網(wǎng)絡(luò)爬蟲,底層存儲MongoDB集群,分布式使用Redis實現(xiàn),爬蟲狀態(tài)顯示使用graphite實現(xiàn),主要針對一個小說站點宽气。
github地址:https://github.com/gnemoug/distribute_crawler
7随常、CnkiSpider [7]– 中國知網(wǎng)爬蟲。
設(shè)置檢索條件后萄涯,執(zhí)行src/CnkiSpider.py抓取數(shù)據(jù)绪氛,抓取數(shù)據(jù)存儲在/data目錄下,每個數(shù)據(jù)文件的第一行為字段名稱涝影。
github地址:https://github.com/yanzhou/CnkiSpider
8枣察、LianJiaSpider [8]– 鏈家網(wǎng)爬蟲。
爬取北京地區(qū)鏈家歷年二手房成交記錄燃逻。涵蓋鏈家爬蟲一文的全部代碼询件,包括鏈家模擬登錄代碼。
github地址:https://github.com/lanbing510/LianJiaSpider
9唆樊、scrapy_jingdong [9]– 京東爬蟲宛琅。
基于scrapy的京東網(wǎng)站爬蟲,保存格式為csv逗旁。
github地址:https://github.com/taizilongxu/scrapy_jingdong
10嘿辟、QQ-Groups-Spider [10]– QQ 群爬蟲。
批量抓取 QQ 群信息片效,包括群名稱红伦、群號、群人數(shù)淀衣、群主昙读、群簡介等內(nèi)容,最終生成 XLS(X) / CSV 結(jié)果文件膨桥。
github地址:https://github.com/caspartse/QQ-Groups-Spider
11蛮浑、wooyun_public[11]-烏云爬蟲唠叛。
烏云公開漏洞、知識庫爬蟲和搜索沮稚。全部公開漏洞的列表和每個漏洞的文本內(nèi)容存在MongoDB中艺沼,大概約2G內(nèi)容;如果整站爬全部文本和圖片作為離線查詢蕴掏,大概需要10G空間障般、2小時(10M電信帶寬);爬取全部知識庫盛杰,總共約500M空間挽荡。漏洞搜索使用了Flask作為web server,bootstrap作為前端即供。
https://github.com/hanc00l/wooyun_public
12定拟、spider[12]– hao123網(wǎng)站爬蟲。
以hao123為入口頁面募狂,滾動爬取外鏈,收集網(wǎng)址角雷,并記錄網(wǎng)址上的內(nèi)鏈和外鏈數(shù)目祸穷,記錄title等信息,windows7 32位上測試勺三,目前每24個小時雷滚,可收集數(shù)據(jù)為10萬左右
https://github.com/simapple/spider
13、findtrip [13]– 機票爬蟲(去哪兒和攜程網(wǎng))吗坚。
Findtrip是一個基于Scrapy的機票爬蟲祈远,目前整合了國內(nèi)兩大機票網(wǎng)站(去哪兒 + 攜程)。
https://github.com/fankcoder/findtrip
14商源、163spider [14] – 基于requests车份、MySQLdb、torndb的網(wǎng)易客戶端內(nèi)容爬蟲
https://github.com/leyle/163spider
15牡彻、doubanspiders[15]– 豆瓣電影扫沼、書籍、小組庄吼、相冊缎除、東西等爬蟲集
https://github.com/fanpei91/doubanspiders
16、QQSpider [16]– QQ空間爬蟲总寻,包括日志器罐、說說、個人信息等渐行,一天可抓取 400 萬條數(shù)據(jù)轰坊。
https://github.com/LiuXingMing/QQSpider
17铸董、baidu-music-spider [17]– 百度mp3全站爬蟲,使用redis支持斷點續(xù)傳衰倦。
https://github.com/Shu-Ji/baidu-music-spider
18袒炉、tbcrawler[18]– 淘寶和天貓的爬蟲,可以根據(jù)搜索關(guān)鍵詞,物品id來抓去頁面的信息,數(shù)據(jù)存儲在mongodb樊零。
https://github.com/pakoo/tbcrawler
stockholm [19]– 一個股票數(shù)據(jù)(滬深)爬蟲和選股策略測試框架我磁。根據(jù)選定的日期范圍抓19、取所有滬深兩市股票的行情數(shù)據(jù)驻襟。支持使用表達式定義選股策略夺艰。支持多線程處理。保存數(shù)據(jù)到JSON文件沉衣、CSV文件郁副。
https://github.com/benitoro/stockholm
20、BaiduyunSpider[20]-百度云盤爬蟲豌习。
https://github.com/k1995/BaiduyunSpider
21存谎、Spider[21]-社交數(shù)據(jù)爬蟲。支持微博,知乎,豆瓣肥隆。
https://github.com/Qutan/Spider
22既荚、proxy pool[22]-Python爬蟲代理IP池(proxy pool)。
https://github.com/jhao104/proxy_pool
23栋艳、music-163[23]-爬取網(wǎng)易云音樂所有歌曲的評論恰聘。