爬蟲入門簡(jiǎn)單快速厦瓢,練習(xí)Python爬蟲也非常適合給剛?cè)腴T的小伙伴培養(yǎng)信心提揍。所有鏈接指向GitHub。
這里科多大數(shù)據(jù)為大家介紹一些python爬蟲項(xiàng)目煮仇。
一劳跃、WechatSogou – 微信公眾號(hào)爬蟲。
基于搜狗微信搜索的微信公眾號(hào)爬蟲接口浙垫,可以擴(kuò)展成基于搜狗搜索的爬蟲刨仑,返回結(jié)果是列表,每一項(xiàng)均是公眾號(hào)具體信息字典夹姥。
二杉武、DouBanSpider– 豆瓣讀書爬蟲。
可以爬下豆瓣讀書標(biāo)簽下的所有圖書辙售,按評(píng)分排名依次存儲(chǔ)轻抱,存儲(chǔ)到Excel中,可方便大家篩選搜羅旦部,比如篩選評(píng)價(jià)人數(shù)>1000的高分書籍十拣。
可依據(jù)不同的主題存儲(chǔ)到Excel不同的Sheet 封拧,采用User Agent偽裝為瀏覽器進(jìn)行爬取,并加入隨機(jī)延時(shí)來更好的模仿瀏覽器行為夭问,避免爬蟲被封。
三曹铃、zhihu_spider – 知乎爬蟲缰趋。此項(xiàng)目的功能是爬取知乎用戶信息以及人際拓?fù)潢P(guān)系,爬蟲框架使用scrapy陕见,數(shù)據(jù)存儲(chǔ)使用mongo
四秘血、bilibili-user – Bilibili用戶爬蟲∑捞穑總數(shù)據(jù)數(shù):20119918灰粮,抓取字段:用戶id,昵稱忍坷,性別粘舟,頭像,等級(jí)佩研,經(jīng)驗(yàn)值柑肴,粉絲數(shù),生日旬薯,地址晰骑,注冊(cè)時(shí)間,簽名绊序,等級(jí)與經(jīng)驗(yàn)值等硕舆。抓取之后生成B站用戶數(shù)據(jù)報(bào)告。
五骤公、SinaSpider – 新浪微博爬蟲抚官。主要爬取新浪微博用戶的個(gè)人信息、微博信息淋样、粉絲和關(guān)注耗式。代碼獲取新浪微博Cookie進(jìn)行登錄,可通過多賬號(hào)登錄來防止新浪的反扒趁猴。主要使用 scrapy 爬蟲框架刊咳。
六、distribute_crawler– 小說下載分布式爬蟲儡司。使用scrapy,Redis, MongoDB,graphite實(shí)現(xiàn)的一個(gè)分布式網(wǎng)絡(luò)爬蟲,底層存儲(chǔ)MongoDB集群,分布式使用Redis實(shí)現(xiàn),爬蟲狀態(tài)顯示使用graphite實(shí)現(xiàn)娱挨,主要針對(duì)一個(gè)小說站點(diǎn)。
七捕犬、CnkiSpider – 中國(guó)知網(wǎng)爬蟲跷坝。設(shè)置檢索條件后酵镜,執(zhí)行src/CnkiSpider.py抓取數(shù)據(jù),抓取數(shù)據(jù)存儲(chǔ)在/data目錄下柴钻,每個(gè)數(shù)據(jù)文件的第一行為字段名稱淮韭。
八、LianJiaSpider – 鏈家網(wǎng)爬蟲贴届。爬取北京地區(qū)鏈家歷年二手房成交記錄靠粪。涵蓋鏈家爬蟲一文的全部代碼,包括鏈家模擬登錄代碼毫蚓。
九占键、scrapy_jingdong – 京東爬蟲≡耍基于scrapy的京東網(wǎng)站爬蟲畔乙,保存格式為csv。
十翩概、QQ-Groups-Spider – QQ 群爬蟲牲距。批量抓取 QQ 群信息,包括群名稱氮帐、群號(hào)嗅虏、群人數(shù)、群主上沐、群簡(jiǎn)介等內(nèi)容皮服,最終生成 XLS(X) / CSV 結(jié)果文件。