Python網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)項(xiàng)目代碼大全(長(zhǎng)期更新控汉,歡迎補(bǔ)充)


WechatSogou[1]- 微信公眾號(hào)爬蟲(chóng)》滴牵基于搜狗微信搜索的微信公眾號(hào)爬蟲(chóng)接口姑子,可以擴(kuò)展成基于搜狗搜索的爬蟲(chóng),返回結(jié)果是列表测僵,每一項(xiàng)均是公眾號(hào)具體信息字典街佑。[1]: https://github.com/Chyroc/WechatSogou

DouBanSpider[2]- 豆瓣讀書(shū)爬蟲(chóng)谢翎。可以爬下豆瓣讀書(shū)標(biāo)簽下的所有圖書(shū)沐旨,按評(píng)分排名依次存儲(chǔ)森逮,存儲(chǔ)到Excel中,可方便大家篩選搜羅磁携,比如篩選評(píng)價(jià)人數(shù)>1000的高分書(shū)籍褒侧;可依據(jù)不同的主題存儲(chǔ)到Excel不同的Sheet ,采用User Agent偽裝為瀏覽器進(jìn)行爬取谊迄,并加入隨機(jī)延時(shí)來(lái)更好的模仿瀏覽器行為闷供,避免爬蟲(chóng)被封。[2]: https://github.com/lanbing510/DouBanSpider

zhihu_spider[3]- 知乎爬蟲(chóng)统诺。此項(xiàng)目的功能是爬取知乎用戶(hù)信息以及人際拓?fù)潢P(guān)系歪脏,爬蟲(chóng)框架使用scrapy,數(shù)據(jù)存儲(chǔ)使用mongodb粮呢。[3]: https://github.com/LiuRoy/zhihu_spider

bilibili-user[4]- Bilibili用戶(hù)爬蟲(chóng)婿失。總數(shù)據(jù)數(shù):20119918鬼贱,抓取字段:用戶(hù)id移怯,昵稱(chēng),性別这难,頭像舟误,等級(jí),經(jīng)驗(yàn)值姻乓,粉絲數(shù)嵌溢,生日,地址蹋岩,注冊(cè)時(shí)間赖草,簽名,等級(jí)與經(jīng)驗(yàn)值等剪个。抓取之后生成B站用戶(hù)數(shù)據(jù)報(bào)告秧骑。[4]: https://github.com/airingursb/bilibili-user

SinaSpider[5]- 新浪微博爬蟲(chóng)。主要爬取新浪微博用戶(hù)的個(gè)人信息扣囊、微博信息乎折、粉絲和關(guān)注。代碼獲取新浪微博Cookie進(jìn)行登錄侵歇,可通過(guò)多賬號(hào)登錄來(lái)防止新浪的反扒骂澄。主要使用 scrapy 爬蟲(chóng)框架。[5]: https://github.com/LiuXingMing/SinaSpider

distribute_crawler[6]- 小說(shuō)下載分布式爬蟲(chóng)惕虑。使用scrapy,redis, mongodb,graphite實(shí)現(xiàn)的一個(gè)分布式網(wǎng)絡(luò)爬蟲(chóng),底層存儲(chǔ)mongodb集群,分布式使用redis實(shí)現(xiàn),爬蟲(chóng)狀態(tài)顯示使用graphite實(shí)現(xiàn)坟冲,主要針對(duì)一個(gè)小說(shuō)站點(diǎn)磨镶。[6]: https://github.com/gnemoug/distribute_crawler

CnkiSpider[7]- 中國(guó)知網(wǎng)爬蟲(chóng)。設(shè)置檢索條件后健提,執(zhí)行src/CnkiSpider.py抓取數(shù)據(jù)琳猫,抓取數(shù)據(jù)存儲(chǔ)在/data目錄下,每個(gè)數(shù)據(jù)文件的第一行為字段名稱(chēng)矩桂。[7]: https://github.com/yanzhou/CnkiSpider

LianJiaSpider[8]- 鏈家網(wǎng)爬蟲(chóng)沸移。爬取北京地區(qū)鏈家歷年二手房成交記錄。涵蓋鏈家爬蟲(chóng)一文的全部代碼侄榴,包括鏈家模擬登錄代碼雹锣。[8]: https://github.com/lanbing510/LianJiaSpider

scrapy_jingdong[9]- 京東爬蟲(chóng)●希基于scrapy的京東網(wǎng)站爬蟲(chóng)蕊爵,保存格式為csv。[9]: https://github.com/taizilongxu/scrapy_jingdong

QQ-Groups-Spider[10]- QQ 群爬蟲(chóng)桦山。批量抓取 QQ 群信息攒射,包括群名稱(chēng)、群號(hào)恒水、群人數(shù)会放、群主、群簡(jiǎn)介等內(nèi)容钉凌,最終生成 XLS(X) / CSV 結(jié)果文件咧最。[10]: https://github.com/caspartse/QQ-Groups-Spider

wooyun_public[11]-烏云爬蟲(chóng)。 烏云公開(kāi)漏洞御雕、知識(shí)庫(kù)爬蟲(chóng)和搜索矢沿。全部公開(kāi)漏洞的列表和每個(gè)漏洞的文本內(nèi)容存在mongodb中,大概約2G內(nèi)容酸纲;如果整站爬全部文本和圖片作為離線(xiàn)查詢(xún)捣鲸,大概需要10G空間、2小時(shí)(10M電信帶寬)闽坡;爬取全部知識(shí)庫(kù)栽惶,總共約500M空間。漏洞搜索使用了Flask作為web server疾嗅,bootstrap作為前端外厂。[11]: https://github.com/hanc00l/wooyun_public

2016.9.11補(bǔ)充:

QunarSpider[12]- 去哪兒網(wǎng)爬蟲(chóng)。 網(wǎng)絡(luò)爬蟲(chóng)之Selenium使用代理登陸:爬取去哪兒網(wǎng)站宪迟,使用selenium模擬瀏覽器登陸酣衷,獲取翻頁(yè)操作交惯。代理可以存入一個(gè)文件次泽,程序讀取并使用穿仪。支持多進(jìn)程抓取。[12]: https://github.com/lining0806/QunarSpider

findtrip[13]- 機(jī)票爬蟲(chóng)(去哪兒和攜程網(wǎng))意荤。Findtrip是一個(gè)基于Scrapy的機(jī)票爬蟲(chóng)啊片,目前整合了國(guó)內(nèi)兩大機(jī)票網(wǎng)站(去哪兒 + 攜程)。[13]: https://github.com/fankcoder/findtrip

163spider[14] - 基于requests玖像、MySQLdb紫谷、torndb的網(wǎng)易客戶(hù)端內(nèi)容爬蟲(chóng)。[14]: https://github.com/leyle/163spider

doubanspiders[15]- 豆瓣電影捐寥、書(shū)籍笤昨、小組、相冊(cè)握恳、東西等爬蟲(chóng)集瞒窒。[15]: https://github.com/dontcontactme/doubanspiders

QQSpider[16]- QQ空間爬蟲(chóng),包括日志乡洼、說(shuō)說(shuō)崇裁、個(gè)人信息等,一天可抓取 400 萬(wàn)條數(shù)據(jù)束昵。[16]:https://github.com/LiuXingMing/QQSpider

baidu-music-spider[17]- 百度mp3全站爬蟲(chóng)拔稳,使用redis支持?jǐn)帱c(diǎn)續(xù)傳。[17]: https://github.com/Shu-Ji/baidu-music-spider

tbcrawler[18]- 淘寶和天貓的爬蟲(chóng),可以根據(jù)搜索關(guān)鍵詞,物品id來(lái)抓去頁(yè)面的信息锹雏,數(shù)據(jù)存儲(chǔ)在mongodb巴比。[18]: https://github.com/pakoo/tbcrawler

stockholm[19]- 一個(gè)股票數(shù)據(jù)(滬深)爬蟲(chóng)和選股策略測(cè)試框架。根據(jù)選定的日期范圍抓取所有滬深兩市股票的行情數(shù)據(jù)逼侦。支持使用表達(dá)式定義選股策略匿辩。支持多線(xiàn)程處理。保存數(shù)據(jù)到JSON文件榛丢、CSV文件铲球。[19]https://github.com/benitoro/stockholm

--------------------------

本項(xiàng)目收錄各種Python網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)開(kāi)源代碼,并長(zhǎng)期更新晰赞,歡迎補(bǔ)充稼病。

更多Python干貨歡迎掃碼關(guān)注:

微信公眾號(hào):Python中文社區(qū)

知乎專(zhuān)欄:Python中文社區(qū) <https://zhuanlan.zhihu.com/zimei>

Python QQ交流群 :273186166

--------------------------

微信公眾號(hào):Python中文社區(qū)


Python中文社區(qū) QQ交流群:



--------------------------

Python學(xué)習(xí)資源下載:


Python開(kāi)發(fā)基礎(chǔ)教學(xué)視頻百度網(wǎng)盤(pán)下載地址:http://pan.baidu.com/s/1dEAlfSP

(密碼請(qǐng)關(guān)注微信公眾號(hào)“Python中文社區(qū)”后回復(fù)“視頻”二字獲取)

Python學(xué)習(xí)資料PDF電子書(shū)大合集百度網(wǎng)盤(pán)下載地址:http://pan.baidu.com/s/1bpuqex5

(密碼請(qǐng)關(guān)注微信公眾號(hào)“Python中文社區(qū)”后回復(fù)“資料”二字獲纫从恪)

Python學(xué)習(xí)思維腦圖大全匯總打包百度網(wǎng)盤(pán)下載地址?:http://pan.baidu.com/s/1qYH6Tek

(密碼請(qǐng)關(guān)注微信公眾號(hào)“Python中文社區(qū)”后回復(fù)“思維”二字獲热蛔摺)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市戏挡,隨后出現(xiàn)的幾起案子芍瑞,更是在濱河造成了極大的恐慌,老刑警劉巖褐墅,帶你破解...
    沈念sama閱讀 206,214評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件拆檬,死亡現(xiàn)場(chǎng)離奇詭異洪己,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)竟贯,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,307評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門(mén)答捕,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人屑那,你說(shuō)我怎么就攤上這事拱镐。” “怎么了持际?”我有些...
    開(kāi)封第一講書(shū)人閱讀 152,543評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵沃琅,是天一觀(guān)的道長(zhǎng)。 經(jīng)常有香客問(wèn)我蜘欲,道長(zhǎng)阵难,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,221評(píng)論 1 279
  • 正文 為了忘掉前任芒填,我火速辦了婚禮呜叫,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘殿衰。我一直安慰自己朱庆,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,224評(píng)論 5 371
  • 文/花漫 我一把揭開(kāi)白布闷祥。 她就那樣靜靜地躺著娱颊,像睡著了一般。 火紅的嫁衣襯著肌膚如雪凯砍。 梳的紋絲不亂的頭發(fā)上箱硕,一...
    開(kāi)封第一講書(shū)人閱讀 49,007評(píng)論 1 284
  • 那天,我揣著相機(jī)與錄音悟衩,去河邊找鬼剧罩。 笑死,一個(gè)胖子當(dāng)著我的面吹牛座泳,可吹牛的內(nèi)容都是我干的惠昔。 我是一名探鬼主播,決...
    沈念sama閱讀 38,313評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼挑势,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼镇防!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起潮饱,我...
    開(kāi)封第一講書(shū)人閱讀 36,956評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤来氧,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體啦扬,經(jīng)...
    沈念sama閱讀 43,441評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡蝙搔,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,925評(píng)論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了考传。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,018評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡证鸥,死狀恐怖僚楞,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情枉层,我是刑警寧澤泉褐,帶...
    沈念sama閱讀 33,685評(píng)論 4 322
  • 正文 年R本政府宣布,位于F島的核電站鸟蜡,受9級(jí)特大地震影響膜赃,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜揉忘,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,234評(píng)論 3 307
  • 文/蒙蒙 一跳座、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧泣矛,春花似錦疲眷、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,240評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至哗总,卻和暖如春几颜,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背讯屈。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,464評(píng)論 1 261
  • 我被黑心中介騙來(lái)泰國(guó)打工蛋哭, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人涮母。 一個(gè)月前我還...
    沈念sama閱讀 45,467評(píng)論 2 352
  • 正文 我出身青樓具壮,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親哈蝇。 傳聞我的和親對(duì)象是個(gè)殘疾皇子棺妓,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,762評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容

  • # Python 資源大全中文版 我想很多程序員應(yīng)該記得 GitHub 上有一個(gè) Awesome - XXX 系列...
    aimaile閱讀 26,441評(píng)論 6 428
  • 爬蟲(chóng)文章 in 簡(jiǎn)書(shū)程序員專(zhuān)題: like:128-Python 爬取落網(wǎng)音樂(lè) like:127-【圖文詳解】py...
    喜歡吃栗子閱讀 21,737評(píng)論 4 412
  • 【西游殤目錄】歡迎戳進(jìn)來(lái) 【上一章】西游殤(79)成神心魔 前情摘要: “不,我不是炮赦,你聽(tīng)我解釋...”悟空還想說(shuō)...
    傅人閱讀 3,335評(píng)論 49 56
  • 臺(tái)北的大雨呼吸笨重排氣扇睜著四季的眼睛風(fēng)隨便轉(zhuǎn)轉(zhuǎn)便拆散拉著手的音符雨棚下不安份晃動(dòng)的雙腳攪渾了遠(yuǎn)山黑白的界線(xiàn)小夜燈...
    小毛驢Y閱讀 483評(píng)論 2 3
  • 當(dāng)心情不好時(shí)怜跑,想給朋友打電話(huà)訴說(shuō)一番,排解排解煩躁的心緒。思考半天性芬,還是沒(méi)有妥當(dāng)?shù)娜丝梢栽陔娫?huà)里傾訴……一切的不如...
    岳家屯閱讀 234評(píng)論 0 0