? 今天為大家?guī)砹俗约旱呐老x代碼集,主要是以往學(xué)習(xí)Python爬蟲過程中寫過的大小項(xiàng)目拆挥,可能不是很全面薄霜,但是持續(xù)在更新某抓,那我的代碼里有什么?
1. Cnblogs - 博客園爬蟲
? 使用Urllib庫實(shí)現(xiàn)博客園"最新文章"的爬取惰瓜,可以自行擴(kuò)展為全站爬蟲否副,但是要注意它的接口。
2. Golory_of_Kings - 王者榮耀爬蟲
? 通過王者榮耀官網(wǎng)的英雄列表接口以及英雄皮膚的下載URL崎坊,完成對王者榮耀英雄全皮膚的下載备禀。
3.MaoYan_Top100 - 貓眼TOP100爬蟲
? (見名知意)爬取貓眼TOP排行榜前100的電影信息。
4.Moments - 朋友圈爬蟲
? 基于自動(dòng)化測試工具Appium的微信朋友圈爬蟲奈揍,模擬登錄曲尸、抓取動(dòng)態(tài)、保存數(shù)據(jù)男翰。
5.Bilibili - B站爬蟲
? 模擬登錄B站并識(shí)別滑動(dòng)驗(yàn)證碼另患。破解滑動(dòng)驗(yàn)證碼的思路主要沿襲崔大破解極驗(yàn)的思路,登錄奏篙、獲取驗(yàn)證碼Image對象柴淘、打碼平臺(tái)識(shí)別、本地轉(zhuǎn)化識(shí)別結(jié)果秘通、Selenium模擬滑動(dòng)等为严。
6.DouYin - 抖音爬蟲
? 基于Mitmdump的抖音短視頻爬取,包括視頻名稱肺稀、作者名稱第股、獲贊數(shù)、轉(zhuǎn)發(fā)量等重要信息的獲取话原。
7.Crack_Jianshu - 簡書爬蟲
? 為了照顧簡書夕吻,完成了簡書的模擬登錄并識(shí)別簡書的點(diǎn)觸式驗(yàn)證碼,破解驗(yàn)證碼的思路基本與滑動(dòng)驗(yàn)證碼相同繁仁。
8.Selenium_163 - 網(wǎng)易163郵箱爬蟲
? 模擬登錄網(wǎng)易163郵箱涉馅,并發(fā)送SOS郵件。主要是為了對iframe子節(jié)點(diǎn)的訓(xùn)練黄虱。
9.City_58 - 58房屋信息爬蟲
? 使用Scrapy框架爬取58同城的出租房信息稚矿,并包含下級(jí)網(wǎng)頁數(shù)據(jù)的爬蟲,項(xiàng)目難度較大捻浦,可根據(jù)能力練習(xí)晤揣。
10.Selenium_Cnki - 知網(wǎng)爬蟲
? 模擬登錄注冊知網(wǎng),識(shí)別知網(wǎng)的普通數(shù)字英文混合驗(yàn)證碼朱灿。別小看這簡單的驗(yàn)證碼昧识,可是用tesserocr等Python識(shí)別庫搞不定的。
其他的可以看截圖:? 我是爬蟲小白盗扒,代碼中如果有寫的什么不好的地方跪楞,可以提交issue缀去。最后,貼出我的Github倉庫地址:https://github.com/Northxw/Python3_WebSpider甸祭,歡迎各種star和fork朵耕,一起學(xué)爬蟲。