先來看看有哪些項(xiàng)目呢:
python爬蟲小工具(文件下載助手)
爬蟲實(shí)戰(zhàn)(筆趣看小說下載)
爬蟲實(shí)戰(zhàn)(VIP視頻下載)
爬蟲實(shí)戰(zhàn)(百度文庫文章下載)
爬蟲實(shí)戰(zhàn)(《帥啊》網(wǎng)帥哥圖片下載)
爬蟲實(shí)戰(zhàn)(構(gòu)建代理IP池)
爬蟲實(shí)戰(zhàn)(《火影忍者》漫畫下載)
爬蟲實(shí)戰(zhàn)(財(cái)務(wù)報(bào)表下載小助手)
爬蟲實(shí)戰(zhàn)(抖音App視頻下載)
爬蟲實(shí)戰(zhàn)(GEETEST驗(yàn)證碼破解)
爬蟲實(shí)戰(zhàn)(12306搶票小助手)
爬蟲實(shí)戰(zhàn)(百萬英雄答題輔助系統(tǒng))
爬蟲實(shí)戰(zhàn)(網(wǎng)易云音樂批量下載)
爬蟲實(shí)戰(zhàn)(B站視頻和彈幕批量下載)
爬蟲實(shí)戰(zhàn)(京東商品曬單圖下載)
爬蟲實(shí)戰(zhàn)(正方教務(wù)管理系統(tǒng)爬蟲)
怎么樣琅绅?是不是迫不及待的想自己動手試試了呢?
爬蟲小工具
文件下載小助手
一個(gè)可以用于下載圖片鹅巍、視頻千扶、文件的小工具,有下載進(jìn)度顯示功能骆捧。稍加修改即可添加到自己的爬蟲中澎羞。
代碼展示:
爬蟲實(shí)戰(zhàn)
《筆趣看》盜版小說網(wǎng)站,爬取小說工具
第三方依賴庫安裝:
pip3 install beautifulsoup4
使用方法:
python biqukan.py
代碼展示:
愛奇藝等主流視頻網(wǎng)站的VIP視頻破解助手(暫只支持PC和手機(jī)在線觀看VIP視頻敛苇!)
學(xué)習(xí)Python中的小伙伴妆绞,需要學(xué)習(xí)資料的話,可以前往我的微信公眾號:速學(xué)Python枫攀,后臺回復(fù):簡書括饶,即可拿Python學(xué)習(xí)資料
這里有我自己整理了一套最新的python系統(tǒng)學(xué)習(xí)教程,包括從基礎(chǔ)的python腳本到web開發(fā)来涨、爬蟲图焰、數(shù)據(jù)分析、數(shù)據(jù)可視化蹦掐、機(jī)器學(xué)習(xí)等技羔。送給正在學(xué)習(xí)python的小伙伴!這里是python學(xué)習(xí)者聚集地卧抗,歡迎初學(xué)和進(jìn)階中的小伙伴藤滥!
運(yùn)行源碼需要搭建Python3環(huán)境,并安裝相應(yīng)第三方依賴庫:
pip3 install -r requirements.txt
使用方法:
python movie_downloader.py
運(yùn)行環(huán)境:
Windows, Python3
Linux, Python3
Mac, Python3
代碼展示:
百度文庫word文章爬取
代碼不完善社裆,沒有進(jìn)行打包拙绊,不具通用性,純屬娛樂浦马,以后有時(shí)間會完善时呀。
代碼展示:
爬取《帥啊》網(wǎng),帥哥圖片
運(yùn)行平臺: Windows
Python版本: Python3.x
IDE: Sublime text3
為了也能夠?qū)W習(xí)到新知識晶默,本次爬蟲教程使用requests第三方庫谨娜,這個(gè)庫可不是Python3內(nèi)置的urllib.request庫,而是一個(gè)強(qiáng)大的基于urllib3的第三方庫磺陡。
代碼展示:
構(gòu)建代理IP池
代碼展示:
使用Scrapy爬取《火影忍者》漫畫
代碼可以爬取整個(gè)《火影忍者》漫畫所有章節(jié)的內(nèi)容趴梢,保存到本地漠畜。更改地址,可以爬取其他漫畫坞靶。保存地址可以在代碼中修改憔狞。
代碼展示:
《王者榮耀》推薦出裝查詢小助手
網(wǎng)頁爬取已經(jīng)會了,想過爬取手機(jī)APP里的內(nèi)容嗎彰阴?
代碼展示:
財(cái)務(wù)報(bào)表下載小助手
爬取的數(shù)據(jù)存入數(shù)據(jù)庫會嗎瘾敢?《跟股神巴菲特學(xué)習(xí)炒股之財(cái)務(wù)報(bào)表入庫(MySQL)》也許能給你一些思路。
代碼展示:
抖音App視頻下載
抖音App的視頻下載尿这,就是普通的App爬取簇抵。
代碼展示:
GEETEST驗(yàn)證碼破解
爬蟲最大的敵人之一是什么?沒錯(cuò)射众,驗(yàn)證碼碟摆!Geetest作為提供驗(yàn)證碼服務(wù)的行家,市場占有率還是蠻高的叨橱。遇到Geetest提供的滑動驗(yàn)證碼怎么破典蜕?授人予魚不如授人予漁,接下來就為大家呈現(xiàn)本教程的精彩內(nèi)容罗洗。
代碼展示:
用Python搶火車票簡單代碼
可以自己慢慢豐富愉舔,蠻簡單,有爬蟲基礎(chǔ)很好操作伙菜。
代碼展示:
baiwan:百萬英雄輔助答題
看了網(wǎng)上很多的教程都是通過OCR識別的屑宠,這種方法的優(yōu)點(diǎn)在于通用性強(qiáng)。不同的答題活動都可以參加仇让,但是缺點(diǎn)也明顯典奉,速度有限,并且如果通過調(diào)用第三方OCR丧叽,有次數(shù)限制卫玖。但是使用本教程提到的數(shù)據(jù)接口。我們能很容易的獲取數(shù)據(jù)踊淳,速度快假瞬,但是接口是變化的,需要及時(shí)更新迂尝。
代碼展示:
功能介紹:
服務(wù)器端脱茉,使用Python(baiwan.py)通過抓包獲得的接口獲取答題數(shù)據(jù),解析之后通過百度知道搜索接口匹配答案垄开,將最終匹配的結(jié)果寫入文件(file.txt)琴许。
Node.js(app.js)每隔1s讀取一次file.txt文件,并將讀取結(jié)果通過socket.io推送給客戶端(index.html)溉躲。
親測答題延時(shí)在3s左右榜田。
聲明:沒做過后端和前端益兄,花了一天時(shí)間,現(xiàn)學(xué)現(xiàn)賣弄好的箭券,javascript也是現(xiàn)看現(xiàn)用净捅,百度的程序,調(diào)試調(diào)試而已辩块』琢可能有很多用法比較low的地方,用法不對废亭,請勿見怪古今,有大牛感興趣,可以自行完善滔以。
Netease:根據(jù)歌單下載網(wǎng)易云音樂
功能介紹:
根據(jù)music_list.txt文件里的歌單的信息下載網(wǎng)易云音樂,將自己喜歡的音樂進(jìn)行批量下載氓拼。
代碼展示:
bilibili:B站視頻和彈幕批量下載
下載B站視頻和彈幕你画,將xml原生彈幕轉(zhuǎn)換為ass彈幕文件,支持plotplayer等播放器的彈幕播放桃漾。
代碼展示:
使用說明:
python bilibili.py -d 貓 -k 貓 -p 10
三個(gè)參數(shù):
-d保存視頻的文件夾名
-kB站搜索的關(guān)鍵字
-p下載搜索結(jié)果前多少頁
京東商品曬單圖下載
使用說明:
python jd.py -k 芒果
三個(gè)參數(shù):
-d保存圖片的路徑坏匪,默認(rèn)為fd.py文件所在文件夾
-k搜索關(guān)鍵詞
-n 下載商品的曬單圖個(gè)數(shù),即n個(gè)商店的曬單圖
代碼展示:
對正方教務(wù)管理系統(tǒng)個(gè)人課表撬统,學(xué)生成績适滓,績點(diǎn)等簡單爬取
依賴環(huán)境
python 3.6
python庫
http請求:requests,urllib
數(shù)據(jù)提攘底贰:re凭迹,lxml,bs4
存儲相關(guān):os苦囱,sys
驗(yàn)證碼處理:PIL
下載安裝
在終端輸入如下命令:
git clone git@github.com:Jack-Cherish/python-spider.git
使用方法
安裝依賴包
pip install -r requirements.txt
運(yùn)行
在當(dāng)前目錄下輸入:
cd zhengfang_system_spider
python spider.py
運(yùn)行爬蟲嗅绸,按提示輸入學(xué)校教務(wù)網(wǎng),學(xué)號撕彤,密碼鱼鸠,輸入驗(yàn)證碼
稍等幾秒鐘,當(dāng)前ZhengFang_System_Spider文件夾下就會生成zhengfang.txt
個(gè)人課表羹铅,成績績點(diǎn)均已保存到該文本文件中
代碼展示: