爬蟲小工具
downloader.py:文件下載小助手
一個(gè)可以用于下載圖片龄恋、視頻、文件的小工具凶伙,有下載進(jìn)度顯示功能郭毕。稍加修改即可添加到自己的爬蟲中。
動(dòng)態(tài)示意圖:
爬蟲實(shí)戰(zhàn)
1函荣、biqukan.py:《筆趣看》盜版小說網(wǎng)站显押,爬取小說工具
第三方依賴庫安裝:
pip3 install beautifulsoup4
使用方法:
python biqukan.py
2、video_downloader:愛奇藝等主流視頻網(wǎng)站的VIP視頻破解助手(暫只支持PC和手機(jī)在線觀看VIP視頻傻挂!)
學(xué)習(xí)Python中的小伙伴乘碑,需要學(xué)習(xí)資料的話,可以前往我的微信公眾號:速學(xué)Python金拒,后臺回復(fù):簡書兽肤,即可拿Python學(xué)習(xí)資料
這里有我自己整理了一套最新的python系統(tǒng)學(xué)習(xí)教程,包括從基礎(chǔ)的python腳本到web開發(fā)绪抛、爬蟲资铡、數(shù)據(jù)分析、數(shù)據(jù)可視化幢码、機(jī)器學(xué)習(xí)等笤休。送給正在學(xué)習(xí)python的小伙伴!這里是python學(xué)習(xí)者聚集地症副,歡迎初學(xué)和進(jìn)階中的小伙伴店雅!
感謝Python3二維碼生成器作者:https://github.com/sylnsfar/qrcode
編譯好的軟件下載連接:https://pan.baidu.com/s/1bqSTNJL 密碼:p8bs
解壓密碼:cuijiahua.com
無需Python3環(huán)境,在Windows下贞铣,解壓即用闹啦!軟件使用方法
源碼可查看video_downloader,運(yùn)行源碼需要搭建Python3環(huán)境辕坝,并安裝相應(yīng)第三方依賴庫:
在video_downloader文件夾下亥揖,安裝第三方依賴庫:
pip3 install -r requirements.txt
使用方法:
python movie_downloader.py
運(yùn)行環(huán)境:
Windows, Python3
Linux, Python3
Mac, Python3
3、baiduwenku.py: 百度文庫word文章爬取
原理說明:http://blog.csdn.net/c406495762/article/details/72331737
代碼不完善圣勒,沒有進(jìn)行打包费变,不具通用性,純屬娛樂圣贸,以后有時(shí)間會完善挚歧。
4、shuaia.py: 爬取《帥啊》網(wǎng)吁峻,帥哥圖片
《帥啊》網(wǎng)URL:http://www.shuaia.net/index.html
原理說明:http://blog.csdn.net/c406495762/article/details/72597755
第三方依賴庫安裝:
pip3 install requests beautifulsoup4
5滑负、daili.py: 構(gòu)建代理IP池
原理說明:http://blog.csdn.net/c406495762/article/details/72793480
6在张、carton: 使用Scrapy爬取《火影忍者》漫畫
代碼可以爬取整個(gè)《火影忍者》漫畫所有章節(jié)的內(nèi)容,保存到本地矮慕。更改地址帮匾,可以爬取其他漫畫。保存地址可以在settings.py中修改痴鳄。
動(dòng)漫網(wǎng)站:http://comic.kukudm.com/
原理說明:http://blog.csdn.net/c406495762/article/details/72858983
7瘟斜、hero.py: 《王者榮耀》推薦出裝查詢小助手
網(wǎng)頁爬取已經(jīng)會了,想過爬取手機(jī)APP里的內(nèi)容嗎痪寻?
原理說明:http://blog.csdn.net/c406495762/article/details/76850843
8螺句、financical.py: 財(cái)務(wù)報(bào)表下載小助手
爬取的數(shù)據(jù)存入數(shù)據(jù)庫會嗎?《跟股神巴菲特學(xué)習(xí)炒股之財(cái)務(wù)報(bào)表入庫(MySQL)》也許能給你一些思路橡类。
原理說明:http://blog.csdn.net/c406495762/article/details/77801899
動(dòng)態(tài)示意圖:
9蛇尚、one_hour_spider:一小時(shí)入門Python3網(wǎng)絡(luò)爬蟲。
原理說明:
知乎:https://zhuanlan.zhihu.com/p/29809609
CSDN:http://blog.csdn.net/c406495762/article/details/78123502
本次實(shí)戰(zhàn)內(nèi)容有:
網(wǎng)絡(luò)小說下載(靜態(tài)網(wǎng)站)-biqukan
優(yōu)美壁紙下載(動(dòng)態(tài)網(wǎng)站)-unsplash
愛奇藝VIP視頻下載
10顾画、douyin.py:抖音App視頻下載
抖音App的視頻下載取劫,就是普通的App爬取。
原理說明:個(gè)人網(wǎng)站:http://cuijiahua.com/blog/2018/03/spider-5.html
11研侣、douyin_pro:抖音App視頻下載(升級版)
抖音App的視頻下載勇凭,添加視頻解析網(wǎng)站,支持無水印視頻下載义辕,使用第三方平臺解析。
原理說明:個(gè)人網(wǎng)站:http://cuijiahua.com/blog/2018/03/spider-5.html
12寓盗、douyin_pro_2:抖音App視頻下載(升級版2)
抖音App的視頻下載灌砖,添加視頻解析網(wǎng)站,支持無水印視頻下載傀蚌,通過url解析基显,無需第三方平臺。
原理說明:個(gè)人網(wǎng)站:http://cuijiahua.com/blog/2018/03/spider-5.html
動(dòng)態(tài)示意圖:
13善炫、geetest.py:GEETEST驗(yàn)證碼破解
爬蟲最大的敵人之一是什么撩幽?沒錯(cuò),驗(yàn)證碼箩艺!Geetest作為提供驗(yàn)證碼服務(wù)的行家窜醉,市場占有率還是蠻高的。遇到Geetest提供的滑動(dòng)驗(yàn)證碼怎么破艺谆?授人予魚不如授人予漁榨惰,接下來就為大家呈現(xiàn)本教程的精彩內(nèi)容。
原理說明:http://www.cuijiahua.com/blog/2017/11/spider_2_geetest.html
動(dòng)態(tài)示意圖:
14静汤、12306.py:用Python搶火車票簡單代碼
可以自己慢慢豐富琅催,蠻簡單居凶,有爬蟲基礎(chǔ)很好操作,沒有原理說明藤抡。
15侠碧、baiwan:百萬英雄輔助答題
效果圖:
原理說明:http://cuijiahua.com/blog/2018/01/spider_3.html
功能介紹:
服務(wù)器端,使用Python(baiwan.py)通過抓包獲得的接口獲取答題數(shù)據(jù)缠黍,解析之后通過百度知道搜索接口匹配答案弄兜,將最終匹配的結(jié)果寫入文件(file.txt)。
手機(jī)抓包不會的朋友嫁佳,可以看下我的早期手機(jī)APP抓包教程挨队。
Node.js(app.js)每隔1s讀取一次file.txt文件,并將讀取結(jié)果通過socket.io推送給客戶端(index.html)蒿往。
親測答題延時(shí)在3s左右盛垦。
聲明:沒做過后端和前端,花了一天時(shí)間瓤漏,現(xiàn)學(xué)現(xiàn)賣弄好的腾夯,javascript也是現(xiàn)看現(xiàn)用,百度的程序蔬充,調(diào)試調(diào)試而已蝶俱。可能有很多用法比較low的地方饥漫,用法不對榨呆,請勿見怪,有大牛感興趣庸队,可以自行完善积蜻。
16、Netease:根據(jù)歌單下載網(wǎng)易云音樂
效果圖:
功能介紹:根據(jù)music_list.txt文件里的歌單的信息下載網(wǎng)易云音樂彻消,將自己喜歡的音樂進(jìn)行批量下載竿拆。
17、bilibili:B站視頻和彈幕批量下載
使用說明:
python bilibili.py -d 貓 -k 貓 -p 10
三個(gè)參數(shù):
-d 保存視頻的文件夾名
-k B站搜索的關(guān)鍵字
-p 下載搜索結(jié)果前多少頁