ECommerceCrawlers
多種電商商品數(shù)據(jù)??爬蟲致板,整理收集爬蟲練習(xí)。通過實戰(zhàn)項目練習(xí)解決一般爬蟲中遇到的問題咏窿。
通過每個項目的readme斟或,了解爬取過程分析。
對于精通爬蟲的pyer集嵌,這將是一個很好的例子減少重復(fù)收集輪子的過程萝挤。項目經(jīng)常更新維護(hù)御毅,確保即下即用,減少爬取的時間平斩。
對于小白通過??實戰(zhàn)項目亚享,了解爬蟲的從無到有。爬蟲過程的分析可以移步項目wiki绘面。爬蟲可能是一件非常復(fù)雜欺税、技術(shù)門檻很高的事情,但掌握正確的方法揭璃,在短時間內(nèi)做到能夠爬取主流網(wǎng)站的數(shù)據(jù)晚凿,其實非常容易實現(xiàn),但建議從一開始就要有一個具體的目標(biāo)瘦馍。
在目標(biāo)的驅(qū)動下歼秽,你的學(xué)習(xí)才會更加精準(zhǔn)和高效。那些所有你認(rèn)為必須的前置知識情组,都是可以在完成目標(biāo)的過程中學(xué)到的??????燥筷。
歡迎大家對本項目的不足加以指正,Issues或者Pr
在之前上傳的大文件貫穿了3/4的commits院崇,發(fā)現(xiàn)每次clone達(dá)到100M肆氓,這與我們最初的想法違背,我們不能很有效的刪除每一個文件(太懶)底瓣,將重新進(jìn)行初始化倉庫的commit谢揪。并在今后不上傳爬蟲數(shù)據(jù),優(yōu)化倉庫結(jié)構(gòu)捐凭。
CrawlerDemo
- [x] DianpingCrawler:大眾點(diǎn)評爬取
- [x] ??TaobaoCrawler:淘寶商品爬取
- [x] ??XianyuCrawler:閑魚商品爬取
- [x] SohuNewCrawler:新聞網(wǎng)爬取
- [ ] ??WechatCrawler:微信公眾號爬取
- [x] OtherCrawlers:一些有趣的爬蟲例子
- [x] 0x01 百度貼吧
- [x] 0x02 豆瓣電影
- [x] 0x03 阿里任務(wù)
- [x] 0x04 包圖網(wǎng)視頻
- [ ] 0x05 全景網(wǎng)圖片
- [x] 0x06 豆瓣音樂
- [x] 0x07 某省藥監(jiān)局
- [x] 0x08 fofa
- [ ] 0x09 汽車之家
Contribution??
@Joynice | @liangweiyang |
wait for you
What You Learn ?
本項目使用了哪些有用的技術(shù)
- 數(shù)據(jù)分析
- [x] chrome Devtools
- [x] Fiddler
- [x] Firefox
- [ ] appnium
- [x] anyproxy
- [x] mitmproxy
- 數(shù)據(jù)采集
- 數(shù)據(jù)解析
- [x] re
- [x] beautifulsoup
- [x] xpath
- [x] pyquery
- [x] css
- 數(shù)據(jù)保存
- [x] txt文本
- [x] csv
- [x] excel
- [ ] mysql
- [x] redis
- [x] mongodb
- 反爬驗證
- [x] mitmproxy 繞過淘寶檢測
- [x] js數(shù)據(jù)解密
- [x] js數(shù)據(jù)生成對應(yīng)指紋庫
- [x] 文字混淆
- [ ] 穿插臟數(shù)據(jù)
- 效率爬蟲
- [x] 單線程
- [x] 多線程
- [x] 多進(jìn)程
- [x] 異步協(xié)成
- [ ] 分布式爬蟲系統(tǒng)
鏈接標(biāo)識官方文檔或推薦例子
What`s Spider ??拨扶?
0x01 爬蟲簡介
爬蟲
爬蟲是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者腳本茁肠。
爬蟲作用
- 市場分析:電商分析患民、商圈分析、一二級市場分析等
- 市場監(jiān)控:電商垦梆、新聞匹颤、房源監(jiān)控等
- 商機(jī)發(fā)現(xiàn):招投標(biāo)情報發(fā)現(xiàn)、客戶資料發(fā)掘奶赔、企業(yè)客戶發(fā)現(xiàn)等
網(wǎng)頁介紹
- url
- html
- css
- js
Roobots協(xié)議
無規(guī)矩不成方圓惋嚎,Robots協(xié)議就是爬蟲中的規(guī)矩杠氢,它告訴爬蟲和搜索引擎哪些頁面可以抓取站刑,哪些不可以抓取。
通常是一個叫作robots.txt的文本文件鼻百,放在網(wǎng)站的根目錄下绞旅。
0x02爬取過程
獲取數(shù)據(jù)
模擬獲取數(shù)據(jù)
0x03解析數(shù)據(jù)
re
beautifulsoup
xpath
yquery
css
0x04 存儲數(shù)據(jù)
小規(guī)模數(shù)據(jù)存儲(文本)
- txt文本
- csv
- excel
大規(guī)模數(shù)據(jù)存儲(數(shù)據(jù)庫)
- mysql
- redis
- mongodb
0x05 反爬措施
反爬
反反爬
0x06 效率爬蟲
多線程
多進(jìn)程
異步協(xié)程
scrapy框架
Padding
…………