明天上班兄淫,又要爬網(wǎng)站,現(xiàn)在每天做的工作有50%的時間爬網(wǎng)站苫昌,40%的時間清理數(shù)據(jù)颤绕,10%寫報告。兩個月的自學(xué)祟身,側(cè)重點很重要奥务,我把大部分經(jīng)歷放在了python的pandas numpy matplotlib上面,其他時間一部分放在sql身上袜硫,一部分放在了業(yè)務(wù)上氯葬,爬蟲這塊學(xué)的很基礎(chǔ),下班復(fù)習(xí)了一下scrapy 順便總結(jié)了一下所用的命令婉陷,敢說除了官方文檔我這可能是最全最容易入門的命令詳解了帚称。
1.創(chuàng)建一個新的項目
scrapy startproject +一個項目的名稱
我們可以進(jìn)入創(chuàng)建的項目執(zhí)行相關(guān)的命令 cd +demo1
2.生成爬蟲
scrapy genspider +文件名+網(wǎng)址
3.運行(crawl)
scrapy crawl +爬蟲名稱
4.check檢查錯誤
scrapy check
5.list返回項目所有spider名稱
scrapy list
6.fetch 幫助我們下載網(wǎng)頁,將網(wǎng)頁源代碼返回(前面是一些日志憨攒,后面是源代碼)
也可以加一些參數(shù)世杀,得到headers,并不輸出日志文件
7.view請求Url,把它的網(wǎng)頁源代碼保存成文件肝集,并打開網(wǎng)頁
在做網(wǎng)頁測試的時候很有用,可以測試ajax內(nèi)容,我們知道淘寶的頁面很復(fù)雜蛛壳,很多網(wǎng)頁內(nèi)容都是用ajax保存的杏瞻。
很多內(nèi)容沒有加載所刀,采取其他方式爬ajax內(nèi)容
8.shell方法,命令行交互模式
傳入了url進(jìn)入了交互模式
甚至可以調(diào)用CSS選擇器
9.runspider運行爬蟲文件,與crawl的去區(qū)別是runspider運行的是文件的名稱+拓展名
10.version 輸出scrapy版本參數(shù)-v可以輸出依賴庫的版本
11.bench 做測試用捞挥,反映當(dāng)前性能浮创,爬蟲速度
自行測試~~~