簡單了解一下Scrapy框架于操作步驟
什么是Scrapy框架呢?
scrapy是python下的數據爬取集框架杜秸,使用scrpay爬取數據见秤,速度更快幔欧。并且可以很快的搭建爬取程序。
1.需求工具 pycharm 小說網的域名 (www.top.china.com)
第一步—–創(chuàng)建文件
scrapy startproject myspider
新建爬蟲文件
scrapy genspider zzw china.com
第二步——將創(chuàng)建在桌面上的scrapy文件用pycharm打開:
這是創(chuàng)建成功后在pycharm中的顯示
新建爬蟲文件
第三步——–編寫爬蟲代碼
這個代碼是你創(chuàng)建好文件以后里面就有
3.代碼思路
1)請求導航條上的每個按鈕對應的頁面
2)分別解析每個頁面的列表(主要獲得網頁的詳情url)
3)請求詳情url,解析網頁的詳細信息(周排名娜遵,反鏈接數蜕衡,簡介,網站排名设拟,得分慨仿,網站圖片地址)
4)根據下載地址下載到本地
找到列表頁的url:
第四步——設置item /與存儲有關
將需要存儲的信息寫入,如圖所示:
第五步——配置pipelines/與儲存有關
第六步——在Terminal中輸入運行命令
scrapy+crawl+爬蟲名稱