scrapy是基于異步的爬蟲(chóng)傻挂,適用于多網(wǎng)頁(yè)的爬取乘碑。主要有幾個(gè)重要組件,一個(gè)是spider踊谋,具體的分析爬取信息蝉仇,一個(gè)是items,存儲(chǔ)爬取下來(lái)的信息,一個(gè)是pipeline轿衔,把item儲(chǔ)存的信息清洗沉迹,存到數(shù)據(jù)庫(kù),最后一個(gè)是settings害驹,用于控制整個(gè)爬蟲(chóng)組件鞭呕。
安裝:
用anaconda裝,方便快捷宛官。在anaconda里用pip install scrapy就好了
生成一個(gè)scarpy項(xiàng)目葫松,轉(zhuǎn)到需要的文件下
scrapy startproject 項(xiàng)目名稱
就會(huì)在該文件夾下生成相關(guān)文件。
接下來(lái)需要做的就是前面說(shuō)的填充幾個(gè)組件底洗。
其中spider需要自己創(chuàng)建一個(gè).py的文件腋么。
items、pipelines亥揖、settings都已經(jīng)有了模板文件珊擂,只需要在此基礎(chǔ)上做相應(yīng)更改即可。