Scrapy 是一個(gè)開源 Python 框架,專為大規(guī)模 Web 抓取而設(shè)計(jì)色冀。它為我們提供了從任何網(wǎng)站提取潭袱、處理和存儲(chǔ)數(shù)據(jù)所需的所有工具。
這個(gè)框架的美妙之處在于它可以輕松地大規(guī)模構(gòu)建自定義蜘蛛并使用 CSS 或 XPath 選擇器收集特定元素锋恬、管理文件(JSON、CSV 等)以及維護(hù)我們的項(xiàng)目编丘。
接下來(lái)我們只要執(zhí)行幾個(gè)命令就可以爬到一個(gè)小說(shuō)的簡(jiǎn)介:
前提是已經(jīng)安裝了python3与学,并且已經(jīng)加入了系統(tǒng)環(huán)境變量,我用的是python3.9
1.打開powershell嘉抓,執(zhí)行python -m venv scrapy_test(名字自己取就行)
2.執(zhí)行scrapy_test\scripts\activate.bat
3.執(zhí)行pip3 install scrapy
4.在scrapy_test目錄位置下索守,執(zhí)行scrapy startproject scrapytest新建一個(gè)項(xiàng)目
5.執(zhí)行scrapy shell,進(jìn)入另一個(gè)shell環(huán)境
6.然后fetch網(wǎng)頁(yè)抑片,執(zhí)行:
fetch('http://www.gebiqu.com')
fetch到網(wǎng)頁(yè)之后卵佛,內(nèi)容會(huì)保存在response變量中。
7.執(zhí)行view(response),打開瀏覽器敞斋,保存的網(wǎng)頁(yè)文件會(huì)自動(dòng)被打開
我們打開開發(fā)者工具截汪,找到對(duì)應(yīng)簡(jiǎn)介的標(biāo)簽
8.執(zhí)行獲取標(biāo)簽內(nèi)容response.css('div.item').get(),
可以看到植捎,文本和圖片輕松得到衙解。