前提:
Scrapy框架需要Python2.7以上的版本支持
安裝環(huán)境準(zhǔn)備:
$ yum install -y gcc-c++ gcc libffi-devel libxslt-devel libxml2-devel openssl openssh openssl-devel
一:安裝python2.7
1.1:官網(wǎng)下載
1.2:編譯安裝
$ tar –zxvf python.tar.gz
$ cd Python2.7
$ ./configure –prefix=/home/lcp/python
$ make && make install
1.3:創(chuàng)建軟連接
$ mv /usr/bin/python /usr/bin/python2.6.6
$ ln –s /home/lcp/python/bin/python2.7 /usr/bin/python
$ ln –s /home/lcp/python/bin/easy_install /usr/bin/easy_install
$ vim /usr/bin/yum
修改#!/usr/bin/python為#!/usr/bin/python2.6.6
1.4:測(cè)試安裝是否成功
$ python –version
二:安裝scrapy
2.1:聯(lián)網(wǎng)安裝
$ easy_install scrappy
$ scrappy
此時(shí)說明scrapy安裝成功!秸滴!
2.2:手動(dòng)安裝
(1):手動(dòng)安裝較麻煩岗屏,需要先安裝依賴包
具體安裝包不再詳述,依賴包下載地址: https://pypi.python.org/simple/組件名稱
安裝方法相同,即進(jìn)入包目錄運(yùn)行:python setup.py install 即可
(2):下載源碼
Scrapy
(3):編譯安裝
$ python setup.py build
成功后執(zhí)行:
$ python setup.py install
(4):創(chuàng)建軟連接
$ ln –s /home/lcp/python2.7/scrapy /usr/bin
(5):測(cè)試安裝是否成功
$ scrapy
三:部署爬蟲項(xiàng)目
3.1:博客文章
抓取的是網(wǎng)站是: https://www.urlteam.org/
抓取本網(wǎng)站的所有文章党饮,提取的字段為標(biāo)題(title),url
(1)源碼下載:https://github.com/lcp5674/URLteam.git
(2)在項(xiàng)目的頂級(jí)目錄運(yùn)行:
Scrapy crawl urlteam –o test.json
(3)爬取的結(jié)果在test.json文件中
3.2:新浪新聞
抓取的網(wǎng)站是:http://news.sina.com.cn/
抓取本網(wǎng)站的圖片(img),文章內(nèi)容(text),版權(quán)
(1) 源碼下載https://github.com/lcp5674/scrapy-examples.git:
(2) 在項(xiàng)目的頂級(jí)目錄運(yùn)行:
Scrapy crawl sinanews >> test.json
(3) 爬取的結(jié)果在test.json中
3.3:騰訊招聘
抓取的網(wǎng)站是:http://hr.tencent.com/position.php
抓取本網(wǎng)站的關(guān)鍵字(bottomline),標(biāo)題(sharetitle),鏈接(link)
(1)源碼下載: https://github.com/lcp5674/scrapy-examples.git:
(2) 在項(xiàng)目的頂級(jí)目錄運(yùn)行
Scrapy crawl hrtencent
(3) 爬取的結(jié)果在data_utf8.json