Album
提示
以鄙人在GitHub上的辣雞代碼為例, 其他Scrapy的項目類似
本文同樣適用于不使用云服務器的情形
前期準備(也可以到騰訊云開發(fā)者實驗室體驗)
1. 購買云服務器
選擇一家云服務廠商, 購買云服務器, 目前國內主流服務均有提供學生版
2. 下載Xshell, 使用ssh連接服務器
Xshell學生和家用是免費的, 下載地址http://www.netsarang.com/download/free_license.html
下載安裝完成后, 使用系統(tǒng)分配的公網(wǎng)IP, 系統(tǒng)用戶名和對應密碼連接服務器.
在Github上克隆代碼
git clone https://github.com/FesonX/JobCrawler.git
安裝相關依賴
1. 安裝Python3
項目使用Python3.6, 可以使用以下連接安裝, 將文中的3.5改為3.6即可.
ubuntu14.04安裝python3.5并且將其設置為python3默認啟動
2. 使用virtualenv(也可以使用Anaconda或Pycharm管理)
Virtualenv允許多版本Python同時在電腦上共存, 安裝完Python3及pip后
終端鍵入
# 安裝
pip3 install virtualenv
# 創(chuàng)建虛擬環(huán)境
virtualenv spider-env
# 激活虛擬環(huán)境
source spider-env/bin/activate
# 退出
deactivate
3. 安裝庫依賴
因為Scrapy依賴Python.h
,在安裝庫依賴前在終端鍵入
sudo apt-get install libpython3.6-dev
然后安裝依賴, 如果失敗, 請逐條嘗試
# 在JobCrawler/JobCrawler目錄下
pip install -r requirements.txt
4. 安裝MongoDB
參照以下連接安裝
Install MongoDB Community Edition
運行爬蟲
終端cd
到項目根目錄, 鍵入
# -o job.csv為可選參數(shù), 加入則輸出到指定文件中
scrapy crawl jobCrawler -o job.csv
擴展: 使爬蟲開機運行
使爬蟲在系統(tǒng)開機時自動運行, 對于許多系統(tǒng)來說,最簡單 (如果不是最好的)的方式是使用rc.local
文件
具體實現(xiàn)方式就交由你自己用搜索引擎探索啦
歡迎關注我的騰訊云社區(qū)賬號
FesonX