請求庫安裝
爬蟲可以簡單分為幾步:抓取頁面鹅龄、分析頁面和存儲數(shù)據(jù)
requests 安裝
pip3 install requests
除了pip3的安裝方式還有一種叫wheel
在網(wǎng)絡(luò)差的安裝方式,先利用pip3安裝wheel
pip3 install wheel
然后到 PyPI 上下載對應(yīng)的 wheel 文件揩慕,如最新版本為 2. 17.3 ,則打開 http s: //pypi python.org/pypi/ requests/2. l 7.3#downlo ads 扮休,下載 requests-2.17 .3 -py2.py3-none-any.whl 到本地隨后在命令行界面進入 wheel 文件目錄迎卤,利用 pip 安裝即可,pip3 install requests-2 .17.3-py2.py3-none-any.whl 這樣我們也可以完成 requests 安裝
- 利用源碼安裝
requests 項目的地址是: https ://github.com/kennethreitz/requests,利用git clone git://github .com/kennethreitz/requests.git
或者curl -OL https://github.com/kennethreitz/requests/tarball/master
cd requests
python3 setup.py install
- 驗證安裝
打開終端玷坠,開啟Python蜗搔,再引入requests沒有任何報錯,則表示安裝成功
python
import requests
Selenium 安裝
pip3 install selenium
同樣的可以利用wheel來安裝八堡,同上requests的操作樟凄,如下
到 PyPl 載對應(yīng)的 heel 文件進行安裝(下載地址: htψs ://pypi.python.org/pypi
selenium/#downloads ),如最新版本為 .4.3 兄渺,則下載 selenium-3.4.3-py2.py3-none any.whl 即可
pip3 install selenium-3.4.3-py2.py3-none-any.whl
- 驗證安裝
打開終端缝龄,開啟Python抵拘,再引入selenium沒有任何報錯归形,則表示安裝成功
python
import selenium
ChromeDriver 的安裝
- 配合樓上的Selenium自動化工具狐粱,下載需要根據(jù)自身谷歌版本來來队他,高版本的國內(nèi)鏡像可能還沒更新就需要去國外地址下載,地址分別是
https://sites.google.com/a/chromium.org/chromedriver/downloads (官方)
http://npm.taobao.org/mirrors/chromedriver/(淘寶鏡像地址)
不同平臺需要下載不同的對應(yīng)文件
- 在 Windows下权旷,建議直接將 chromedriver.exe 文件拖到 Python 的 Scripts 目錄下织盼,也可以單獨將其所在路徑配置到環(huán)境變量闻牡;在 Linux 和Mac 下妄田,需要將可執(zhí)行文件配置到環(huán)境變量或?qū)⑽募苿拥綄儆诃h(huán)境變量的目錄里 俺亮。
當然仗哨,也可以將ChromeDriver 配置到
PATH:/usr/local/chromedriver"
保存后執(zhí)行如下命令:
source -I. profile`
- 驗證安裝
在終端輸入 chromedriver
,如下富纸,則證明安裝沒有問題
Starting ChromeDriver 2.45.615291 (ec3682e3c9061c10f26ea9e5cdcf3c53f3f74387) on port 9515
Only local connections are allowed.
二次驗證囤踩,書寫Python文件,并執(zhí)行晓褪,文件內(nèi)容如下:
from selenium import webdriver
browser = webdriver. Firefox()
由于使用的比較新的selenium
,報了selenium.common.exceptions.WebDriverException: Message: 'geckodriver' executable needs to be in PATH
,在這一步我們需要下載geckodriver
,下載地址如下:geckodriver,安裝對應(yīng)版本并解壓到火狐瀏覽器的安裝目錄堵漱,如:D:\Program Files (x86)\Mozilla Firefox
,并將該地址添加到環(huán)境變量中;
運行之后涣仿,若彈出一個空內(nèi)的Firefox 瀏覽器勤庐,則證明所有的配置都沒有問題 ;如果沒有彈出好港, 請檢查之前的每一步配置愉镰。如果沒有問題,接下來就可以利用Firefox配合 Selenium 來做網(wǎng)頁抓取了 钧汹。
aiohttp 安裝
requests庫是一個阻塞式HTTP 請求庫丈探,當我們發(fā)出一個請求后,程序會一直等待服務(wù) 器響應(yīng)拔莱,直到得到響應(yīng)后碗降,程序才會進行下一步處理。 其實塘秦,這個過程比較耗費時間 讼渊。 如果程序可以在這個等待過程中做一些其他的事情,如進行請求的調(diào)度嗤形、 響應(yīng)的處理等精偿,那么爬取效率一定會大大提高。
pip3 install aiohttp
``
error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools
解決方案Microsoft Visual C++ Build Tools,直接安裝即可
- 驗證安裝
打開終端赋兵,開啟Python笔咽,再引入aiohttp沒有任何報錯,則表示安裝成功
python
import aiohttp