爬蟲可以簡單分為幾步:抓取頁面驼修、分析頁面和存儲數(shù)據(jù)
1.requests 的安裝
http://docs.python-requests.org/en/master/
采用pip安裝是比較簡便的安裝法泼菌,在win在運行cmd
運行安裝命令:
pip3 install requests
如果pip版本太低,需要升級pip版本
除此之外,還可以選擇wheel安裝夭委,后綴名為.whl
驗證安裝:
python
>>>import requests
2.Selenium 的安裝
Selenium是一個自動化測試工具,利用它可以執(zhí)行瀏覽器特定的動作,比如點擊下滑顺又。對于JS渲染的頁面來說行之有效。
我們依然采用pip安裝:
pip3 install selenium
驗證安裝:
python
>>>import selenium
但是我們導入selenium還是不夠的等孵,還是需要Chrome等瀏覽器來配合Selenium工作待榔。
3.ChromeDriver 的安裝
首先要查看Chrome的版本號,以便于下載對應的ChromeDriver版本流济。
在其官方網(wǎng)站下載ChromeDriver,注意對應支持的版本號腌闯。
下載后直接將解壓出來的文件放到E:\Anaconda3\Scripts文件夾里绳瘟,當然路徑可能是不樣的。即放到Python的Scripts的文件夾里面就行姿骏。配置好環(huán)境后我們驗證安裝糖声。
cmd運行命令
chromedriver
然后在程序中測試,執(zhí)行Py代碼
from seleniumimport webdriver
browser= webdriver.Chrome()
運行之后會彈出空白Chrome瀏覽器分瘦,則證明配置成功蘸泻。
4.aiohttp 的安裝
aiohttp提供異步Web服務,主要用來提高爬蟲效率
pip 安裝
pip3 install aiohttp
pip3 install cchardet aiodns