0 - 環(huán)境配置
首先我們需要下載 Python2.7接箫, 直接在官網(wǎng)獲取就行了
然后為了后面省事你需要一個(gè) pip
打開 cmd 切換到 Python27/Scripts
輸入 esay_install pip 安裝 pip
輸入 pip 看到類似這樣的畫面就說明安裝成功了
我們需要一個(gè)第三方 requests 來使用 get 和 post 方法獲取和傳輸數(shù)據(jù)
pip install requests
1 - 簡單的獲取和發(fā)送數(shù)據(jù)
-
get 方法
在 cmd 中輸入Python 或者打開 Python IDLE 輸入
import requests
html = requests.get(“”https://www.python.org/“)
print html.content
然后你就能看到(看不到的話檢查一下你聯(lián)沒聯(lián)網(wǎng)
是不是看上去很熟悉楼吃, 這就是使用 get 方法獲取到的網(wǎng)頁的 html
使用 get 方法向服務(wù)器發(fā)送數(shù)據(jù)的話偶摔, 直接構(gòu)造 url 就行了
以 baidu 為例,要向服務(wù)器發(fā)送搜索的關(guān)鍵字 poi
那么構(gòu)造的 url 為
https://www.baidu.com/s?wd=poi
wd 即為 baidu 服務(wù)器獲取搜索關(guān)鍵字的字段
-
post 方法
使用 post 方法向服務(wù)器發(fā)送編碼為表單形式的數(shù)據(jù),使用requests也能很方便地實(shí)現(xiàn)
首先你需要構(gòu)造一個(gè)數(shù)據(jù)字典,比如:
data = {
'USERNAME': username,
'PASSWORD': password,
'RANDOMCODE': verifycode
}
然后使用 requests.post 向服務(wù)器發(fā)送數(shù)據(jù)
html = requests.post("http://", data=data)
相比 get 方法這里多了一個(gè)參數(shù) data究履,requests會(huì)自動(dòng)把你的數(shù)據(jù)字典構(gòu)造為表單形式,這樣就可以向網(wǎng)站發(fā)送表單了
2 - 分析網(wǎng)頁獲取數(shù)據(jù)
-
簡單地查找字符串
Python 自帶了正則表達(dá)式引擎脸狸,在 Python 中引入模塊 re 即可
import re
還是以之前的 baidu 為例最仑,先使用 get 方法獲取網(wǎng)頁
html = requests.get("http://www.baidu.com/s?wd=poi")
接下來使用正則表達(dá)式匹配出獲取到的網(wǎng)頁中所有的鏈接
temp = re.findall(r"<a.*?href=\"http.*?<\/a>", html.content, re.I)
這樣就獲得了所有的含 url 的超鏈接標(biāo)簽
使用遍歷 temp 輸出每一條數(shù)據(jù)就能看到匹配到的字符串
for item in temp:
print item
再把 url 從每一條中提取出來,就獲得了網(wǎng)頁中所有的鏈接炊甲,一個(gè)簡單的爬蟲差不多就是這個(gè)樣子了
-
使用 BeautiSoup 和 lxml 解析引擎
這都是第三方庫泥彤,需要使使用 pip 獲取
3 - demo
通過以上方法,使用 get 和 post 方法獲取和向服務(wù)器發(fā)送數(shù)據(jù)卿啡,再從返回的數(shù)據(jù)中尋找自己所需要的信息吟吝,一個(gè)簡單的爬蟲就完成了,再配合使用 cookie 等就可以抓取到大部分靜態(tài)網(wǎng)頁
對于動(dòng)態(tài)網(wǎng)頁比如使用 Ajax 異步加載等技術(shù)的颈娜,可以使用 selenium 這樣的自動(dòng)化測試工具來完全模擬瀏覽器行為抓取數(shù)據(jù)
下面給出一個(gè)編寫簡單的抓取靜態(tài)網(wǎng)頁數(shù)據(jù)爬蟲的示例
Python 爬取 全民K歌 個(gè)人主頁全部歌曲和MV