date: 2016-09-25 17:38:42
Requests介紹與安裝
- Windows環(huán)境下:pip install requests
- Linux環(huán)境下:sudo pip install requests
第三方庫(kù)安裝技巧
- 少使用easy_install因?yàn)橹荒馨惭b不能卸載
- 多用pip方式安裝
- 撞墻了怎么辦?請(qǐng)戳->第三方庫(kù)安裝技巧
將下載的后綴為whl的文件改為zip, 解壓文件,獲得requests文件丸升,拷貝到C盤(pán)的python/lib文件夾中。
第一個(gè)網(wǎng)絡(luò)爬蟲(chóng)
Requests獲取網(wǎng)頁(yè)源代碼
- 直接獲取源代碼
- 修改http頭獲取源代碼
爬取python吧首頁(yè)的源代碼
<pre>
import requests
html = requests.get('http://tieba.baidu.com/f?ie=utf-8&kw=python')
print html.text
</pre>
單線程爬蟲(chóng)的基本原理:使用requests獲取網(wǎng)頁(yè)源代碼,再使用正則表達(dá)式匹配出感興趣的內(nèi)容。
向網(wǎng)頁(yè)提取數(shù)據(jù)Get與Post
- Get是從服務(wù)器上獲取數(shù)據(jù)
- Post是向服務(wù)器傳送數(shù)據(jù)
- Get通過(guò)構(gòu)造url中的參數(shù)來(lái)實(shí)現(xiàn)功能
分析目標(biāo)網(wǎng)站
- 網(wǎng)站地址:https://www.crowdfunder.com/browse/deals
- 分析工具:Chrome-審核元素-Network
Requests表單提交功能
- 核心方法:Requests.post
- 核心步驟:構(gòu)造表單-提交表單-獲取返回信息