一杏节、什么是爬蟲
簡(jiǎn)單講就是將網(wǎng)頁中的數(shù)據(jù)下載到本地。
二典阵、如何獲取網(wǎng)頁
既然要將網(wǎng)頁中的數(shù)據(jù)下載下來奋渔,那我們是不是應(yīng)該先打開一個(gè)網(wǎng)頁呢,就像在瀏覽器中輸入url地址萄喳,然后就獲得一個(gè)網(wǎng)頁卒稳。
如何打開呢?
這里我們需要安裝requests庫他巨,通過“命令提示符“進(jìn)入cmd,然后輸入“pip install requests”减江,安裝成功后染突,我們就可以使用它來打開一個(gè)網(wǎng)頁了。
requests的用法點(diǎn)擊這里??
返回200代表訪問成功辈灼,接著我們將網(wǎng)頁源代碼打印出來
好像和原網(wǎng)頁不太一樣份企,怎么回事呢?原來是編碼的問題巡莹。我們將編碼改變一下司志,然后再看看。
ok降宅,網(wǎng)頁獲取成功骂远,完整代碼。
三腰根、總結(jié)
Response對(duì)象的屬性
r.status_code:HTTP請(qǐng)求的返回狀態(tài)激才。
r.encoding:從HTTP header中猜測(cè)的響應(yīng)的內(nèi)容編碼方式。
r.apparent_encoding:從內(nèi)容中分析出的響應(yīng)內(nèi)容編碼方式额嘿。
r.text:HTTP響應(yīng)內(nèi)容的字符串形式瘸恼。
r.content:HTTP響應(yīng)內(nèi)容的二進(jìn)制形式。