重點回顧
- requests庫的get方法怎么用
- 真實網(wǎng)頁中定位元素位置的方法? 一句話:找唯一特征
- 使用headers内贮,假裝是人類 常空。構(gòu)造headers字典。
- 連續(xù)爬多頁內(nèi)容秘案。
- 被反爬了怎么辦?使用手機頁面
想獲取已登錄狀態(tài)下的信息:
構(gòu)建headers字典(內(nèi)容包括user-agent和cookie)
步驟如下:
- cookie信息:審查>network>doc>name>headers>代表身份的cookies信息填寫進(jìn)去(向服務(wù)器證明我們是已經(jīng)登錄的狀態(tài))
- user-agent:路徑同上潦匈,最下方
獲取多頁的內(nèi)容
url="http://bj.lianjia.com/ershoufang/fengtai/pg2/"
urls=["http://bj.lianjia.com/ershoufang/fengtai/{}/".format(str(i)) for i inrange(1,100,1)]
print(urls)
tips:range的第三個參數(shù)是頻率踏烙。
批量輸出圖片
wb_data=requests.get(url,headers=headers)
#開始解析網(wǎng)頁數(shù)據(jù)
soup=BeautifulSoup(wb_data.text,'lxml')
imgs=soup.select('div.mod_media > div > img')
for i in imgs:
print(i.get('origin-src'))
步驟:
- 先通過requests.get(參數(shù)有網(wǎng)址和headers)獲取數(shù)據(jù)
- 通過soup將requests到的信息文本化
- 通過select 將所有圖片找出來(使用循環(huán))
- 通過get函數(shù) 打印標(biāo)簽內(nèi)的圖片地址