?今天給大家錄制了一個(gè)爬新浪微博的爬蟲(chóng)械媒,也用到了抓包分析網(wǎng)址蛀骇,但相較于以前胸遇,單純的使用抓包分析網(wǎng)址在新浪微博是無(wú)效的荧呐。
cookie是什么
某些網(wǎng)站為了辨別用戶(hù)身份、進(jìn)行 session 跟蹤而儲(chǔ)存在用戶(hù)本地終端上的數(shù)據(jù)(通常經(jīng)過(guò)加密)纸镊。
目前有些 Cookie 是臨時(shí)的倍阐,有些則是持續(xù)的。臨時(shí)的 Cookie 只在瀏覽器上保存一段規(guī)定的時(shí)間逗威,一旦超過(guò)規(guī)定的時(shí)間峰搪,該 Cookie 就會(huì)被系統(tǒng)清除。
持續(xù)的 Cookie 則保存在用戶(hù)的 Cookie 文件中凯旭,下一次用戶(hù)返回時(shí)概耻,仍然可以對(duì)它進(jìn)行調(diào)用楣颠。
注意:
微博中的cookie有時(shí)間限制,如果運(yùn)行有問(wèn)題咐蚯,可以更換下cookie
如何使用cookie
Cookie = {‘Cookie’: ’UM_distinctid=15ab64ecfd6592-0afad5b368bd69-1d3b6853-13c680-15ab64ecfd7b6; remember_user_token=W1sxMjEzMTM3XSwiJDJhJDEwJHhjYklYOGl2eTQ0Yi54WC5seVh2UWUiLCIxNDg5ODI2OTgwLjg4ODQyODciXQ%3D%3D---ac835770a030c0595b2993289e39c37d82ea27e2; CNZZDATA1258679142=559069578-1488626597-https%253A%252F%252Fwww.baidu.com%252F%7C1489923851’}
我們要構(gòu)造成字典格式童漩,如上。這樣應(yīng)用到請(qǐng)求網(wǎng)址的時(shí)候添加到請(qǐng)求頭中去即可(不懂也沒(méi)關(guān)系春锋,繼續(xù)往下看矫膨,有視頻講說(shuō)的)。
requests庫(kù)
Requests? is? an? elegant? and? simple? HTTP? library? for Python,? built? for? human? beings.? Requests是一個(gè)優(yōu)雅簡(jiǎn)潔的Python HTTP庫(kù)期奔,給人類(lèi)使用侧馅。
使用方法如下
r? = requests.get(url,cookiess = Cookie)
實(shí)戰(zhàn)分析
那么我們打開(kāi)開(kāi)發(fā)者工具,抓包分析下網(wǎng)址驗(yàn)證我們的網(wǎng)址規(guī)律思路
抓包分析
接下來(lái)我只是測(cè)試下呐萌,抓孔慶東微博博文的標(biāo)題馁痴,如下圖紅色方框?qū)?yīng)的html標(biāo)簽是h4