爬蟲實戰(zhàn)——三大指數(shù)之微博指數(shù)(上)

(本人原創(chuàng)慌烧,謝絕轉(zhuǎn)載)

最近,豇豆哥寫了關(guān)于一系列的爬蟲,其中三大指數(shù)就是最近著手寫第焰,今天先給大家分享第一指數(shù):微博指數(shù)

分析:

首先打開微博指數(shù)的首頁微指數(shù)首頁,我們采用關(guān)鍵詞iPhone作為搜索條件妨马,同時開啟fiddler抓包工具挺举。這里說明一下:

在fiddler設(shè)置一下過濾條件,就能過濾掉無用雜亂的其他數(shù)據(jù)烘跺,剩下的數(shù)據(jù)就是你所需要的湘纵。

我們訪問iPhone的微指數(shù)抓圖下來可以看到這些數(shù)據(jù):

然后返回fiddler,豇豆哥一般不喜歡用chrome或者firefox的抓包工具滤淳,太復(fù)雜梧喷,太繁瑣(fiddler可謂爬蟲抓包神器,不會的同學一定要學2备馈F痰小!)

通過查看屁擅,找到了我們想要的源碼數(shù)據(jù)偿凭,這下就好。帶入?yún)?shù)派歌,請求這個網(wǎng)頁弯囊,他的返回值就是我們需要的,以上是分析過程胶果。

編寫程序:

分析完成之后匾嘱,我們就著手寫程序,豇豆哥寫爬蟲有個習慣是:

1早抠、請求網(wǎng)站霎烙,我一般都會請求該網(wǎng)頁的原網(wǎng)站。

2、最喜歡的庫就是requests庫吼过,特別是涉及到模擬登陸的時候锐秦,這個庫能大大提升你的編程效率。

3盗忱、喜歡用自己的小工具酱床,在headers這塊自己開發(fā)了一個小程序,非程说瑁快速的獲取headers扇谣。

ok習慣講完了。我們開始寫程序了:

上面分析闲昭,豇豆哥找到了所需要訪問的網(wǎng)站罐寨,那么這個網(wǎng)站需要傳入那些參數(shù)了?可以查看fiddler的webforms序矩,如下圖:

網(wǎng)站是采用get方式傳入的數(shù)據(jù)鸯绿,需要的參數(shù)有wid,sdate簸淀,edate瓶蝴,__rdn,第一個參數(shù)我們不知道是什么含義租幕,但是后面參數(shù)可以猜到起始時間舷手,rnd是時間戳(http網(wǎng)絡(luò)知識),都不影響網(wǎng)頁的訪問劲绪,我們就注重去獲取wid的值男窟。

獲取wid值:

wid變量我們是不知道,根據(jù)經(jīng)驗來說贾富,這塊應(yīng)該是在前面的網(wǎng)頁中產(chǎn)生(動態(tài)js產(chǎn)生或者請求網(wǎng)頁產(chǎn)生)歉眷。豇豆哥通過查找:1030000000269這個值,發(fā)現(xiàn)了wid的來源祷安,如圖:

可以看到姥芥,我們是通過搜索關(guān)鍵詞:iphone,請求圖中的網(wǎng)頁后汇鞭,他的返回值中剛好有:1030000000269 這個數(shù)值,找到這個數(shù)值之后庸追,對于下一步的網(wǎng)頁請求就簡單了霍骄。

所以總結(jié)一下:

1、首先是分析網(wǎng)頁結(jié)構(gòu)淡溯,找到目標數(shù)據(jù)读整,分析數(shù)據(jù)來源。

2咱娶、找到參數(shù)關(guān)鍵字逐步網(wǎng)上層尋找關(guān)鍵字米间,并取得關(guān)鍵字的值

3强品、做好分析之后再開始編寫程序。

目前進展:微博指數(shù)現(xiàn)在是放在我們的服務(wù)器上供我們使用屈糊。其中還需要編寫api(會用到flask的榛,redis等庫,不展開講)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末逻锐,一起剝皮案震驚了整個濱河市夫晌,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌昧诱,老刑警劉巖晓淀,帶你破解...
    沈念sama閱讀 222,378評論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異盏档,居然都是意外死亡凶掰,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,970評論 3 399
  • 文/潘曉璐 我一進店門蜈亩,熙熙樓的掌柜王于貴愁眉苦臉地迎上來锄俄,“玉大人,你說我怎么就攤上這事勺拣∧淘” “怎么了?”我有些...
    開封第一講書人閱讀 168,983評論 0 362
  • 文/不壞的土叔 我叫張陵药有,是天一觀的道長毅戈。 經(jīng)常有香客問我,道長愤惰,這世上最難降的妖魔是什么苇经? 我笑而不...
    開封第一講書人閱讀 59,938評論 1 299
  • 正文 為了忘掉前任,我火速辦了婚禮宦言,結(jié)果婚禮上扇单,老公的妹妹穿的比我還像新娘。我一直安慰自己奠旺,他們只是感情好蜘澜,可當我...
    茶點故事閱讀 68,955評論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著响疚,像睡著了一般鄙信。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上忿晕,一...
    開封第一講書人閱讀 52,549評論 1 312
  • 那天装诡,我揣著相機與錄音,去河邊找鬼。 笑死鸦采,一個胖子當著我的面吹牛宾巍,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播渔伯,決...
    沈念sama閱讀 41,063評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼顶霞,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了咱旱?” 一聲冷哼從身側(cè)響起确丢,我...
    開封第一講書人閱讀 39,991評論 0 277
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎吐限,沒想到半個月后鲜侥,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,522評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡诸典,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,604評論 3 342
  • 正文 我和宋清朗相戀三年描函,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片狐粱。...
    茶點故事閱讀 40,742評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡舀寓,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出肌蜻,到底是詐尸還是另有隱情互墓,我是刑警寧澤,帶...
    沈念sama閱讀 36,413評論 5 351
  • 正文 年R本政府宣布蒋搜,位于F島的核電站篡撵,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏豆挽。R本人自食惡果不足惜育谬,卻給世界環(huán)境...
    茶點故事閱讀 42,094評論 3 335
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望帮哈。 院中可真熱鬧膛檀,春花似錦、人聲如沸娘侍。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,572評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽私蕾。三九已至僵缺,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間踩叭,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,671評論 1 274
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留容贝,地道東北人自脯。 一個月前我還...
    沈念sama閱讀 49,159評論 3 378
  • 正文 我出身青樓,卻偏偏與公主長得像斤富,于是被迫代替她去往敵國和親膏潮。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,747評論 2 361

推薦閱讀更多精彩內(nèi)容