3.1、蘇寧百萬(wàn)級(jí)商品爬取 思路講解 商品爬取

本章節(jié)是最重要霞扬,也是最復(fù)雜的章節(jié)糕韧,因?yàn)檫@里面涉及到的點(diǎn)比較多。直至我編碼完成后喻圃,我還有幾個(gè)問(wèn)題沒(méi)有解決兔沃,希望各位網(wǎng)友有好的思路可以提供給我,具體的問(wèn)題在之后的描述中我會(huì)說(shuō)明级及。

思路解析

如下圖乒疏,我們可以得到當(dāng)前商品的xpath路徑 //*[@id="filter-results"]/ul/li
在根據(jù)第二張圖我們又可以得到單獨(dú)商品的價(jià)格,標(biāo)題饮焦,鏈接地址等等信息
看上去好像非常的簡(jiǎn)單怕吴,其邏輯和商品類別爬取類似。首先得到所有的商品县踢,然后循環(huán)转绷,對(duì)實(shí)體類別,最后返回一個(gè)list列表就行硼啤∫榫可是實(shí)際卻并不是如此。我們接下去就對(duì)內(nèi)容進(jìn)行分析谴返。

商品解析圖1.png
商品解析圖2.png

問(wèn)題1 所見(jiàn)非所得

我們首先來(lái)看倆張對(duì)比圖煞肾,第一張圖是我們請(qǐng)求當(dāng)前頁(yè)面會(huì)返回給我們的Html Document數(shù)據(jù),我們之前做的爬取都是基于Document的爬取嗓袱。在圖1中我們?nèi)フ覍さ谝粋€(gè)商品的價(jià)格籍救,我們發(fā)現(xiàn)<em>標(biāo)簽中內(nèi)容為空,這是為什么呢渠抹?
之后我們?cè)賮?lái)看第二張圖蝙昙,第二張圖是F12通過(guò)開(kāi)發(fā)者工具定位在第一個(gè)商品的價(jià)格闪萄,這時(shí)候我們發(fā)現(xiàn),價(jià)格是存在的奇颠。
此時(shí)败去,我們就要開(kāi)始提示了,是什么樣子情況才會(huì)導(dǎo)致這種問(wèn)題的產(chǎn)生烈拒。各位看客也可以想一想为迈。
經(jīng)過(guò)分析后,我們得出了結(jié)論
京東做了反爬處理缺菌,即不會(huì)把一些重要信息直接作為response返回葫辐,而且在網(wǎng)頁(yè)加載結(jié)束之后,通過(guò)js在將對(duì)應(yīng)的值賦值上去伴郁。
抽象來(lái)講耿战,用一個(gè)成語(yǔ),畫(huà)龍點(diǎn)睛焊傅。
先畫(huà)好結(jié)構(gòu)剂陡,最后賦值。這種在一定程度上能否對(duì)小白進(jìn)行一些反爬蟲(chóng)狐胎,可是如果有點(diǎn)水平的人鸭栖,我們通過(guò)分析f12的web請(qǐng)求,我們就可以發(fā)現(xiàn)握巢,無(wú)非就是用了一個(gè)jsonp的方式晕鹊,做了值的獲取

所見(jiàn)非所得1.png

所見(jiàn)非所得2.png

上面我們說(shuō)到蘇寧用了jsonp的方法做了價(jià)格的獲取,那么我們?cè)趺床榭茨乇┢郑?jiàn)圖所示
分析我們得到溅话,每次得到5個(gè)值,頁(yè)面上一行也是5個(gè)商品歌焦。
所以他們的做法是飞几,當(dāng)每次鼠標(biāo)向下移動(dòng),下一行商品出現(xiàn)的時(shí)候独撇,執(zhí)行一個(gè)jsonp方法屑墨,將對(duì)應(yīng)的內(nèi)容進(jìn)行綁定

jsonp獲取1.png
jsonp獲取2.png

那么我們又迎來(lái)了新的問(wèn)題,這個(gè)jsonp的方法是通過(guò)什么樣的規(guī)律生成接口獲得數(shù)據(jù)的呢
我們?nèi)z個(gè)案例進(jìn)行分析纷铣,我們發(fā)現(xiàn)方法頭和尾部都是標(biāo)準(zhǔn)jsonp的用法卵史,那么只有中間的參數(shù)會(huì)有影響。
我們可以看到关炼,參數(shù)由逗號(hào)分隔程腹,參數(shù)形式總共有倆種

  • 參數(shù)1+下劃線 000000010088601142_
  • 參數(shù)1+下劃線+2+參數(shù)2 000000000617721823__2_0070137013

那我們開(kāi)始對(duì)這倆種參數(shù)形式進(jìn)行分析
參數(shù)1和參數(shù)2分別是什么?我們不妨大膽猜測(cè)一下儒拂,有沒(méi)有可能是商品的唯一key
還有一點(diǎn)寸潦,如果是商品的唯一key,我們?nèi)绾潍@壬缤础见转?

https://ds.suning.cn/ds/generalForTile/000000010044087492_,000000000688241235_,000000010044087493_,000000000144695267_,000000010073350865_,000000000610267239_,000000000132230908_,000000000192930418_,000000010526739331__2_0070207958,000000000624606189_-025-2-0000000000-1--ds0000000009487.jsonp?callback=ds0000000009487

https://ds.suning.cn/ds/generalForTile/000000000617721823__2_0070137013,000000000132236927_,000000000638993733_,000000010519041260__2_0070203680,000000010084257326_-025-2-0000000000-1--ds000000000588.jsonp?callback=ds000000000588

通過(guò)分析,我得到了結(jié)論蒜哀,請(qǐng)大家看如下圖紅框圈出來(lái)的內(nèi)容斩箫,我們發(fā)現(xiàn)也是倆中形式,一種是參數(shù)1+參數(shù)2 撵儿,一種是參數(shù)1+0000000

example:
0000000000-10044087492
0070207958-10526739331

分析1.png

分析2.png

分析3.png

分析4.png

我們可以通過(guò)打黃色標(biāo)識(shí)的倆張圖發(fā)現(xiàn)規(guī)律乘客,頁(yè)面上的內(nèi)容和jsonp方法體組成的內(nèi)容是相反的,所以我們需要在獲取內(nèi)容后淀歇,將順序顛倒易核,然后按照規(guī)定的字符串長(zhǎng)度進(jìn)行拼接即可

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市浪默,隨后出現(xiàn)的幾起案子牡直,更是在濱河造成了極大的恐慌,老刑警劉巖纳决,帶你破解...
    沈念sama閱讀 219,366評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件碰逸,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡阔加,警方通過(guò)查閱死者的電腦和手機(jī)饵史,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,521評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)胜榔,“玉大人约急,你說(shuō)我怎么就攤上這事∶绶郑” “怎么了厌蔽?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,689評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)摔癣。 經(jīng)常有香客問(wèn)我奴饮,道長(zhǎng),這世上最難降的妖魔是什么择浊? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,925評(píng)論 1 295
  • 正文 為了忘掉前任戴卜,我火速辦了婚禮,結(jié)果婚禮上琢岩,老公的妹妹穿的比我還像新娘投剥。我一直安慰自己,他們只是感情好担孔,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,942評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布江锨。 她就那樣靜靜地躺著吃警,像睡著了一般。 火紅的嫁衣襯著肌膚如雪啄育。 梳的紋絲不亂的頭發(fā)上酌心,一...
    開(kāi)封第一講書(shū)人閱讀 51,727評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音挑豌,去河邊找鬼安券。 笑死,一個(gè)胖子當(dāng)著我的面吹牛氓英,可吹牛的內(nèi)容都是我干的侯勉。 我是一名探鬼主播,決...
    沈念sama閱讀 40,447評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼铝阐,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼址貌!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起饰迹,我...
    開(kāi)封第一講書(shū)人閱讀 39,349評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤芳誓,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后啊鸭,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體锹淌,經(jīng)...
    沈念sama閱讀 45,820評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,990評(píng)論 3 337
  • 正文 我和宋清朗相戀三年赠制,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了赂摆。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,127評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡钟些,死狀恐怖烟号,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情政恍,我是刑警寧澤汪拥,帶...
    沈念sama閱讀 35,812評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站篙耗,受9級(jí)特大地震影響迫筑,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜宗弯,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,471評(píng)論 3 331
  • 文/蒙蒙 一脯燃、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧蒙保,春花似錦辕棚、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,017評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)扁瓢。三九已至,卻和暖如春懈糯,著一層夾襖步出監(jiān)牢的瞬間涤妒,已是汗流浹背单雾。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,142評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工赚哗, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人硅堆。 一個(gè)月前我還...
    沈念sama閱讀 48,388評(píng)論 3 373
  • 正文 我出身青樓屿储,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親渐逃。 傳聞我的和親對(duì)象是個(gè)殘疾皇子够掠,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,066評(píng)論 2 355