識別假貨有絕招顺献,先用python抓淘寶評論(附視頻教程)

之前我水平有限,對于淘寶評論這種動態(tài)網(wǎng)頁枯怖,由于數(shù)據(jù)在網(wǎng)頁源碼中是找不到的注整,所以無法抓取數(shù)據(jù),只能使用selenium模仿人操控瀏覽器來抓數(shù)據(jù)度硝,

優(yōu)點是可見容易且不宜被淘寶公司封鎖肿轨;缺點是速度太慢。

經(jīng)過今天一天的鉆研蕊程,終于學(xué)會分析數(shù)據(jù)包椒袍,而且淘寶評論的數(shù)據(jù)包都是以json格式傳輸?shù)摹3藢W(xué)會抓包藻茂,還要會從json中提取出想要的評論數(shù)據(jù)才行驹暑。

本文實現(xiàn)難點:

一玫恳、分析數(shù)據(jù)包,找到淘寶評論傳輸用的網(wǎng)址优俘,分析網(wǎng)址特點

二京办、如何從找到的數(shù)據(jù)包中,從json格式內(nèi)容中得到想要的數(shù)據(jù)

(可先大鄧錄制的抓包分析視頻帆焕,學(xué)習(xí)本案例中的抓包分析過程)


【python爬蟲】之淘寶評論抓取 - 騰訊視頻

如果您覺得我的教程寫的不錯的話惭婿,可以關(guān)注下

我的公眾號: 大鄧帶你玩轉(zhuǎn)python (ID:shuxierenshengba

案例

德國博朗oralb/oral b 歐樂b電動牙刷 成人充電式家用 D12清亮

網(wǎng)址如下

https://detail.tmall.com/item.htm?id=38975978198&ali_refid=a3_430582_1006:1106461044:N:%E7%94%B5%E5%8A%A8%E7%89%99%E5%88%B7:bfee1d767fa0a91e5e853b29d794c6f2&ali_trackid=1_bfee1d767fa0a91e5e853b29d794c6f2&spm=a230r.1.14.1.R0FzCm

打開該網(wǎng)址,點擊評論

如圖中紅色圈中的評論叶雹,分析發(fā)現(xiàn)审孽,在網(wǎng)頁源碼中查找不到。


評論

找啊找浑娜,找啊找佑力,圈中的評論就是不在網(wǎng)頁源碼中。那只有一種可能筋遭,在我們看不到的方式傳送打颤。


網(wǎng)頁源碼

不懂分析抓包的,可以看看下面這篇淘寶評論實戰(zhàn)漓滔。

通過抓取淘寶評論為例講解Python爬取ajax動態(tài)生成的數(shù)據(jù)(經(jīng)典)_AJAX相關(guān)_腳本之家

用火狐瀏覽器编饺,打開開發(fā)者工具,點擊網(wǎng)絡(luò)


抓包分析1

真的找到了啊

接下來我們要知道這個包傳遞信息的網(wǎng)址

點擊消息頭响驴,紅方框中的請求網(wǎng)址就是這個評論數(shù)據(jù)包傳遞的網(wǎng)址


抓包分析2

網(wǎng)址如下

https://rate.tmall.com/list_detail_rate.htm?itemId=38975978198&spuId=279689783&sellerId=92889104&order=3¤tPage=1&append=0&content=1&tagId=&posi=&picture=&ua=250UW5TcyMNYQwiAiwTR3tCf0J/QnhEcUpkMmQ=|Um5Ockt+RH9FfEZ6QXpEcCY=|U2xMHDJ+H2QJZwBxX39RaVV7W3UyWzAeSB4=|VGhXd1llXGlTaFJrUW1WbVNnUG1PdkN7TnBNeUxzR3pFeEB/QG44|VWldfS0TMwc4BycbIwMtBn0AbSJNNl87ZBVaMRo6FEIU|VmhIGCIWNgsrFy4XKgo0ATkDIx8mHyICNgs2FioUIBo6DjMOWA4=|V25OHjBVPF07RT5XLgAgFCEUNAgxCDQULRAoHUsd|WGFBET8RMQ02Di4SKhIvDzQJNAoxZzE=|WWBAED5bMlM1SzBZIA4uGy4VNQkxCzISJhwjGCN1Iw==|WmNDEz1YMVA2SDNaIw0tES0QLw8zCzIIKBwmHCMWQBY=|W2JCEjxZMFE3STJbIgwsEicbOwc+AToaJhoiFi0RRxE=|XGVFFTteN1YwTjVcJQsrEisePgI8CDERLRkmEiseSB4=|XWREFDpbJksuYgZvFXUwWjhVPkNtTXZKclJuUWhUdEt2SXRAfCp8|XmdHFzkXNws3Az4eIh4rFDQLNg8xBThuOA==|X2ZGFjgWNgkxDy8TKh8hAT4DOAY9B1EH|QHlZCSdMK09uA3IPdB0zEy8TLRMzDzAFORkmGyAUKx5IHg==|QXlZCSdCK0osUilAORc3Z1ltVHRIdk96LAwxET8RMQ4wBTAOO207|QnpaCiQKKnpDeUFhXWFZYUF4RH1dYVt7R3hNbVFqPBwhAS8BIRgnEywRLHos|Q3pHelpnR3hYZF1hQX9HfV1kRHhFZVFxRGRefkVlXX1EZFp6RWVZeU1tWA4=&isg=Anl5FLTxBcTYINlX61XKverNieN0fW04cSauNZurS6AfIpO049emCPMw0pst&needFold=0&_ksTS=1487675147352_694&callback=jsonp695

看起來網(wǎng)址太長透且,太復(fù)雜(稍安勿躁),那么先復(fù)制網(wǎng)址豁鲤,在瀏覽器上打開看看是什么東西

json數(shù)據(jù)格式秽誊,評論的廬山真面目出來了

復(fù)雜的網(wǎng)址中,有些亂七八糟的可以刪除琳骡,有意義的部分保留锅论。切記刪除一小部分后先嘗試能不能打開網(wǎng)頁,如果成功再刪減楣号,直到不能刪減最易。最后保留下來的網(wǎng)址,如下

https://rate.tmall.com/list_detail_rate.htm?itemId=38975978198&spuId=279689783&sellerId=92889104&order=3&callback=jsonp698¤tPage=1

currentPage=1意思是當(dāng)前頁碼是第一頁炫狱。如果改動為currentPage=3表示是第三頁藻懒。

好了,下面是代碼

import requests

import json

import simplejson

headers = {

'Connection': 'keep-alive',

'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.12; rv:51.0) Gecko/20100101 Firefox/51.0'

}

base_url = 'https://rate.tmall.com/list_detail_rate.htm?itemId=38975978198&' \

'spuId=279689783&sellerId=92889104&order=3&callback=jsonp698'

#在base_url后面添加&currentPage=1就可以訪問不同頁碼的評論

#將響應(yīng)內(nèi)容的文本取出

tb_req = requests.get(base_url, headers=headers).text[12:-1]

#將str格式的文本格式化為字典

tb_dict = simplejson.loads(tb_req)

#編碼: 將字典內(nèi)容轉(zhuǎn)化為json格式對象

tb_json = json.dumps(tb_dict, indent=2)? #indent參數(shù)為縮緊视译,這樣打印出來是樹形json結(jié)構(gòu)嬉荆,方便直觀

#解碼: 將json格式字符串轉(zhuǎn)化為python對象

review_j = json.loads(tb_json)

#這里的0是當(dāng)前頁的第一個評論,每頁面其實是有20個評論的

print(review_j["rateDetail"]["rateList"][0]['rateContent'])

簡書附上視頻后憎亚,代碼就不能用markdown格式粘貼员寇,代碼看起來比較亂弄慰,建議去知乎看我的文章

抓取淘寶某產(chǎn)品評論(附視頻教程)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市蝶锋,隨后出現(xiàn)的幾起案子陆爽,更是在濱河造成了極大的恐慌,老刑警劉巖扳缕,帶你破解...
    沈念sama閱讀 218,682評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件慌闭,死亡現(xiàn)場離奇詭異,居然都是意外死亡躯舔,警方通過查閱死者的電腦和手機(jī)驴剔,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事母截。” “怎么了布讹?”我有些...
    開封第一講書人閱讀 165,083評論 0 355
  • 文/不壞的土叔 我叫張陵,是天一觀的道長训堆。 經(jīng)常有香客問我描验,道長,這世上最難降的妖魔是什么坑鱼? 我笑而不...
    開封第一講書人閱讀 58,763評論 1 295
  • 正文 為了忘掉前任膘流,我火速辦了婚禮,結(jié)果婚禮上鲁沥,老公的妹妹穿的比我還像新娘呼股。我一直安慰自己,他們只是感情好黍析,可當(dāng)我...
    茶點故事閱讀 67,785評論 6 392
  • 文/花漫 我一把揭開白布卖怜。 她就那樣靜靜地躺著屎开,像睡著了一般阐枣。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上奄抽,一...
    開封第一講書人閱讀 51,624評論 1 305
  • 那天蔼两,我揣著相機(jī)與錄音,去河邊找鬼逞度。 笑死额划,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的档泽。 我是一名探鬼主播俊戳,決...
    沈念sama閱讀 40,358評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼揖赴,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了抑胎?” 一聲冷哼從身側(cè)響起燥滑,我...
    開封第一講書人閱讀 39,261評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎阿逃,沒想到半個月后铭拧,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,722評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡恃锉,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年搀菩,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片破托。...
    茶點故事閱讀 40,030評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡肪跋,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出土砂,到底是詐尸還是另有隱情澎嚣,我是刑警寧澤,帶...
    沈念sama閱讀 35,737評論 5 346
  • 正文 年R本政府宣布瘟芝,位于F島的核電站易桃,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏锌俱。R本人自食惡果不足惜晤郑,卻給世界環(huán)境...
    茶點故事閱讀 41,360評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望贸宏。 院中可真熱鬧造寝,春花似錦、人聲如沸吭练。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,941評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽鲫咽。三九已至签赃,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間分尸,已是汗流浹背锦聊。 一陣腳步聲響...
    開封第一講書人閱讀 33,057評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留箩绍,地道東北人孔庭。 一個月前我還...
    沈念sama閱讀 48,237評論 3 371
  • 正文 我出身青樓,卻偏偏與公主長得像材蛛,于是被迫代替她去往敵國和親圆到。 傳聞我的和親對象是個殘疾皇子怎抛,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,976評論 2 355

推薦閱讀更多精彩內(nèi)容