用 Python 分析網(wǎng)易嚴(yán)選 Bra 銷售信息鸠蚪,告訴你她們真實(shí)的 Size

今天通過(guò)爬蟲(chóng)數(shù)據(jù)進(jìn)行分析,一起來(lái)看看網(wǎng)易嚴(yán)選商品評(píng)論的獲取和分析师溅。

聲明:這是一篇超級(jí)嚴(yán)肅的技術(shù)文章茅信,請(qǐng)本著學(xué)習(xí)交流的態(tài)度閱讀,謝謝墓臭!

蘸鲸!

網(wǎng)易商品評(píng)論爬取

分析網(wǎng)頁(yè)

評(píng)論分析

進(jìn)入到網(wǎng)易嚴(yán)選官網(wǎng),搜索“文胸”后起便,先隨便點(diǎn)進(jìn)一個(gè)商品棚贾。

在商品頁(yè)面,打開(kāi) Chrome 的控制臺(tái)榆综,切換至 Network 頁(yè)妙痹,再把商品頁(yè)面切換到評(píng)價(jià)標(biāo)簽下,選擇一個(gè)評(píng)論文字鼻疮,如“薄款怯伊、穿著舒適、滿意”判沟,在 Network 中搜索耿芹。

可以發(fā)現(xiàn)崭篡,評(píng)論文字是通過(guò) listByItemByTag.json 傳遞過(guò)來(lái)的,點(diǎn)擊進(jìn)入該請(qǐng)求吧秕,并拷貝出該請(qǐng)求的 URL:

https://you.163.com/xhr/comment/listByItemByTag.json?csrf_token=060f4782bf9fda38128cfaeafb661f8c&__timestamp=1571106038283&itemId=1616018&tag=%E5%85%A8%E9%83%A8&size=20&page=1&orderBy=0&oldItemTag=%E5%85%A8%E9%83%A8&oldItemOrderBy=0&tagChanged=0

將該 URL 放入 Postman 中琉闪,逐個(gè)嘗試 url query params,最后能夠發(fā)現(xiàn)砸彬,只需保留 itemId 和 page 兩個(gè)請(qǐng)求參數(shù)即可颠毙。

請(qǐng)求返回的是一個(gè) JSON 格式的數(shù)據(jù),下面就是分析該 JSON 數(shù)據(jù)了砂碉。

不難發(fā)現(xiàn)蛀蜜,所有的評(píng)論數(shù)據(jù)都存儲(chǔ)在 commentList 中,我們只需保存該數(shù)據(jù)即可增蹭。

下面就是如何獲取 itemId 的信息了滴某,這個(gè)是產(chǎn)品的 ID,我們回到網(wǎng)易嚴(yán)選首頁(yè)滋迈,繼續(xù)分析霎奢。

產(chǎn)品 ID 獲取

當(dāng)我們?cè)谒阉骺蛑休斎腙P(guān)鍵字進(jìn)行搜索的時(shí)候,同樣能夠發(fā)現(xiàn)在 Network 中有很多請(qǐng)求杀怠,此時(shí)可以觀察各個(gè)請(qǐng)求椰憋,通過(guò)請(qǐng)求文件的名稱(此處需要一些經(jīng)驗(yàn),守規(guī)矩的程序員都不會(huì)亂起名字)赔退,我們可以定位到搜索時(shí)展示搜索結(jié)果的請(qǐng)求橙依。

搜索一般都是 search,所以我們就鎖定了這個(gè) search.json 的請(qǐng)求硕旗。同樣把請(qǐng)求 URL 拷貝到 Postman 中窗骑,逐個(gè)驗(yàn)證傳參,最后保留 page 和 keyword 兩個(gè)參數(shù)即可。

該請(qǐng)求返回的數(shù)據(jù)較多,還是需要耐心的分析數(shù)據(jù)酒唉,也能夠發(fā)現(xiàn),在 result->data->directly->searcherResult->result 下面的 id 值软族,即為我們要獲取的產(chǎn)品 ID。

以上残制,我們基本完成了前期的分析工作立砸,下面開(kāi)始代碼的編寫(xiě)。

編寫(xiě)代碼

獲取產(chǎn)品 ID

defsearch_keyword(keyword):

uri?='https://you.163.com/xhr/search/search.json'

query?=?{

"keyword":?keyword,

"page":1

}

try:

res?=?requests.get(uri,?params=query).json()

result?=?res['data']['directly']['searcherResult']['result']

product_id?=?[]

forrinresult:

product_id.append(r['id'])

returnproduct_id

except:

raise

我這里是獲取了 page 為 1 的產(chǎn)品 ID初茶,下面就是通過(guò)產(chǎn)品 ID 來(lái)獲取不同產(chǎn)品下的評(píng)論信息颗祝。

通過(guò)前面的分析,我們可以知道,評(píng)論信息都是如下形式的螺戳,對(duì)這種形式的信息搁宾,我們可以很方便地存儲(chǔ)進(jìn)入 MongoDB,然后再慢慢分析數(shù)據(jù)里的內(nèi)容倔幼。

{

"skuInfo":?[

"顏色:膚色",

"杯碼:75B"

],

"frontUserName":"1****8",

"frontUserAvatar":"https://yanxuan.nosdn.127.net/f8f20a77db47b8c66c531c14c8b38ee7.jpg",

"content":"質(zhì)量好盖腿,穿著舒服",

"createTime":1555546727635,

"picList":?[

"https://yanxuan.nosdn.127.net/742f28186d805571e4b3f28faa412941.jpg"

],

"commentReplyVO":null,

"memberLevel":4,

"appendCommentVO":null,

"star":5,

"itemId":1680205

}

對(duì)于 MongoDB,我們既可以自己搭建凤藏,也可以使用網(wǎng)上免費(fèi)的服務(wù)奸忽。在這里我介紹一個(gè)免費(fèi)的 MongoDB 服務(wù)網(wǎng)站:mlab堕伪,使用很簡(jiǎn)單揖庄,就不過(guò)多介紹使用過(guò)程了。

數(shù)據(jù)庫(kù)有了欠雌,下面就是把數(shù)據(jù)保存進(jìn)去了蹄梢。

defdetails(product_id):

url?='https://you.163.com/xhr/comment/listByItemByTag.json'

try:

C_list?=?[]

foriinrange(1,100):

query?=?{

"itemId":?product_id,

"page":?i,

}

res?=?requests.get(url,?params=query).json()

ifnotres['data']['commentList']:

break

print("爬取第?%s 頁(yè)評(píng)論"%?i)

commentList?=?res['data']['commentList']

C_list.append(commentList)

time.sleep(1)

#?save?to?mongoDB

try:

mongo_collection.insert_many(commentList)

except:

continue

returnC_list

except:

raise

最后爬取完成之后,總共是七千多條數(shù)據(jù)富俄,下面就可以根據(jù)個(gè)人需要做一些分析了禁炒。

爬取的數(shù)據(jù) MongoDB 鏈接

conn = MongoClient("mongodb://%s:%s@ds149974.mlab.com:49974/you163" % ('you163', 'you163'))

db = conn.you163

mongo_collection = db.you163

商品評(píng)論數(shù)據(jù)分析

下面就到了激動(dòng)人心的時(shí)刻了,一探妹子偏好霍比!

偏好顏色

先來(lái)看看妹子們偏好的顏色

可以看出幕袱,黑色是遙遙領(lǐng)先的哦,這里你要做到心中有數(shù)悠瞬!

再通過(guò)餅狀圖來(lái)觀察下不同顏色的占比情況

尺寸分布

沒(méi)有問(wèn)題们豌,75B 就是大多數(shù)妹子的尺寸了

如果你對(duì)這種罩杯尺寸沒(méi)有研究的話,不要緊浅妆,貼心的我給你準(zhǔn)備了對(duì)照表望迎,拿走不謝

商品評(píng)論

最后我們?cè)賮?lái)看看妹子們對(duì)于商品的評(píng)價(jià)情況

就星級(jí)評(píng)價(jià)上來(lái)看,大多數(shù)都是五星好評(píng)凌外,畢竟打著“嚴(yán)選”的名號(hào)辩尊,質(zhì)量是必須有保證的。

再來(lái)看看在評(píng)論區(qū)康辑,妹子最喜歡用什么詞語(yǔ)來(lái)描述呢

舒服摄欲、很舒服,非常舒服疮薇;滿意胸墙、很滿意,非常滿意惦辛。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末劳秋,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌玻淑,老刑警劉巖嗽冒,帶你破解...
    沈念sama閱讀 211,639評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異补履,居然都是意外死亡添坊,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,277評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門(mén)箫锤,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)贬蛙,“玉大人,你說(shuō)我怎么就攤上這事谚攒⊙糇迹” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 157,221評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵馏臭,是天一觀的道長(zhǎng)野蝇。 經(jīng)常有香客問(wèn)我,道長(zhǎng)括儒,這世上最難降的妖魔是什么绕沈? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,474評(píng)論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮帮寻,結(jié)果婚禮上乍狐,老公的妹妹穿的比我還像新娘。我一直安慰自己固逗,他們只是感情好浅蚪,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,570評(píng)論 6 386
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著抒蚜,像睡著了一般掘鄙。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上嗡髓,一...
    開(kāi)封第一講書(shū)人閱讀 49,816評(píng)論 1 290
  • 那天操漠,我揣著相機(jī)與錄音,去河邊找鬼饿这。 笑死浊伙,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的长捧。 我是一名探鬼主播嚣鄙,決...
    沈念sama閱讀 38,957評(píng)論 3 408
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼串结!你這毒婦竟也來(lái)了哑子?” 一聲冷哼從身側(cè)響起舅列,我...
    開(kāi)封第一講書(shū)人閱讀 37,718評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎卧蜓,沒(méi)想到半個(gè)月后帐要,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,176評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡弥奸,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,511評(píng)論 2 327
  • 正文 我和宋清朗相戀三年榨惠,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片盛霎。...
    茶點(diǎn)故事閱讀 38,646評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡赠橙,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出愤炸,到底是詐尸還是另有隱情期揪,我是刑警寧澤,帶...
    沈念sama閱讀 34,322評(píng)論 4 330
  • 正文 年R本政府宣布摇幻,位于F島的核電站横侦,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏绰姻。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,934評(píng)論 3 313
  • 文/蒙蒙 一引瀑、第九天 我趴在偏房一處隱蔽的房頂上張望狂芋。 院中可真熱鬧,春花似錦憨栽、人聲如沸帜矾。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,755評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)屡萤。三九已至,卻和暖如春掸宛,著一層夾襖步出監(jiān)牢的瞬間死陆,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,987評(píng)論 1 266
  • 我被黑心中介騙來(lái)泰國(guó)打工唧瘾, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留措译,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,358評(píng)論 2 360
  • 正文 我出身青樓饰序,卻偏偏與公主長(zhǎng)得像领虹,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子求豫,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,514評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容

  • 今天來(lái)分享7個(gè)快速瘦身的動(dòng)作塌衰,如果想在過(guò)年之前這一個(gè)月瘦下來(lái)诉稍,那么就趕緊動(dòng)起來(lái)咯~ 動(dòng)作關(guān)鍵詞:簡(jiǎn)單,消水腫最疆、在...
    周小喵啊閱讀 515評(píng)論 0 4
  • 假設(shè)按照升序排序的數(shù)組在預(yù)先未知的某個(gè)點(diǎn)上進(jìn)行了旋轉(zhuǎn)均唉。 ( 例如,數(shù)組 [0,1,2,4,5,6,7] 可能變?yōu)?...
    Ivan_Lan閱讀 374評(píng)論 0 1
  • 2017.10.22 晚自習(xí)啰肚菠!媽媽舔箭,我打算7:30開(kāi)始自習(xí)!還有20多分鐘蚊逢,我先玩一會(huì)层扶! 好! 7:28烙荷。我是有...
    sanyaojing閱讀 184評(píng)論 0 0
  • 下班回家终抽,小區(qū)里一樹(shù)春色映入眼簾戳表。一串串黃色的小花不知何時(shí)已悄然綻放。走近昼伴,濃郁的芳香沁人心脾匾旭。 原來(lái)是臘梅,驚喜...
    隔千里共明月閱讀 497評(píng)論 0 3
  • ……
    adcc幻月閱讀 174評(píng)論 0 0