??本文使用到的數(shù)據(jù)是從京東五谷磨房旗艦店爬取的核桃芝麻黑豆粉用戶評(píng)論數(shù)據(jù)滞欠,共804條(非完整數(shù)據(jù))箩张,其中好評(píng):389條(非完整)堕伪,中評(píng):276條(完整)改鲫,差評(píng)179條(完整)诈皿。
??在對(duì)用戶評(píng)論進(jìn)行了收集、分詞像棘、去停用詞稽亏、按詞性篩選等一系列文本處理后,我們拿出“好評(píng)”缕题、“差評(píng)”和“中評(píng)”中出現(xiàn)頻數(shù)最高的前100個(gè)詞繪制了詞云圖截歉。這些高頻詞看起來(lái)雜亂無(wú)章,但從中可以發(fā)現(xiàn)很多亮點(diǎn)烟零。
??從好評(píng)詞云圖中可以看到用戶提到了“味道”瘪松、“營(yíng)養(yǎng)”咸作、“口感”、“很香”宵睦、“早餐”记罚、“物流”等。
??從中評(píng)詞云圖中可以看到用戶提到了“味道”壳嚎、“價(jià)格”桐智、“包裝”、“口感”烟馅、“降價(jià)”说庭。
??從差評(píng)詞云圖中可以看到用戶提到了“味道”、“價(jià)格”郑趁、“客服”刊驴、“降價(jià)”。
??在好評(píng)穿撮、中評(píng)和差評(píng)詞中缺脉,用戶提到最多的詞就是“味道”,說(shuō)明用戶對(duì)該產(chǎn)品味道特征比較敏感悦穿,在好評(píng)詞和中評(píng)詞中攻礼,用戶對(duì)“口感”做出了不同的評(píng)價(jià),“價(jià)格”和“降價(jià)”則是中評(píng)與差評(píng)中的高頻詞栗柒。
??后續(xù)可進(jìn)一步使用線性回歸模型來(lái)探索每個(gè)熱評(píng)詞出現(xiàn)的頻率是否能顯著影響產(chǎn)品的好評(píng)率礁扮,并對(duì)每個(gè)顯著的熱評(píng)詞進(jìn)行深挖,找出它背后具體的“關(guān)注點(diǎn)”瞬沦,并探索每個(gè)關(guān)注點(diǎn)的正負(fù)作用太伊。
??最后,根據(jù)以上建立的得分體系逛钻,我們可以為每個(gè)產(chǎn)品進(jìn)行整體畫(huà)像僚焦,判斷它在多個(gè)方面的整體表現(xiàn)。其次曙痘,根據(jù)不同方面的畫(huà)像芳悲,我們可以更細(xì)致的給出該產(chǎn)品在該熱評(píng)詞各個(gè)關(guān)注點(diǎn)的細(xì)節(jié)畫(huà)像,從中找出具體改進(jìn)方向边坤。
??研究過(guò)程中遇到的問(wèn)題:
??1名扛、京東對(duì)評(píng)論數(shù)據(jù)展示有限制,只展示商品前100頁(yè)評(píng)論茧痒,即1000條評(píng)論肮韧;
??2、被京東監(jiān)測(cè)到爬蟲(chóng)行為,會(huì)導(dǎo)致短暫無(wú)法查詢到評(píng)價(jià)數(shù)據(jù)(爬取1000條評(píng)論被禁弄企,幾分鐘后恢復(fù))超燃,需要進(jìn)一步研究反爬蟲(chóng)機(jī)制。
??3桩蓉、熱評(píng)詞深挖還需要更專業(yè)的知識(shí)支撐淋纲,比如根據(jù)業(yè)務(wù)對(duì)熱評(píng)詞分類劳闹,建立數(shù)學(xué)模型計(jì)算熱評(píng)詞對(duì)好評(píng)率的影響等院究。