聲明:本文為原創(chuàng)厦幅,僅供學習交流沾鳄,轉(zhuǎn)載請標明出處,若有侵權(quán)請及時告知刪除确憨。
數(shù)據(jù)獲纫胲瘛:
數(shù)據(jù)來源:貓眼電影
首先要獲取數(shù)據(jù)瓤的,因為網(wǎng)頁的評論只能看到10條,顯然不夠吞歼,于是準備從M端抓包找到評論接口圈膏。
接口中對我們本次抓取主要有用的參數(shù)是offset偏移量以及時間戳,這兩個條件限制了抓取的條數(shù)篙骡。
這里有用戶評論的相關(guān)數(shù)據(jù)本辐,我們選取了評論內(nèi)容、用戶名医增、評分慎皱、評論時間、評論獲贊量叶骨、評論回復(fù)量的數(shù)據(jù)茫多。
接下來導入python的requests包、json包忽刽,開始獲取分析的數(shù)據(jù):
多次調(diào)試之后天揖,發(fā)現(xiàn)一個時間戳下最多顯示1000條評論,所以每次獲取1000條后跪帝,導出最后一條的評論時間戳今膊,修改url后繼續(xù)抓取。
數(shù)據(jù)可視化:
總共獲取24700+條評論數(shù)據(jù):
評分比列:
首先我們來看下評分的分布狀況:
代碼如下:
我們可以看出總體上滿意程度很高伞剑,87%的好評率對國漫電影來說斑唬,表現(xiàn)的也相當出色了。當然不排除購票去影院觀影的看官本身對該電影的喜歡程度就很高黎泣。而且我們留意到給出6分以及下的占據(jù)了3.6%恕刘,那么這部分觀眾評論了些什么,筆者會在文末給予分析抒倚。
時間序列:
采用matplotlib,我們按照小時為單位褐着,匯總數(shù)據(jù),部分代碼如下
從可視化結(jié)果來看評論集中在“茶余飯后”托呕,忙碌了一天含蓉,下班來場愉快的電影。晚上黃金時間(8:00pm~10:00pm)各位看官也是紛紛暢所欲言项郊。
評論字數(shù)分布:
代碼如下:
可以看出馅扣,白蛇的評論用戶評論字數(shù)集中在20字以內(nèi),根據(jù)“長尾效應(yīng)”的解釋呆抑,我們也可以看出五十字以上“走心”評論也是比較多的岂嗓。我們接下來看看這些評論都說了些什么呢?
詞云圖:
部分代碼如下:
需注意:scale參數(shù)直接影響了詞云圖出圖的像素清晰度鹊碍,在圖比較大的時候厌殉,值可以設(shè)置的高一點
縱觀所有評論食绿,“好看”,“國漫”公罕,“畫面”依然是這部電影的代名詞器紧,看官的評價還是不錯的,筆者去看的時候也被畫風驚艷到了。接下來我們依然通過詞云圖來看下,給出差評的觀眾都在說些什么呢金踪?
針對低評分的看官颊埃,大家火力似乎都集中在劇情上了制肮。近于俗套似乎也是國漫的通病,路漫漫其修遠兮。筆者認為19年開年的這個動漫作品總體表現(xiàn)超出了自己的心里預(yù)期。還是比較期待國漫的發(fā)展的齿梁!
當然針對與評論的分析還有很多種方式,比如針對文本的情感分析肮蛹,展示的維度也是多種多樣勺择,大家有什么好的分析角度,歡迎留言伦忠,一起學習參考省核。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?K.文