用python詞云包wordcloud做戰(zhàn)狼2豆瓣短評分析

在家咸魚好多天，決定蹭一波兒票房突破40億的《戰(zhàn)狼2》的熱度爬立。以下分別從結(jié)果展示万哪、數(shù)據(jù)獲取、數(shù)據(jù)清洗奕巍、結(jié)構化處理等四部分分別加以闡述：

一、結(jié)果展示

詞云圖是是一種很直觀也很有趣的文本描述形式檩坚，Python的wordcloud包就可以構建詞云冲杀，并且能夠自定義圖片（即color_mask）。而wordcloud包在windows環(huán)境下安裝時剩檀，可能會報如下錯誤：mocrosoft visual c++ 14.0 is required旺芽，導致安裝失敗辐啄。分享一個可行的解決方案：通過whl文件進行間接安裝运嗜。在網(wǎng)站http://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud上找到和自己系統(tǒng)以及python版本相吻合的wordcloud包的whl文件，然后通過pip命令即可安裝成功担租。
在我的實驗中，將獲取到的短評文本經(jīng)過簡單的數(shù)據(jù)預處理（數(shù)據(jù)清洗岭参、分詞尝艘、計算詞頻）之后，生成詞云圖背亥。如下圖所示，字號越大的詞娄徊，在拆分出的詞的集合中出現(xiàn)頻率越高轴猎。顯而易見，“吳京”捻脖、“中國”、“電影”沿癞、“動作”等幾個高頻詞表明了這部電影的關鍵人物矛渴、電影類型及題材等關鍵信息。（為了呼應電影名具温，找了一幅狼的圖片做color_mask）

圖1.戰(zhàn)狼部分短評詞云圖

二铣猩、數(shù)據(jù)獲取

豆瓣的開源工作做得挺好，我們需要的電影短評數(shù)據(jù)都可以靜態(tài)爬下來达皿。下圖是一條短評的網(wǎng)頁源碼贿肩，非常規(guī)整龄寞。完整的代碼就不貼了，只需要把LSTM天氣預測那篇的正則表達式對應更改即可溜哮。

圖2.一條短評的網(wǎng)頁源碼

temp_data = re.findall(r'<p.*?class="">(.*?)</p>', str(item), re.S)   #影評
self.datas.extend(temp_data)

舉個反例：貓眼電影專業(yè)版的票房數(shù)據(jù)就很坑拂封，票房、平均票價和場均人次數(shù)據(jù)還是經(jīng)過動態(tài)加密的。

圖3.票房數(shù)據(jù)的網(wǎng)頁源碼

對應上述源碼的7萧恕、8肠阱、9行的數(shù)值如下圖所示：

圖4.票房數(shù)據(jù)頁面版

雖然這種一層的加密方式很容易就能解出來，但是每爬一次數(shù)據(jù)都得重寫對應關系也讓人很煩走趋，支持開源噪伊。

三、數(shù)據(jù)清洗

去除原始數(shù)據(jù)中的標點符號鉴吹、字母和特殊字符，相當于濾波去噪的過程夺荒。

pattern = re.compile(r'[\u4e00-\u9fa5]+')
filterdata = re.findall(pattern,review_data)
clean_data = ''.join(filterdata)

圖5.清洗后文本數(shù)據(jù)

四良蒸、數(shù)據(jù)結(jié)構化處理

導入字典，提高分詞準確率剿吻。BosonNLP情感詞典是從微博始赎、新聞仔燕、論壇等數(shù)據(jù)來源的上百萬篇情感標注數(shù)據(jù)當中自動構建的情感極性詞典魔招。
[情感詞典來源：http://bosonnlp.com]
然后用jieba做分詞、定義word_cloud函數(shù)參數(shù)办斑。在這部分需要注意一點，默認字體會顯示成各種顏色的方框鳞疲，所以把字體改成能正常顯示中文字符的simsun.ttc蠕蚜。當然，用其他能正常顯示的也可以靶累。

圖6.默認字體的顯示結(jié)果

jieba.load_userdict("D:\\文本情感分析\社交媒體詞典\\BosonNLP_sentiment_score\\BosonNLP_sentiment_score.txt")  #導入社交媒體字典
wordlist_after_jieba = jieba.cut(clean_data)  #分詞
word_split = " ".join(wordlist_after_jieba)
color_mask = imread("D:\\文本情感分析\\戰(zhàn)狼2.jpg") # 讀取背景圖片
word_cloud = WordCloud(font_path='simsun.ttc',
            background_color="white", max_words=1000,mask=color_mask,
            max_font_size=40, random_state=42)   #wordcloud參數(shù)定義
my_wordcloud = word_cloud.generate(word_split)  #生成詞云圖
#畫圖
plt.imshow(my_wordcloud)
plt.axis("off")
plt.show()

最后編輯于：2017.12.10 01:17:46

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末挣柬，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子急黎，更是在濱河造成了極大的恐慌侧到，老刑警劉巖，帶你破解...
沈念sama閱讀 217,406評論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件荣回，死亡現(xiàn)場離奇詭異戈咳，居然都是意外死亡，警方通過查閱死者的電腦和手機著蛙，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,732評論 3贊 393
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門踏堡，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人顷蟆，你說我怎么就攤上這事腐魂≈鹞常” “怎么了？”我有些...
開封第一講書人閱讀 163,711評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵兔毒，是天一觀的道長甸箱。經(jīng)常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,380評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任访娶，我火速辦了婚禮记罚，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘成榜。我一直安慰自己，他們只是感情好赎婚，可當我...
茶點故事閱讀 67,432評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布挣输。她就那樣靜靜地躺著，像睡著了一般撩嚼。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上恋技，一...
開封第一講書人閱讀 51,301評論 1贊 301
城市分裂傳說
那天逻族，我揣著相機與錄音，去河邊找鬼薄辅。笑死要拂，一個胖子當著我的面吹牛站楚，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播枪芒，決...
沈念sama閱讀 40,145評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼谁尸，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了抽碌？” 一聲冷哼從身側(cè)響起决瞳，我...
開封第一講書人閱讀 39,008評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎皮胡，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體蠢棱，經(jīng)...
沈念sama閱讀 45,443評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡甩栈，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,649評論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年量没，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片殴蹄。...
茶點故事閱讀 39,795評論 1贊 347
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖漩蟆，靈堂內(nèi)的尸體忽然破棺而出妓蛮，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 35,501評論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布夷蚊，位于F島的核電站髓介，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏唐础。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,119評論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一呀邢、第九天我趴在偏房一處隱蔽的房頂上張望豹绪。院中可真熱鬧，春花似錦瞒津、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,731評論 0贊 22
一樁弒父案屁柏，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至前联，卻和暖如春娶眷，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背届宠。一陣腳步聲響...
開封第一講書人閱讀 32,865評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工豌注，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人轧铁。一個月前我還...
沈念sama閱讀 47,899評論 2贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長得像药薯，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子童本，可洞房花燭夜當晚...
茶點故事閱讀 44,724評論 2贊 354

用python詞云包wordcloud做戰(zhàn)狼2豆瓣短評分析

一、結(jié)果展示

二铣猩、數(shù)據(jù)獲取

三、數(shù)據(jù)清洗

四良蒸、數(shù)據(jù)結(jié)構化處理

推薦閱讀更多精彩內(nèi)容