用python詞云包wordcloud做戰(zhàn)狼2豆瓣短評分析

在家咸魚好多天,決定蹭一波兒票房突破40億的《戰(zhàn)狼2》的熱度爬立。以下分別從結(jié)果展示万哪、數(shù)據(jù)獲取、數(shù)據(jù)清洗奕巍、結(jié)構化處理等四部分分別加以闡述:

一、結(jié)果展示

詞云圖是是一種很直觀也很有趣的文本描述形式檩坚,Python的wordcloud包就可以構建詞云冲杀,并且能夠自定義圖片(即color_mask)。而wordcloud包在windows環(huán)境下安裝時剩檀,可能會報如下錯誤:mocrosoft visual c++ 14.0 is required旺芽,導致安裝失敗辐啄。分享一個可行的解決方案:通過whl文件進行間接安裝运嗜。在網(wǎng)站http://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud上找到和自己系統(tǒng)以及python版本相吻合的wordcloud包的whl文件,然后通過pip命令即可安裝成功担租。
在我的實驗中,將獲取到的短評文本經(jīng)過簡單的數(shù)據(jù)預處理(數(shù)據(jù)清洗岭参、分詞尝艘、計算詞頻)之后,生成詞云圖背亥。如下圖所示,字號越大的詞娄徊,在拆分出的詞的集合中出現(xiàn)頻率越高轴猎。顯而易見,“吳京”捻脖、“中國”、“電影”沿癞、“動作”等幾個高頻詞表明了這部電影的關鍵人物矛渴、電影類型及題材等關鍵信息。(為了呼應電影名具温,找了一幅狼的圖片做color_mask)

圖1.戰(zhàn)狼部分短評詞云圖

二铣猩、數(shù)據(jù)獲取

豆瓣的開源工作做得挺好,我們需要的電影短評數(shù)據(jù)都可以靜態(tài)爬下來达皿。下圖是一條短評的網(wǎng)頁源碼贿肩,非常規(guī)整龄寞。完整的代碼就不貼了,只需要把LSTM天氣預測那篇的正則表達式對應更改即可溜哮。

圖2.一條短評的網(wǎng)頁源碼
temp_data = re.findall(r'<p.*?class="">(.*?)</p>', str(item), re.S)   #影評
self.datas.extend(temp_data)

舉個反例:貓眼電影專業(yè)版的票房數(shù)據(jù)就很坑拂封,票房、平均票價和場均人次數(shù)據(jù)還是經(jīng)過動態(tài)加密的。

圖3.票房數(shù)據(jù)的網(wǎng)頁源碼

對應上述源碼的7萧恕、8肠阱、9行的數(shù)值如下圖所示:


圖4.票房數(shù)據(jù)頁面版

雖然這種一層的加密方式很容易就能解出來,但是每爬一次數(shù)據(jù)都得重寫對應關系也讓人很煩走趋,支持開源噪伊。

三、數(shù)據(jù)清洗

去除原始數(shù)據(jù)中的標點符號鉴吹、字母和特殊字符,相當于濾波去噪的過程夺荒。

pattern = re.compile(r'[\u4e00-\u9fa5]+')
filterdata = re.findall(pattern,review_data)
clean_data = ''.join(filterdata)
圖5.清洗后文本數(shù)據(jù)

四良蒸、數(shù)據(jù)結(jié)構化處理

導入字典,提高分詞準確率剿吻。BosonNLP情感詞典是從微博始赎、新聞仔燕、論壇等數(shù)據(jù)來源的上百萬篇情感標注數(shù)據(jù)當中自動構建的情感極性詞典魔招。
[情感詞典來源:http://bosonnlp.com]
然后用jieba做分詞、定義word_cloud函數(shù)參數(shù)办斑。在這部分需要注意一點,默認字體會顯示成各種顏色的方框鳞疲,所以把字體改成能正常顯示中文字符的simsun.ttc蠕蚜。當然,用其他能正常顯示的也可以靶累。

圖6.默認字體的顯示結(jié)果
jieba.load_userdict("D:\\文本情感分析\社交媒體詞典\\BosonNLP_sentiment_score\\BosonNLP_sentiment_score.txt")  #導入社交媒體字典
wordlist_after_jieba = jieba.cut(clean_data)  #分詞
word_split = " ".join(wordlist_after_jieba)
color_mask = imread("D:\\文本情感分析\\戰(zhàn)狼2.jpg") # 讀取背景圖片
word_cloud = WordCloud(font_path='simsun.ttc',
            background_color="white", max_words=1000,mask=color_mask,
            max_font_size=40, random_state=42)   #wordcloud參數(shù)定義
my_wordcloud = word_cloud.generate(word_split)  #生成詞云圖
#畫圖
plt.imshow(my_wordcloud)
plt.axis("off")
plt.show()
最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末挣柬,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子急黎,更是在濱河造成了極大的恐慌侧到,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,406評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件荣回,死亡現(xiàn)場離奇詭異戈咳,居然都是意外死亡,警方通過查閱死者的電腦和手機著蛙,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,732評論 3 393
  • 文/潘曉璐 我一進店門踏堡,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人顷蟆,你說我怎么就攤上這事腐魂≈鹞常” “怎么了?”我有些...
    開封第一講書人閱讀 163,711評論 0 353
  • 文/不壞的土叔 我叫張陵兔毒,是天一觀的道長甸箱。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,380評論 1 293
  • 正文 為了忘掉前任访娶,我火速辦了婚禮记罚,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘成榜。我一直安慰自己,他們只是感情好赎婚,可當我...
    茶點故事閱讀 67,432評論 6 392
  • 文/花漫 我一把揭開白布挣输。 她就那樣靜靜地躺著,像睡著了一般撩嚼。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上恋技,一...
    開封第一講書人閱讀 51,301評論 1 301
  • 那天逻族,我揣著相機與錄音,去河邊找鬼薄辅。 笑死要拂,一個胖子當著我的面吹牛站楚,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播枪芒,決...
    沈念sama閱讀 40,145評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼谁尸,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了抽碌?” 一聲冷哼從身側(cè)響起决瞳,我...
    開封第一講書人閱讀 39,008評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎皮胡,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體蠢棱,經(jīng)...
    沈念sama閱讀 45,443評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡甩栈,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,649評論 3 334
  • 正文 我和宋清朗相戀三年量没,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片殴蹄。...
    茶點故事閱讀 39,795評論 1 347
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖漩蟆,靈堂內(nèi)的尸體忽然破棺而出妓蛮,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 35,501評論 5 345
  • 正文 年R本政府宣布夷蚊,位于F島的核電站髓介,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏唐础。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,119評論 3 328
  • 文/蒙蒙 一呀邢、第九天 我趴在偏房一處隱蔽的房頂上張望豹绪。 院中可真熱鬧,春花似錦瞒津、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,731評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至前联,卻和暖如春娶眷,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背届宠。 一陣腳步聲響...
    開封第一講書人閱讀 32,865評論 1 269
  • 我被黑心中介騙來泰國打工豌注, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人轧铁。 一個月前我還...
    沈念sama閱讀 47,899評論 2 370
  • 正文 我出身青樓,卻偏偏與公主長得像药薯,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子童本,可洞房花燭夜當晚...
    茶點故事閱讀 44,724評論 2 354

推薦閱讀更多精彩內(nèi)容

  • Scrapy爬蟲教程一 Windows下安裝Scrapy的方式和問題總結(jié) Scrapy爬蟲教程二 淺析最煩人的反爬...
    熊熊熊孩子閱讀 649評論 0 3
  • 臨淵羨魚泵额,不如退而結(jié)網(wǎng)配深。我們步步為營梯刚,從頭開始幫助你用Python做出第一張詞云圖來。歡迎嘗試哦亡资! 在大數(shù)據(jù)時代,...
    王樹義閱讀 173,573評論 59 626
  • 還記得嗎嗦董?小時侯他騎著三輪車瘦黑,你坐在后面,上橋的時候橋頭人多幸斥,你立馬躺了下來。你不是怕人甲葬,你是怕人知道他是你爸爸。...
    柚子和馬鞭草閱讀 194評論 0 0
  • 睡到4點坡垫,哭了幾分鐘画侣。睡到5點10冰悠,斷斷續(xù)續(xù)哭了幾次配乱,6點喊醒吃奶皮迟。
    miaoyin閱讀 202評論 0 0
  • 我在小區(qū)里幾乎見到過不同公司的快遞哥的诵,他們有一個同點,來去匆匆烦粒,很少送貨上門,無論你收到的快遞是個信封還是個包裹扰她。...
    賈學禮零售閱讀 272評論 0 0