前言
最近,各種瓜“接踵而至”听怕,讓人應接不暇捧挺,同時也激起了一波又一波的“熱潮”虑绵,掀開了社會的陰暗面尿瞭。不知各位是否發(fā)現(xiàn),最近頻發(fā)的熱點翅睛,大多涉及到“兩性”間的問題声搁?
小編平時也不是很關注這些熱點,但是這次小編罕見的被“勾引”了捕发!為了去了解“吃瓜”群眾對于這次事件關注點疏旨,小編特意爬取了知乎500多頁數(shù)據(jù),涉及兩千多條評論對吃瓜群眾的關注點進行技術分析扎酷,那么讓我們開始吧檐涝!
首先呢,小編對知乎的熱榜數(shù)據(jù)進行爬取法挨,代碼如下:
最后運行結果呈現(xiàn)了知乎的熱榜各熱點簡介和熱度排名(五種類別匯總的數(shù)據(jù))谁榜,效果如下:
哇塞,這個排名第一的“大瓜”昨天看熱度還只是2千多萬凡纳,今天就三千萬了窃植,看來吃瓜群眾對這種瓜的興趣蠻大的,那么我們就來盤它荐糜!
接下來對“某某某某事件”的評論數(shù)據(jù)進行爬取和整理巷怜,由于小編太懶,懶得動手敲??暴氏,于是采用了這款小白15mins都能玩的順溜的強大插件——webscraper延塑,來進行爬取。
但是呢答渔,這個也有個缺點关带,當數(shù)據(jù)量大的時候,不能一次性爬取完所有數(shù)據(jù)研儒,小編當時為了爬取這500多頁數(shù)據(jù)分了好幾次進行爬取豫缨。
數(shù)據(jù)爬取完整合到一個表格中,如下圖所示:
接下來是對文本信息進行去重處理(webscraper爬取得信息由于是多線程爬取端朵,而且我還重復好幾次好芭,難免存在重復信息),如下圖所示:
目前冲呢,前期的處理已經(jīng)完成舍败,接下來就是對文本進行分詞,提取吃瓜群眾的高頻評論詞語。
到此邻薯,文本內(nèi)容的提取結束裙戏,接下來就是統(tǒng)計詞頻和可視化了!
效果如下所示:
文字的大小表示詞頻厕诡,thumb是大拇指表情的英文釋義
從結果可以看出累榜,本次“吃瓜事件”的主人公得到了大家“很好”的關注,同時從吃瓜群眾的高頻詞匯可以看出輿論主要方向都是在譴責某某灵嫌,但是我們也可以發(fā)現(xiàn)有不少的“瓜民”表達的價值觀讓小編我直呼心臟受不住壹罚。
(部分高頻詞小編看的不是太懂,勞煩哪位老司機解釋解釋)
最后寿羞,總結一下猖凛,吃瓜雖好,但是希望各位仍然能夠保持客觀的判斷绪穆,不盲從辨泳,不跟風,不要吃壞“肚子”玖院。
今天的內(nèi)容就這么多了菠红,“吃”的不盡興的朋友可以用我分享的源碼和數(shù)據(jù)文件來“技術吃瓜”。
鏈接:https://pan.baidu.com/s/1VEE-Uir3MtqF7uynASDVIg
提取碼:wtwv