從數(shù)據(jù)分析的角度看《前任3》

前幾天哥捕,旁邊的女同事說(shuō):“一看到有關(guān)《前任3》的新聞報(bào)道牧抽,我第一時(shí)間就想到了吳xx∫W”于是阎姥,我決定去看看這個(gè)電影。我想去折騰這個(gè)的原因鸽捻,不是受“啜泣女孩影響影院正常運(yùn)作“的新聞呼巴,也不是影片的票房,我的動(dòng)機(jī)有兩個(gè):

  • 和相處近10年的她剛分手(也許某些生活場(chǎng)景我剛經(jīng)歷)御蒲。
  • 去電影院看是找罪受衣赶,爬些數(shù)據(jù)從另一個(gè)角度看,會(huì)收獲意想不到的效果厚满。

這篇文章府瞄,我主要的思路是通過(guò)某些網(wǎng)友的觀后感受以及對(duì)影片的主觀評(píng)論來(lái)解讀這部青春劇的網(wǎng)絡(luò)發(fā)酵的原因。那么接下來(lái)我需要完成以下幾件事:

  • 獲取這些觀后感和主管評(píng)論
  • 將這些碎片化的文本數(shù)據(jù)處理成可分析的標(biāo)準(zhǔn)數(shù)據(jù)
  • 建立分析維度碘箍,從標(biāo)準(zhǔn)數(shù)據(jù)中感知數(shù)據(jù)傳遞的信息
  • 得出結(jié)論

獲取信息

我先去查看了下30天以來(lái)微博的熱度指數(shù)

熱度走勢(shì)

出現(xiàn)這么明顯的高峰遵馆,很容易想到,這個(gè)區(qū)間一定處在上映的時(shí)間丰榴,在26號(hào)飆到最高3w多货邓,這不是偶然,每部電影在上映前都會(huì)大力鋪墊四濒,廣告飛上天换况,呈現(xiàn)的熱度也說(shuō)明了這一點(diǎn),媒體效應(yīng)的轉(zhuǎn)化其實(shí)是帶動(dòng)一個(gè)處于冷卻的東西向更熱的一端進(jìn)化盗蟆。

接下來(lái)要正式獲取數(shù)據(jù)了戈二。這是最基礎(chǔ)的步驟,你想從事這方面的分析喳资,這個(gè)你必須要會(huì)觉吭。在選擇來(lái)源的時(shí)候,我猶豫了很久仆邓,知乎上面的太裝鲜滩;微博上面太假;網(wǎng)易云音樂(lè)我試了宏赘,數(shù)量不是很大绒北,沒(méi)有代表性;走而周轉(zhuǎn)察署,糾結(jié)半天闷游,最后還是去了豆瓣,豆瓣上的評(píng)論幾年前我覺(jué)得很有價(jià)值,后來(lái)慢慢也下海了脐往,今天還是選擇了她休吠,也許是出于情懷,也許是出于無(wú)奈业簿。

原始數(shù)據(jù)

我爬取了豆瓣《前任3》下面的評(píng)論瘤礁,我的目的直接簡(jiǎn)單,就是要這些評(píng)論內(nèi)容梅尤,像“id柜思、鏈接、喜歡數(shù)巷燥、時(shí)間”等等信息赡盘,只是為了以后能再次用得上這張表,今天這里不做贅述缰揪。把這些評(píng)論處理成文本信息陨享,去掉其中的標(biāo)點(diǎn)符號(hào),這里提醒一下:像“嗯~啊钝腺、~嗎”這種語(yǔ)氣嘆詞抛姑,最好不要處理,雖然在 nlp 中經(jīng)常會(huì)過(guò)濾這些信息艳狐,但在這里定硝,這些詞有可能代表評(píng)論者的某些情緒。如:“嗯~3都出來(lái)了敖┏邸喷斋?還嫌沒(méi)虐夠嗎唁毒?八廛睢!”當(dāng)你把這句文本中的“嗯浆西、啊粉私、嗎”都去掉,你讀一下近零,絕對(duì)感受不到原文本所表達(dá)的那種強(qiáng)烈的情緒诺核。所以,數(shù)據(jù)預(yù)處理需要科學(xué)的手段也需要理性的經(jīng)驗(yàn)久信。

處理信息

將全部評(píng)論信息打包窖杀,作為語(yǔ)料進(jìn)行分詞,按照詞性來(lái)分得到以下這張圖:

詞性分析

名詞占比最多裙士,我們來(lái)看看到底是哪些名詞出現(xiàn)的次數(shù)最多

詞頻分析1

這個(gè)很好理解入客,為什么“電影”會(huì)是第一,在大家紛紛發(fā)表看法的時(shí)候,總會(huì)帶上主觀色彩桌硫,于是都在說(shuō)“很虐心的電影”夭咬、“又是一個(gè)人看電影”、“這可能是三部中最好的一部電影”铆隘;在大家紛紛討論電影的時(shí)候卓舵,那些大要么分手了,要么分手過(guò)膀钠,要么快分手的人在說(shuō)“我的前任早死了掏湾,哈哈哈!”肿嘲,“嗯忘巧,我前任渣到至今我沒(méi)法忘記”或者是“我還在等我前任”“前任1、2沒(méi)這個(gè)好看”等等一系列的話題睦刃。前任死沒(méi)死不重要砚嘴,重要的是“前任”這個(gè)詞和“愛(ài)情”是分不開(kāi)的,他們?cè)诂F(xiàn)實(shí)中是前因后果涩拙,在實(shí)際中是“豆?jié){油條”只要出現(xiàn)际长,總是“凝固”得最緊。愛(ài)情伴隨感情而生兴泥,日久生情是建立在有感情的的基礎(chǔ)上工育,多少愛(ài)情不就是小時(shí)候她幫我背了幾個(gè)單詞這點(diǎn)小感情而來(lái)的嗎祟剔?

詞頻分析2

“(本來(lái))曾經(jīng)(當(dāng)初)有一份真誠(chéng)的愛(ài)情放在我面前抄瑟,我沒(méi)有(過(guò)去)珍惜,等我失去的時(shí)候我才后悔莫及软吐,人世間最痛苦的事莫過(guò)于此旭贬。如果(未來(lái))上天能夠給我一個(gè)再來(lái)一次的機(jī)會(huì)怔接,我會(huì)對(duì)那個(gè)女孩子說(shuō)三個(gè)字:我愛(ài)你∠」欤”在愛(ài)情面前扼脐,沒(méi)有懺悔的機(jī)會(huì),失去得是青春不是某一個(gè)人奋刽。這一連串的時(shí)間維度的詞不禁讓人感嘆瓦侮,回憶和夢(mèng)想是現(xiàn)實(shí)中最好的補(bǔ)給品。這幾個(gè)主角的名字也成了評(píng)論的焦點(diǎn)佣谐,”至尊寶“是個(gè)什么我不清楚肚吏,應(yīng)該是劇中直接或間接植入的某個(gè)廣告吧,名字中只認(rèn)識(shí)鄭愷狭魂,貌似名字男生多一些罚攀,我猜測(cè)在我所爬到的數(shù)據(jù)中評(píng)論者的性別女性多一些吁断。

關(guān)系鏈,整個(gè)網(wǎng)友《前任3》為中心坞生,360度蔓延仔役,語(yǔ)義分析的維度有很多很多,不同的分析會(huì)得到不同的結(jié)果是己,既可以做出運(yùn)營(yíng)調(diào)整報(bào)告又兵,也可以做出產(chǎn)品決策書(shū),大到可以作為商業(yè)投資依據(jù)等等卒废。因?yàn)槲谋景男畔⑹呛懈星樯实呐娉@比那些死板的數(shù)據(jù)帶來(lái)的信息多很多。

關(guān)系鏈

分析

某些分析已經(jīng)從基本的詞頻摔认、詞類說(shuō)過(guò)逆皮,這是一個(gè)維度的分析,直接簡(jiǎn)單参袱,好理解电谣。但是從文本數(shù)據(jù)表達(dá)來(lái)感知評(píng)論者的喜、怒抹蚀、哀剿牺、樂(lè)等分析(行內(nèi)稱“情感分析”),比較復(fù)雜环壤,這里說(shuō)一下具體的思路晒来,(會(huì)有些枯燥,不想看的同學(xué)直接跳過(guò))將處理的文本分詞后與一個(gè)已有的詞庫(kù)進(jìn)行對(duì)比郑现,這個(gè)詞庫(kù)包含喜湃崩、怒、哀接箫、樂(lè)等情感詞攒读,統(tǒng)計(jì)完成后,將的詞與原有的感情庫(kù)數(shù)據(jù)對(duì)比列牺,算出一個(gè)分值整陌,如:“真?zhèn)模门靶牡碾娪啊敝邪选眰南沽臁⑴靶摹暗仍~歸納到感情色彩詞”哀”,將各個(gè)類別一起完成随夸,形成權(quán)重分值九默,挨個(gè)執(zhí)行之后,整個(gè)文本就會(huì)由這些附帶感情色彩的情感詞組成啦

情感分析

這部電影表達(dá)了一個(gè)負(fù)面的感情過(guò)程宾毒,評(píng)論自然不會(huì)是積極向上的驼修,待定人物的負(fù)面得分稍微高一些(數(shù)據(jù)量越大,這個(gè)越明顯),這個(gè)是數(shù)據(jù)永遠(yuǎn)遵循的規(guī)律乙各,數(shù)據(jù)反應(yīng)真實(shí)的結(jié)果墨礁,數(shù)據(jù)也遵循客觀規(guī)律。

上面有些內(nèi)容需要很專業(yè)的知識(shí)耳峦,有的還需要程序來(lái)支持恩静,這里給大家介紹一下相關(guān)的工具和免費(fèi)在線系統(tǒng):

python(數(shù)據(jù)分析處理的神級(jí)語(yǔ)言)
Jieba分詞(分詞庫(kù),挺好用的)
Bdp(可視化)
Gensim(詞向量蹲坷、主題模型)
bokeh(可視化)
plotly(可視乎)
圖銳(在線做詞云驶乾,免費(fèi))
新浪微輿情(輿情分析系統(tǒng),可試用)
excel(很多數(shù)據(jù)都可以通過(guò)它預(yù)先處理)
烽火普天(在線文本處理)

文本分詞后做的詞云

詞云

結(jié)論

  1. 一部電影出來(lái)后可以在一段時(shí)間上影響一群人的情緒循签,看這部電影看哭的人很多级乐。

  2. 在大家理性評(píng)論的時(shí)候,有些人已經(jīng)忘記前任县匠,放松看開(kāi)了风科,喜上心頭;有些人墜入愛(ài)河乞旦,痛極生悲丐重;有多少個(gè)前任就有多少個(gè)悲劇,韓庚也好杆查,鄭愷也罷扮惦,生活是自己的,提醒大家愛(ài)自己亲桦,愛(ài)他人崖蜜。

  3. 任何一部電影都會(huì)有明星效應(yīng),吐槽評(píng)論之間客峭,主角什么的都會(huì)成為話題豫领,紅不紅火不火顏值占一部分,角色占一部分舔琅。

  4. 一部電影播出等恐,除了票房收益,還可能讓不紅的演員紅起來(lái)备蚓,讓很紅的演員掉一波粉课蔬,某些廣告可能銷量劇增,甚至同款拖鞋內(nèi)褲紛紛爆上某寶首頁(yè)郊尝。

很多看似很平凡的邏輯推理二跋,在數(shù)據(jù)的驅(qū)動(dòng)下顯得更有說(shuō)服力,不是數(shù)據(jù)有強(qiáng)大流昏,只是讓那些喜歡反駁的人少了一個(gè)扯淡的理由扎即,任何一項(xiàng)分析吞获、預(yù)測(cè)、推薦不是100%的達(dá)到預(yù)期效果谚鄙,但是只要執(zhí)行下去各拷,優(yōu)化算法,加以人員運(yùn)營(yíng)闷营,總會(huì)慢慢變好烤黍,這是社會(huì)的趨勢(shì),也是發(fā)展的必要粮坞。本文從“為什么要做這個(gè)分析>>分析什么>>怎么分析>>分析結(jié)果”等流程來(lái)闡述整個(gè)文本文本語(yǔ)義分析的流程蚊荣,中間很多處理數(shù)據(jù)、計(jì)算莫杈、模型選擇等都沒(méi)有闡述互例,主要是這片文章旨在給在職的 pm 一個(gè)互相學(xué)習(xí)的機(jī)會(huì),有機(jī)會(huì)的話筝闹,下次的文章將會(huì)針對(duì)技術(shù)一點(diǎn)媳叨,從寫(xiě)爬蟲(chóng)>>excel預(yù)處理>>文本分詞>>詞性分類>> 情感話分析權(quán)重比對(duì)等過(guò)程。

我是一枚 pm 不怎么撕逼关顷,只希望在未來(lái)的某一天糊秆,數(shù)據(jù)驅(qū)動(dòng)產(chǎn)品迭代、決策议双、運(yùn)營(yíng)能夠成為行內(nèi)標(biāo)配痘番。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市平痰,隨后出現(xiàn)的幾起案子汞舱,更是在濱河造成了極大的恐慌,老刑警劉巖宗雇,帶你破解...
    沈念sama閱讀 211,265評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件昂芜,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡赔蒲,警方通過(guò)查閱死者的電腦和手機(jī)泌神,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,078評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)舞虱,“玉大人欢际,你說(shuō)我怎么就攤上這事±担” “怎么了幼苛?”我有些...
    開(kāi)封第一講書(shū)人閱讀 156,852評(píng)論 0 347
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)焕刮。 經(jīng)常有香客問(wèn)我舶沿,道長(zhǎng),這世上最難降的妖魔是什么配并? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,408評(píng)論 1 283
  • 正文 為了忘掉前任括荡,我火速辦了婚禮,結(jié)果婚禮上溉旋,老公的妹妹穿的比我還像新娘畸冲。我一直安慰自己,他們只是感情好观腊,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,445評(píng)論 5 384
  • 文/花漫 我一把揭開(kāi)白布邑闲。 她就那樣靜靜地躺著,像睡著了一般梧油。 火紅的嫁衣襯著肌膚如雪苫耸。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 49,772評(píng)論 1 290
  • 那天儡陨,我揣著相機(jī)與錄音褪子,去河邊找鬼。 笑死骗村,一個(gè)胖子當(dāng)著我的面吹牛嫌褪,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播胚股,決...
    沈念sama閱讀 38,921評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼笼痛,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了琅拌?” 一聲冷哼從身側(cè)響起缨伊,我...
    開(kāi)封第一講書(shū)人閱讀 37,688評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎财忽,沒(méi)想到半個(gè)月后倘核,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,130評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡即彪,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,467評(píng)論 2 325
  • 正文 我和宋清朗相戀三年紧唱,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片隶校。...
    茶點(diǎn)故事閱讀 38,617評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡漏益,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出深胳,到底是詐尸還是另有隱情绰疤,我是刑警寧澤,帶...
    沈念sama閱讀 34,276評(píng)論 4 329
  • 正文 年R本政府宣布舞终,位于F島的核電站轻庆,受9級(jí)特大地震影響癣猾,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜余爆,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,882評(píng)論 3 312
  • 文/蒙蒙 一纷宇、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧蛾方,春花似錦像捶、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,740評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至亚隅,卻和暖如春硼莽,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背枢步。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,967評(píng)論 1 265
  • 我被黑心中介騙來(lái)泰國(guó)打工沉删, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人醉途。 一個(gè)月前我還...
    沈念sama閱讀 46,315評(píng)論 2 360
  • 正文 我出身青樓矾瑰,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親隘擎。 傳聞我的和親對(duì)象是個(gè)殘疾皇子殴穴,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,486評(píng)論 2 348