前幾天哥捕,旁邊的女同事說(shuō):“一看到有關(guān)《前任3》的新聞報(bào)道牧抽,我第一時(shí)間就想到了吳xx∫W”于是阎姥,我決定去看看這個(gè)電影。我想去折騰這個(gè)的原因鸽捻,不是受“啜泣女孩影響影院正常運(yùn)作“的新聞呼巴,也不是影片的票房,我的動(dòng)機(jī)有兩個(gè):
- 和相處近10年的她剛分手(也許某些生活場(chǎng)景我剛經(jīng)歷)御蒲。
- 去電影院看是找罪受衣赶,爬些數(shù)據(jù)從另一個(gè)角度看,會(huì)收獲意想不到的效果厚满。
這篇文章府瞄,我主要的思路是通過(guò)某些網(wǎng)友的觀后感受以及對(duì)影片的主觀評(píng)論來(lái)解讀這部青春劇的網(wǎng)絡(luò)發(fā)酵的原因。那么接下來(lái)我需要完成以下幾件事:
- 獲取這些觀后感和主管評(píng)論
- 將這些碎片化的文本數(shù)據(jù)處理成可分析的標(biāo)準(zhǔn)數(shù)據(jù)
- 建立分析維度碘箍,從標(biāo)準(zhǔn)數(shù)據(jù)中感知數(shù)據(jù)傳遞的信息
- 得出結(jié)論
獲取信息
我先去查看了下30天以來(lái)微博的熱度指數(shù)
出現(xiàn)這么明顯的高峰遵馆,很容易想到,這個(gè)區(qū)間一定處在上映的時(shí)間丰榴,在26號(hào)飆到最高3w多货邓,這不是偶然,每部電影在上映前都會(huì)大力鋪墊四濒,廣告飛上天换况,呈現(xiàn)的熱度也說(shuō)明了這一點(diǎn),媒體效應(yīng)的轉(zhuǎn)化其實(shí)是帶動(dòng)一個(gè)處于冷卻的東西向更熱的一端進(jìn)化盗蟆。
接下來(lái)要正式獲取數(shù)據(jù)了戈二。這是最基礎(chǔ)的步驟,你想從事這方面的分析喳资,這個(gè)你必須要會(huì)觉吭。在選擇來(lái)源的時(shí)候,我猶豫了很久仆邓,知乎上面的太裝鲜滩;微博上面太假;網(wǎng)易云音樂(lè)我試了宏赘,數(shù)量不是很大绒北,沒(méi)有代表性;走而周轉(zhuǎn)察署,糾結(jié)半天闷游,最后還是去了豆瓣,豆瓣上的評(píng)論幾年前我覺(jué)得很有價(jià)值,后來(lái)慢慢也下海了脐往,今天還是選擇了她休吠,也許是出于情懷,也許是出于無(wú)奈业簿。
我爬取了豆瓣《前任3》下面的評(píng)論瘤礁,我的目的直接簡(jiǎn)單,就是要這些評(píng)論內(nèi)容梅尤,像“id柜思、鏈接、喜歡數(shù)巷燥、時(shí)間”等等信息赡盘,只是為了以后能再次用得上這張表,今天這里不做贅述缰揪。把這些評(píng)論處理成文本信息陨享,去掉其中的標(biāo)點(diǎn)符號(hào),這里提醒一下:像“嗯~啊钝腺、~嗎”這種語(yǔ)氣嘆詞抛姑,最好不要處理,雖然在 nlp 中經(jīng)常會(huì)過(guò)濾這些信息艳狐,但在這里定硝,這些詞有可能代表評(píng)論者的某些情緒。如:“嗯~3都出來(lái)了敖┏邸喷斋?還嫌沒(méi)虐夠嗎唁毒?八廛睢!”當(dāng)你把這句文本中的“嗯浆西、啊粉私、嗎”都去掉,你讀一下近零,絕對(duì)感受不到原文本所表達(dá)的那種強(qiáng)烈的情緒诺核。所以,數(shù)據(jù)預(yù)處理需要科學(xué)的手段也需要理性的經(jīng)驗(yàn)久信。
處理信息
將全部評(píng)論信息打包窖杀,作為語(yǔ)料進(jìn)行分詞,按照詞性來(lái)分得到以下這張圖:
名詞占比最多裙士,我們來(lái)看看到底是哪些名詞出現(xiàn)的次數(shù)最多
這個(gè)很好理解入客,為什么“電影”會(huì)是第一,在大家紛紛發(fā)表看法的時(shí)候,總會(huì)帶上主觀色彩桌硫,于是都在說(shuō)“很虐心的電影”夭咬、“又是一個(gè)人看電影”、“這可能是三部中最好的一部電影”铆隘;在大家紛紛討論電影的時(shí)候卓舵,那些大要么分手了,要么分手過(guò)膀钠,要么快分手的人在說(shuō)“我的前任早死了掏湾,哈哈哈!”肿嘲,“嗯忘巧,我前任渣到至今我沒(méi)法忘記”或者是“我還在等我前任”“前任1、2沒(méi)這個(gè)好看”等等一系列的話題睦刃。前任死沒(méi)死不重要砚嘴,重要的是“前任”這個(gè)詞和“愛(ài)情”是分不開(kāi)的,他們?cè)诂F(xiàn)實(shí)中是前因后果涩拙,在實(shí)際中是“豆?jié){油條”只要出現(xiàn)际长,總是“凝固”得最緊。愛(ài)情伴隨感情而生兴泥,日久生情是建立在有感情的的基礎(chǔ)上工育,多少愛(ài)情不就是小時(shí)候她幫我背了幾個(gè)單詞這點(diǎn)小感情而來(lái)的嗎祟剔?
“(本來(lái))曾經(jīng)(當(dāng)初)有一份真誠(chéng)的愛(ài)情放在我面前抄瑟,我沒(méi)有(過(guò)去)珍惜,等我失去的時(shí)候我才后悔莫及软吐,人世間最痛苦的事莫過(guò)于此旭贬。如果(未來(lái))上天能夠給我一個(gè)再來(lái)一次的機(jī)會(huì)怔接,我會(huì)對(duì)那個(gè)女孩子說(shuō)三個(gè)字:我愛(ài)你∠」欤”在愛(ài)情面前扼脐,沒(méi)有懺悔的機(jī)會(huì),失去得是青春不是某一個(gè)人奋刽。這一連串的時(shí)間維度的詞不禁讓人感嘆瓦侮,回憶和夢(mèng)想是現(xiàn)實(shí)中最好的補(bǔ)給品。這幾個(gè)主角的名字也成了評(píng)論的焦點(diǎn)佣谐,”至尊寶“是個(gè)什么我不清楚肚吏,應(yīng)該是劇中直接或間接植入的某個(gè)廣告吧,名字中只認(rèn)識(shí)鄭愷狭魂,貌似名字男生多一些罚攀,我猜測(cè)在我所爬到的數(shù)據(jù)中評(píng)論者的性別女性多一些吁断。
關(guān)系鏈,整個(gè)網(wǎng)友《前任3》為中心坞生,360度蔓延仔役,語(yǔ)義分析的維度有很多很多,不同的分析會(huì)得到不同的結(jié)果是己,既可以做出運(yùn)營(yíng)調(diào)整報(bào)告又兵,也可以做出產(chǎn)品決策書(shū),大到可以作為商業(yè)投資依據(jù)等等卒废。因?yàn)槲谋景男畔⑹呛懈星樯实呐娉@比那些死板的數(shù)據(jù)帶來(lái)的信息多很多。
分析
某些分析已經(jīng)從基本的詞頻摔认、詞類說(shuō)過(guò)逆皮,這是一個(gè)維度的分析,直接簡(jiǎn)單参袱,好理解电谣。但是從文本數(shù)據(jù)表達(dá)來(lái)感知評(píng)論者的喜、怒抹蚀、哀剿牺、樂(lè)等分析(行內(nèi)稱“情感分析”),比較復(fù)雜环壤,這里說(shuō)一下具體的思路晒来,(會(huì)有些枯燥,不想看的同學(xué)直接跳過(guò))將處理的文本分詞后與一個(gè)已有的詞庫(kù)進(jìn)行對(duì)比郑现,這個(gè)詞庫(kù)包含喜湃崩、怒、哀接箫、樂(lè)等情感詞攒读,統(tǒng)計(jì)完成后,將的詞與原有的感情庫(kù)數(shù)據(jù)對(duì)比列牺,算出一個(gè)分值整陌,如:“真?zhèn)模门靶牡碾娪啊敝邪选眰南沽臁⑴靶摹暗仍~歸納到感情色彩詞”哀”,將各個(gè)類別一起完成随夸,形成權(quán)重分值九默,挨個(gè)執(zhí)行之后,整個(gè)文本就會(huì)由這些附帶感情色彩的情感詞組成啦
這部電影表達(dá)了一個(gè)負(fù)面的感情過(guò)程宾毒,評(píng)論自然不會(huì)是積極向上的驼修,待定人物的負(fù)面得分稍微高一些(數(shù)據(jù)量越大,這個(gè)越明顯),這個(gè)是數(shù)據(jù)永遠(yuǎn)遵循的規(guī)律乙各,數(shù)據(jù)反應(yīng)真實(shí)的結(jié)果墨礁,數(shù)據(jù)也遵循客觀規(guī)律。
上面有些內(nèi)容需要很專業(yè)的知識(shí)耳峦,有的還需要程序來(lái)支持恩静,這里給大家介紹一下相關(guān)的工具和免費(fèi)在線系統(tǒng):
python(數(shù)據(jù)分析處理的神級(jí)語(yǔ)言)
Jieba分詞(分詞庫(kù),挺好用的)
Bdp(可視化)
Gensim(詞向量蹲坷、主題模型)
bokeh(可視化)
plotly(可視乎)
圖銳(在線做詞云驶乾,免費(fèi))
新浪微輿情(輿情分析系統(tǒng),可試用)
excel(很多數(shù)據(jù)都可以通過(guò)它預(yù)先處理)
烽火普天(在線文本處理)
文本分詞后做的詞云
結(jié)論
一部電影出來(lái)后可以在一段時(shí)間上影響一群人的情緒循签,看這部電影看哭的人很多级乐。
在大家理性評(píng)論的時(shí)候,有些人已經(jīng)忘記前任县匠,放松看開(kāi)了风科,喜上心頭;有些人墜入愛(ài)河乞旦,痛極生悲丐重;有多少個(gè)前任就有多少個(gè)悲劇,韓庚也好杆查,鄭愷也罷扮惦,生活是自己的,提醒大家愛(ài)自己亲桦,愛(ài)他人崖蜜。
任何一部電影都會(huì)有明星效應(yīng),吐槽評(píng)論之間客峭,主角什么的都會(huì)成為話題豫领,紅不紅火不火顏值占一部分,角色占一部分舔琅。
一部電影播出等恐,除了票房收益,還可能讓不紅的演員紅起來(lái)备蚓,讓很紅的演員掉一波粉课蔬,某些廣告可能銷量劇增,甚至同款拖鞋內(nèi)褲紛紛爆上某寶首頁(yè)郊尝。
很多看似很平凡的邏輯推理二跋,在數(shù)據(jù)的驅(qū)動(dòng)下顯得更有說(shuō)服力,不是數(shù)據(jù)有強(qiáng)大流昏,只是讓那些喜歡反駁的人少了一個(gè)扯淡的理由扎即,任何一項(xiàng)分析吞获、預(yù)測(cè)、推薦不是100%的達(dá)到預(yù)期效果谚鄙,但是只要執(zhí)行下去各拷,優(yōu)化算法,加以人員運(yùn)營(yíng)闷营,總會(huì)慢慢變好烤黍,這是社會(huì)的趨勢(shì),也是發(fā)展的必要粮坞。本文從“為什么要做這個(gè)分析>>分析什么>>怎么分析>>分析結(jié)果”等流程來(lái)闡述整個(gè)文本文本語(yǔ)義分析的流程蚊荣,中間很多處理數(shù)據(jù)、計(jì)算莫杈、模型選擇等都沒(méi)有闡述互例,主要是這片文章旨在給在職的 pm 一個(gè)互相學(xué)習(xí)的機(jī)會(huì),有機(jī)會(huì)的話筝闹,下次的文章將會(huì)針對(duì)技術(shù)一點(diǎn)媳叨,從寫(xiě)爬蟲(chóng)>>excel預(yù)處理>>文本分詞>>詞性分類>> 情感話分析權(quán)重比對(duì)等過(guò)程。
我是一枚 pm 不怎么撕逼关顷,只希望在未來(lái)的某一天糊秆,數(shù)據(jù)驅(qū)動(dòng)產(chǎn)品迭代、決策议双、運(yùn)營(yíng)能夠成為行內(nèi)標(biāo)配痘番。