【數(shù)據(jù)運營】數(shù)據(jù)分析中妄辩,文本分析遠比數(shù)值型分析重要!(上)

時間?2016-09-14 09:06:29產(chǎn)品100相似文章(1)

原文http://www.chanpin100.com/article/101089

主題文本分析數(shù)據(jù)分析產(chǎn)品運營

這幾年琼了,我們一直在談大數(shù)據(jù)逻锐,這類的書籍也層出不窮夫晌,但是看完這一本本名托“大數(shù)據(jù)”的書籍后,我們不禁失望昧诱,不是難以捉摸晓淀,就是管我P事,本文從業(yè)務的角度來談談基于大數(shù)據(jù)的文本分析及其在商業(yè)場景中的應用盏档,后面會附上一些實例及開放的工具凶掰,力求讓理論落地,服務于實踐蜈亩。

本文是《數(shù)據(jù)分析中懦窘,文本分析遠比數(shù)值型分析重要!》的上篇稚配,聊的是文本分析的一些基本知識畅涂,下篇將以一個實際案例來聊聊基于大數(shù)據(jù)的文本分析是如何應用在商業(yè)場景中的。

1.我們?nèi)粘K斫獾摹皵?shù)據(jù)分析”

在我們?nèi)粘5漠a(chǎn)品和運營工作中道川,經(jīng)常接觸的數(shù)據(jù)分析方法午衰、形式絕大部分是基于對數(shù)字(值)的描述性分析,如銷量情況冒萄、用戶增長情況臊岸、留存情況和轉化情況等,高級一些的數(shù)據(jù)分析方法有因子分析尊流、聚類分析和回歸分析等方法(見下圖)帅戒。

常用的數(shù)據(jù)分析方法/形式

這些分析方法/形式有一個共同點:都是跟數(shù)字在打交道,說的專業(yè)一點崖技,就是基于對結構性數(shù)據(jù)(即行數(shù)據(jù)逻住,存儲在數(shù)據(jù)庫里,可以用二維表結構來邏輯表達實現(xiàn)的數(shù)據(jù))的分析迎献,比如姓名鄙信、性別、年齡這些信息忿晕,以Word、Excel等形式呈現(xiàn)的數(shù)據(jù)银受。這種類別的數(shù)據(jù)比較好處理践盼,只要簡單的建立一個對應的表就可以了。

典型的結構性數(shù)據(jù)表格

然而宾巍,數(shù)據(jù)分析僅僅只有這一種類型嗎咕幻?答案當然是:

NO~

一個完整而清晰的數(shù)據(jù)分析過程,除了在范圍上顶霞,要進行宏觀和微觀的分析外肄程,還需要在分析的層次上有所遞進和深入锣吼,以下是我們進行數(shù)據(jù)分析時常會考慮到7個維度。(見下圖)蓝厌。

數(shù)據(jù)分析的7個維度(來源:《誰說菜鳥不會數(shù)據(jù)分析(工具篇)》)

在上圖中玄叠,對數(shù)值型數(shù)據(jù)的分析能覆蓋絕大部分的維度,但它更多的是描述事物的表層現(xiàn)象拓提,主要是在事物的“量”上進行描述读恃。也就是說,對數(shù)值型數(shù)據(jù)的分析并不能回答其中最為重要的一個維度---“Why”代态,但在產(chǎn)品和運營的實際工作中寺惫,發(fā)掘出用戶的喜好、購買/使用及流失的內(nèi)在原因(也就是洞察用戶的行為動機)蹦疑,對我們的工作至關重要西雀,它會直接影響產(chǎn)品的功能設定和運營策略。

這時歉摧,對非結構性數(shù)據(jù)進行分析的需求呼之欲出艇肴。

據(jù)國際數(shù)據(jù)公司(IDC)的在2011年的調(diào)查顯示,在今后十年里判莉,非結構化數(shù)據(jù)將占所有產(chǎn)生的互聯(lián)網(wǎng)數(shù)據(jù)的90%豆挽。而作為一個尚未得到充分開發(fā)的“信息金礦”,非結構化數(shù)據(jù)分析可以揭示出券盅,我們之前所認為的異常復雜帮哈、且難以捉摸的諸多商業(yè)驅動因素間的重要相關關系。

所以锰镀,我們有必要對非結構性數(shù)據(jù)引起高度重視D锸獭!泳炉!

先等等憾筏,什么是非結構性數(shù)據(jù)呢?

2.什么是文本分析花鹅?

非結構性數(shù)據(jù)是與結構性數(shù)據(jù)相對的一個概念氧腰,它包括所有格式的辦公文檔、文本刨肃、圖片古拴、XML、HTML真友、各類報表黄痪、圖像和音頻/視頻信息等等。

非結構性數(shù)據(jù)組成部分

本文所提及的非結構性數(shù)據(jù)特指文本數(shù)據(jù)盔然,這里包括且不限于社交網(wǎng)絡(微博桅打、微信是嗜、QQ和脈脈等)、客戶反饋(客戶抱怨郵件挺尾、社交媒體網(wǎng)站的帖子鹅搪、開放式問卷調(diào)查、消費者點評)新聞媒體潦嘶、銷售人員的拜訪記錄等涩嚣。

文本分析的目的在于從根本上把所有的非結構化數(shù)據(jù)整合從而化為結構化數(shù)據(jù),從之前被認為難以量化的海量文本中抽取出大量有價值的掂僵、有意義的數(shù)據(jù)或信息航厚。

So,對文本數(shù)據(jù)進行分析,我們能得到哪些有價值的商業(yè)線索或洞察呢锰蓬?

3.基于大數(shù)據(jù)的文本分析的商業(yè)價值

文本數(shù)據(jù)來源異常廣泛且多樣幔睬,很多時候需要搜索海量的網(wǎng)頁。當然芹扭,只有基于恒河沙數(shù)般體量的大數(shù)據(jù)文本分析麻顶,才有可能得出比較可靠、有說服力的商業(yè)insight舱卡。

所以辅肾,“文本分析”常常被冠以“大數(shù)據(jù)文本分析”的全名。

“文本分析”轮锥,或者“語義分析”通過分析海量的非結構性的文本(信息)數(shù)據(jù)矫钓,得出的不僅是關于“是什么”的描述性分析,更多的回答了“為什么”舍杜,即目標用戶購買和使用產(chǎn)品的潛在動機/真實需求新娜。

在商業(yè)實踐中,基于大數(shù)據(jù)的文本分析被廣泛應用于各行各業(yè)既绩,利用認知技術獲得全新的商業(yè)洞察概龄,解決關鍵的知識性問題,這被IBM稱為“認知商業(yè)”饲握。例如企業(yè)可以從客戶關系數(shù)據(jù)私杜、 社交網(wǎng)絡、 新聞網(wǎng)站和購物網(wǎng)站評論等渠道獲取文本數(shù)據(jù)救欧,進而通過計算機進行自然語言處理歪今,從而揭示出在任何非結構化文本信息中的“4W”要素利虫,即人物(Who)股毫、事件(What)污淋、時間(When)、地點(Where)等骑疆,結合其中隱藏的“Why”進行關聯(lián)分析田篇,最終得到貫穿所有業(yè)務的全新層面的商業(yè)洞見。

大數(shù)據(jù)文本分析提取出的主要維度

舉例來說箍铭,某個APP的用戶滿意度一段時間內(nèi)上升不少泊柬,可以從評論量中好評數(shù)量的增加以及服務評價幾顆星來看出,但這只是描述性的分析诈火,并不能知道為什么用戶會給好評或差評兽赁,產(chǎn)品或服務的哪些方面會得到好評。

然而冷守,借助大數(shù)據(jù)文本分析刀崖,我們通過提取出的“4W”要素獲得對用戶“Why”的理解:

什么時候用戶的評論較正面,什么時候較負面(When)

用戶所給的好評和差評分別集中在該APP的哪些方面(What)

哪些人評論給差評拍摇,哪些人給好評亮钦,他們在用戶中的言論影響力如何(Who)

哪些地區(qū)的用戶給好評/差評,這些地區(qū)的用戶分別注重該APP的哪些方面(Where充活、What)

簡而言之蜂莉,基于大數(shù)據(jù)的文本分析能夠揭示出潛藏在文本信息當中的趨勢和關聯(lián),為商業(yè)決策混卵、行業(yè)趨勢研究和熱點內(nèi)容追蹤提供有力支持映穗。

那接下來的問題是:我們要去哪里找這些非結構性的文本數(shù)據(jù)呢?

4.這些有價值的海量文本數(shù)據(jù)“藏”在哪里幕随?

社會化媒體時代蚁滋,用戶在購買產(chǎn)品/服務前,使用中合陵,或是使用之后枢赔,一般會在互聯(lián)網(wǎng)上表達自己的對產(chǎn)品的疑慮或看法,通過互聯(lián)網(wǎng)這個平臺表達社情民意拥知,體現(xiàn)自身的真實意愿和產(chǎn)品/服務的體驗感受等踏拜。

一般來說,用戶產(chǎn)生的有價值的“發(fā)聲”主要集中在如下6個 “場所”:

大數(shù)據(jù)文本信息的來源

同時低剔,在互聯(lián)網(wǎng)的產(chǎn)品和運營工作中速梗,我們需要重點瞄向社交媒體、電商平臺及APP應用市場這3個用戶“言論集結地”襟齿,從上面獲取用戶對于產(chǎn)品/服務的“發(fā)聲”姻锁。

(1)社交媒體

社交媒體發(fā)展日益矚目,論壇猜欺、博客位隶、微博、微信等社交網(wǎng)絡接踵而至开皿,它們在悄無聲息中改變著我們的生活方式涧黄。

在交互性強篮昧、容易沉淀價值信息的網(wǎng)絡論壇上,網(wǎng)民們可以獲得各種信息服務笋妥,同時可以發(fā)布信息懊昨、進行討論、聊天春宣,用發(fā)帖回帖來表達對事件酵颁、產(chǎn)品、品牌和企業(yè)的看法月帝。

在容易爆發(fā)熱點話題的微博上躏惋,用戶除了會主動發(fā)布的微博外,還會主動追蹤熱點事件嫁赏、喜愛的興趣頻道和明星的微博其掂,轉發(fā)和評論這些微博。

在具有強關系屬性的微信上潦蝇,用戶會對自己關注的公眾號發(fā)布的內(nèi)容進行評論和轉發(fā)款熬,以此來表達自己的觀點和情緒…

在這個社會化的媒體時代,用戶成為企業(yè)最好的品牌推廣大使攘乒。如何從這些可觀的社交媒體數(shù)據(jù)中分析出用戶的潛在且準確的購物意愿及用戶需求贤牛,將成為提高品牌價值和聲譽,改善用戶體驗的新興途徑则酝。

例如殉簸,新浪微博上粉絲過萬的零售商,可以根據(jù)對某條轉發(fā)量極大的微博進行傳播分析沽讹,從中挖掘出粉絲的性別般卑、地域、關注的微話題爽雄、星座及興趣標簽蝠检,為粉絲個性化的去推送優(yōu)惠及新品信息。

由此可見挚瘟,這些看似龐大且無規(guī)則的社交數(shù)據(jù)叹谁,往往包含著大量的用戶基本信息和興趣標簽,它們是繪制用戶畫像的絕好素材乘盖。

(2)電子商務平臺

電子商務網(wǎng)站上的海量的用戶言論數(shù)據(jù)隱含著巨大的信息焰檩,這些網(wǎng)站包括且不限于淘寶網(wǎng)、京東商城订框、亞馬遜和大眾點評網(wǎng)等主流購物析苫、服務平臺。

例如,亞馬遜上的用戶對某商品的評論衩侥,商家可以根據(jù)用戶的評論和反饋浪腐,為用戶提供定制性的服務,甚至可以預測用戶的需求顿乒,從而達到更加準確的銷售目的。

(3)其他第三方應用市場

移動互聯(lián)網(wǎng)時代誕生了的APP泽谨,這些APP除了“掛”在自家的官方網(wǎng)站以外璧榄,更多的是分布于第三方應用市場(如蘋果商店、91助手吧雹、豌豆莢骨杂、小米應用市場、百度手機助手等)雄卷,這時收集用戶的大量吐槽對于改善APP的用戶體驗至關重要搓蚪。通過對用戶大量評論的文本分析,我們可以第一時間了解到產(chǎn)品的哪些方面是用戶喜歡的丁鹉,哪些方面是用戶比較嫌棄的妒潭,哪些是無關痛癢的“偽需求”,力求在短時間內(nèi)改善產(chǎn)品的功能與設計揣钦。

綜上所述雳灾,相關文本數(shù)據(jù)的來源多樣,而且覆蓋了非常廣泛的話題冯凹。任何和產(chǎn)品/服務相關的陳述和評論本質上都是有用的信息谎亩,因為這些陳述可以讓產(chǎn)品/品牌所有者了解用戶的最真實的想法。

5.大數(shù)據(jù)文本分析的一些應用場景

以上說的是大數(shù)據(jù)文本分析的一些原理宇姚、數(shù)據(jù)來源及其商業(yè)價值匈庭,現(xiàn)在筆者就從以下5點來談談它的實際應用場景。

(1)開放式作答處理

大量問卷調(diào)研中的開放式問題的處理浑劳,這些開放式的問題以電子文檔的形式進行存儲阱持,使計算機進行文本分析成為可能,可以在短時間內(nèi)從數(shù)以萬計的作答中提取出有價值的分析維度呀洲,獲得對(潛在)用戶的需求的洞察紊选。

從近萬份某3.15開放式問答題中提煉出的焦點話題

(2)內(nèi)容運營優(yōu)化

捕捉優(yōu)秀作者的寫作風格

對于一些初入新媒體運營崗位的小伙伴來說,研究和模仿某些知名自媒體作者的寫作風格很有必要道逗,學習他們的寫作手法和套路可以使我們的文案寫作進步神速兵罢。

要想對這些優(yōu)秀作者的行文風格進行深入研究,除了熟悉他們的行文脈絡和篇章結構滓窍,更要熟稔其遣詞造句上的套路(包括措辭特點卖词、常用關鍵詞和情感傾向等),在模仿中逐步形成自己的寫作風格。

如下圖此蜈,對咪蒙10幾篇具有代表性的文章進行文本分析即横,從如下各種屬性的關鍵詞,再結合對咪蒙作品的一定了解裆赵,可以得出這樣的結論:咪蒙的文章里經(jīng)常進行宣泄負面情緒东囚,把粉絲心中想說卻不敢說的話酣暢淋漓的表達了出來,使萬千粉絲感同身受战授,被其感染页藻;另一方面,她身邊的人常是被吐槽和分析的對象植兰。份帐。。

對咪蒙10幾篇具有代表性文章進行文本分析

新媒體熱點采集楣导、追蹤及預測

基于大數(shù)據(jù)的文本分析能快速獲取全網(wǎng)具有趨勢傳播的關鍵詞废境,可以實時監(jiān)測傳播趨勢(包括全面研究閱讀數(shù)、評論數(shù)筒繁、分享量噩凹、傳播趨勢),并且通過分析內(nèi)容屬性和成功原因膝晾,預測內(nèi)容在未來的傳播潛力栓始。

能夠嫻熟使用大數(shù)據(jù)的媒體人在未來的媒體行業(yè)才有立足之地,就如熱巢網(wǎng)CEO穆青所強調(diào)的:

在未來的媒體競爭中血当,媒體人需要轉型為“內(nèi)容+技術”的復合型人才幻赚,一方面發(fā)揮自己在內(nèi)容創(chuàng)作中基于人性的獨立判斷和分析,另一方面需要借助大數(shù)據(jù)分析技術提升文章的傳播效果臊旭,進行科學的人工傳播干預落恼。

(3)口碑管理

基于大數(shù)據(jù)的文本分析能快速準確的識別出企業(yè)/品牌/產(chǎn)品自身及競爭對手在互聯(lián)網(wǎng)上的口碑變化,深度挖掘文本數(shù)據(jù)價值离熏,在消費者洞察佳谦、產(chǎn)品研發(fā)、運營管理滋戳、市場營銷钻蔑、品牌戰(zhàn)略方面,為管理決策提供科學依據(jù)奸鸯。

某餐飲品牌的口碑管理

(4)輿情監(jiān)測及分析

利用基于大數(shù)據(jù)的文本分析咪笑,我們可以清晰的知曉事件從始發(fā)到發(fā)酵期、發(fā)展期娄涩、高漲期窗怒、回落期和反饋期等階段的演變過程,分析輿情的傳播路徑、傳播節(jié)點扬虚、發(fā)展態(tài)勢和受眾反饋等情報努隙。

對滬文化廣播影視管理局的輿情監(jiān)測

(5)了解用戶反饋

通過基于大數(shù)據(jù)的文本分析,企業(yè)可以用正確的方式閱讀用戶散落在網(wǎng)絡上的“聲音”辜昵,企業(yè)可以直接讀懂自己用戶的想法荸镊,挖掘出用戶對于產(chǎn)品/服務的情緒和態(tài)度。比如堪置,大數(shù)據(jù)文本分析可以回答如下問題:

用戶喜歡的是它產(chǎn)品的哪一方面贷洲?

比起其他公司的產(chǎn)品來,客戶是否更傾向他的產(chǎn)品晋柱?

這些偏好會隨著時間發(fā)展和變化嗎?

本文偏向于科普大數(shù)據(jù)文本分析的基本知識诵叁,下一篇將用一個生動的案例來說明雁竞,大數(shù)據(jù)文本分析是如何在互聯(lián)網(wǎng)商業(yè)實踐中體現(xiàn)其巨大商業(yè)價值的。

大數(shù)據(jù)離我們越來越近拧额,從事數(shù)據(jù)運營的小伙伴們碑诉,你準備好了嗎?

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末侥锦,一起剝皮案震驚了整個濱河市进栽,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌恭垦,老刑警劉巖快毛,帶你破解...
    沈念sama閱讀 211,194評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異番挺,居然都是意外死亡唠帝,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,058評論 2 385
  • 文/潘曉璐 我一進店門玄柏,熙熙樓的掌柜王于貴愁眉苦臉地迎上來襟衰,“玉大人,你說我怎么就攤上這事粪摘∑偕梗” “怎么了?”我有些...
    開封第一講書人閱讀 156,780評論 0 346
  • 文/不壞的土叔 我叫張陵徘意,是天一觀的道長苔悦。 經(jīng)常有香客問我,道長映砖,這世上最難降的妖魔是什么间坐? 我笑而不...
    開封第一講書人閱讀 56,388評論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上竹宋,老公的妹妹穿的比我還像新娘劳澄。我一直安慰自己,他們只是感情好蜈七,可當我...
    茶點故事閱讀 65,430評論 5 384
  • 文/花漫 我一把揭開白布秒拔。 她就那樣靜靜地躺著,像睡著了一般飒硅。 火紅的嫁衣襯著肌膚如雪砂缩。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,764評論 1 290
  • 那天三娩,我揣著相機與錄音庵芭,去河邊找鬼。 笑死雀监,一個胖子當著我的面吹牛双吆,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播会前,決...
    沈念sama閱讀 38,907評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼好乐,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了瓦宜?” 一聲冷哼從身側響起蔚万,我...
    開封第一講書人閱讀 37,679評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎临庇,沒想到半個月后反璃,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,122評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡假夺,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,459評論 2 325
  • 正文 我和宋清朗相戀三年版扩,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片侄泽。...
    茶點故事閱讀 38,605評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡礁芦,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出悼尾,到底是詐尸還是另有隱情柿扣,我是刑警寧澤,帶...
    沈念sama閱讀 34,270評論 4 329
  • 正文 年R本政府宣布闺魏,位于F島的核電站未状,受9級特大地震影響,放射性物質發(fā)生泄漏析桥。R本人自食惡果不足惜司草,卻給世界環(huán)境...
    茶點故事閱讀 39,867評論 3 312
  • 文/蒙蒙 一艰垂、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧埋虹,春花似錦猜憎、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,734評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至爬泥,卻和暖如春柬讨,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背袍啡。 一陣腳步聲響...
    開封第一講書人閱讀 31,961評論 1 265
  • 我被黑心中介騙來泰國打工踩官, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人境输。 一個月前我還...
    沈念sama閱讀 46,297評論 2 360
  • 正文 我出身青樓卖鲤,卻偏偏與公主長得像,于是被迫代替她去往敵國和親畴嘶。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 43,472評論 2 348

推薦閱讀更多精彩內(nèi)容