時間?2016-09-14 09:06:29產(chǎn)品100相似文章(1)
原文http://www.chanpin100.com/article/101089
這幾年琼了,我們一直在談大數(shù)據(jù)逻锐,這類的書籍也層出不窮夫晌,但是看完這一本本名托“大數(shù)據(jù)”的書籍后,我們不禁失望昧诱,不是難以捉摸晓淀,就是管我P事,本文從業(yè)務的角度來談談基于大數(shù)據(jù)的文本分析及其在商業(yè)場景中的應用盏档,后面會附上一些實例及開放的工具凶掰,力求讓理論落地,服務于實踐蜈亩。
本文是《數(shù)據(jù)分析中懦窘,文本分析遠比數(shù)值型分析重要!》的上篇稚配,聊的是文本分析的一些基本知識畅涂,下篇將以一個實際案例來聊聊基于大數(shù)據(jù)的文本分析是如何應用在商業(yè)場景中的。
1.我們?nèi)粘K斫獾摹皵?shù)據(jù)分析”
在我們?nèi)粘5漠a(chǎn)品和運營工作中道川,經(jīng)常接觸的數(shù)據(jù)分析方法午衰、形式絕大部分是基于對數(shù)字(值)的描述性分析,如銷量情況冒萄、用戶增長情況臊岸、留存情況和轉化情況等,高級一些的數(shù)據(jù)分析方法有因子分析尊流、聚類分析和回歸分析等方法(見下圖)帅戒。
常用的數(shù)據(jù)分析方法/形式
這些分析方法/形式有一個共同點:都是跟數(shù)字在打交道,說的專業(yè)一點崖技,就是基于對結構性數(shù)據(jù)(即行數(shù)據(jù)逻住,存儲在數(shù)據(jù)庫里,可以用二維表結構來邏輯表達實現(xiàn)的數(shù)據(jù))的分析迎献,比如姓名鄙信、性別、年齡這些信息忿晕,以Word、Excel等形式呈現(xiàn)的數(shù)據(jù)银受。這種類別的數(shù)據(jù)比較好處理践盼,只要簡單的建立一個對應的表就可以了。
典型的結構性數(shù)據(jù)表格
然而宾巍,數(shù)據(jù)分析僅僅只有這一種類型嗎咕幻?答案當然是:
NO~
一個完整而清晰的數(shù)據(jù)分析過程,除了在范圍上顶霞,要進行宏觀和微觀的分析外肄程,還需要在分析的層次上有所遞進和深入锣吼,以下是我們進行數(shù)據(jù)分析時常會考慮到7個維度。(見下圖)蓝厌。
數(shù)據(jù)分析的7個維度(來源:《誰說菜鳥不會數(shù)據(jù)分析(工具篇)》)
在上圖中玄叠,對數(shù)值型數(shù)據(jù)的分析能覆蓋絕大部分的維度,但它更多的是描述事物的表層現(xiàn)象拓提,主要是在事物的“量”上進行描述读恃。也就是說,對數(shù)值型數(shù)據(jù)的分析并不能回答其中最為重要的一個維度---“Why”代态,但在產(chǎn)品和運營的實際工作中寺惫,發(fā)掘出用戶的喜好、購買/使用及流失的內(nèi)在原因(也就是洞察用戶的行為動機)蹦疑,對我們的工作至關重要西雀,它會直接影響產(chǎn)品的功能設定和運營策略。
這時歉摧,對非結構性數(shù)據(jù)進行分析的需求呼之欲出艇肴。
據(jù)國際數(shù)據(jù)公司(IDC)的在2011年的調(diào)查顯示,在今后十年里判莉,非結構化數(shù)據(jù)將占所有產(chǎn)生的互聯(lián)網(wǎng)數(shù)據(jù)的90%豆挽。而作為一個尚未得到充分開發(fā)的“信息金礦”,非結構化數(shù)據(jù)分析可以揭示出券盅,我們之前所認為的異常復雜帮哈、且難以捉摸的諸多商業(yè)驅動因素間的重要相關關系。
所以锰镀,我們有必要對非結構性數(shù)據(jù)引起高度重視D锸獭!泳炉!
先等等憾筏,什么是非結構性數(shù)據(jù)呢?
2.什么是文本分析花鹅?
非結構性數(shù)據(jù)是與結構性數(shù)據(jù)相對的一個概念氧腰,它包括所有格式的辦公文檔、文本刨肃、圖片古拴、XML、HTML真友、各類報表黄痪、圖像和音頻/視頻信息等等。
非結構性數(shù)據(jù)組成部分
本文所提及的非結構性數(shù)據(jù)特指文本數(shù)據(jù)盔然,這里包括且不限于社交網(wǎng)絡(微博桅打、微信是嗜、QQ和脈脈等)、客戶反饋(客戶抱怨郵件挺尾、社交媒體網(wǎng)站的帖子鹅搪、開放式問卷調(diào)查、消費者點評)新聞媒體潦嘶、銷售人員的拜訪記錄等涩嚣。
文本分析的目的在于從根本上把所有的非結構化數(shù)據(jù)整合從而化為結構化數(shù)據(jù),從之前被認為難以量化的海量文本中抽取出大量有價值的掂僵、有意義的數(shù)據(jù)或信息航厚。
So,對文本數(shù)據(jù)進行分析,我們能得到哪些有價值的商業(yè)線索或洞察呢锰蓬?
3.基于大數(shù)據(jù)的文本分析的商業(yè)價值
文本數(shù)據(jù)來源異常廣泛且多樣幔睬,很多時候需要搜索海量的網(wǎng)頁。當然芹扭,只有基于恒河沙數(shù)般體量的大數(shù)據(jù)文本分析麻顶,才有可能得出比較可靠、有說服力的商業(yè)insight舱卡。
所以辅肾,“文本分析”常常被冠以“大數(shù)據(jù)文本分析”的全名。
“文本分析”轮锥,或者“語義分析”通過分析海量的非結構性的文本(信息)數(shù)據(jù)矫钓,得出的不僅是關于“是什么”的描述性分析,更多的回答了“為什么”舍杜,即目標用戶購買和使用產(chǎn)品的潛在動機/真實需求新娜。
在商業(yè)實踐中,基于大數(shù)據(jù)的文本分析被廣泛應用于各行各業(yè)既绩,利用認知技術獲得全新的商業(yè)洞察概龄,解決關鍵的知識性問題,這被IBM稱為“認知商業(yè)”饲握。例如企業(yè)可以從客戶關系數(shù)據(jù)私杜、 社交網(wǎng)絡、 新聞網(wǎng)站和購物網(wǎng)站評論等渠道獲取文本數(shù)據(jù)救欧,進而通過計算機進行自然語言處理歪今,從而揭示出在任何非結構化文本信息中的“4W”要素利虫,即人物(Who)股毫、事件(What)污淋、時間(When)、地點(Where)等骑疆,結合其中隱藏的“Why”進行關聯(lián)分析田篇,最終得到貫穿所有業(yè)務的全新層面的商業(yè)洞見。
大數(shù)據(jù)文本分析提取出的主要維度
舉例來說箍铭,某個APP的用戶滿意度一段時間內(nèi)上升不少泊柬,可以從評論量中好評數(shù)量的增加以及服務評價幾顆星來看出,但這只是描述性的分析诈火,并不能知道為什么用戶會給好評或差評兽赁,產(chǎn)品或服務的哪些方面會得到好評。
然而冷守,借助大數(shù)據(jù)文本分析刀崖,我們通過提取出的“4W”要素獲得對用戶“Why”的理解:
什么時候用戶的評論較正面,什么時候較負面(When)
用戶所給的好評和差評分別集中在該APP的哪些方面(What)
哪些人評論給差評拍摇,哪些人給好評亮钦,他們在用戶中的言論影響力如何(Who)
哪些地區(qū)的用戶給好評/差評,這些地區(qū)的用戶分別注重該APP的哪些方面(Where充活、What)
簡而言之蜂莉,基于大數(shù)據(jù)的文本分析能夠揭示出潛藏在文本信息當中的趨勢和關聯(lián),為商業(yè)決策混卵、行業(yè)趨勢研究和熱點內(nèi)容追蹤提供有力支持映穗。
那接下來的問題是:我們要去哪里找這些非結構性的文本數(shù)據(jù)呢?
4.這些有價值的海量文本數(shù)據(jù)“藏”在哪里幕随?
社會化媒體時代蚁滋,用戶在購買產(chǎn)品/服務前,使用中合陵,或是使用之后枢赔,一般會在互聯(lián)網(wǎng)上表達自己的對產(chǎn)品的疑慮或看法,通過互聯(lián)網(wǎng)這個平臺表達社情民意拥知,體現(xiàn)自身的真實意愿和產(chǎn)品/服務的體驗感受等踏拜。
一般來說,用戶產(chǎn)生的有價值的“發(fā)聲”主要集中在如下6個 “場所”:
大數(shù)據(jù)文本信息的來源
同時低剔,在互聯(lián)網(wǎng)的產(chǎn)品和運營工作中速梗,我們需要重點瞄向社交媒體、電商平臺及APP應用市場這3個用戶“言論集結地”襟齿,從上面獲取用戶對于產(chǎn)品/服務的“發(fā)聲”姻锁。
(1)社交媒體
社交媒體發(fā)展日益矚目,論壇猜欺、博客位隶、微博、微信等社交網(wǎng)絡接踵而至开皿,它們在悄無聲息中改變著我們的生活方式涧黄。
在交互性強篮昧、容易沉淀價值信息的網(wǎng)絡論壇上,網(wǎng)民們可以獲得各種信息服務笋妥,同時可以發(fā)布信息懊昨、進行討論、聊天春宣,用發(fā)帖回帖來表達對事件酵颁、產(chǎn)品、品牌和企業(yè)的看法月帝。
在容易爆發(fā)熱點話題的微博上躏惋,用戶除了會主動發(fā)布的微博外,還會主動追蹤熱點事件嫁赏、喜愛的興趣頻道和明星的微博其掂,轉發(fā)和評論這些微博。
在具有強關系屬性的微信上潦蝇,用戶會對自己關注的公眾號發(fā)布的內(nèi)容進行評論和轉發(fā)款熬,以此來表達自己的觀點和情緒…
在這個社會化的媒體時代,用戶成為企業(yè)最好的品牌推廣大使攘乒。如何從這些可觀的社交媒體數(shù)據(jù)中分析出用戶的潛在且準確的購物意愿及用戶需求贤牛,將成為提高品牌價值和聲譽,改善用戶體驗的新興途徑则酝。
例如殉簸,新浪微博上粉絲過萬的零售商,可以根據(jù)對某條轉發(fā)量極大的微博進行傳播分析沽讹,從中挖掘出粉絲的性別般卑、地域、關注的微話題爽雄、星座及興趣標簽蝠检,為粉絲個性化的去推送優(yōu)惠及新品信息。
由此可見挚瘟,這些看似龐大且無規(guī)則的社交數(shù)據(jù)叹谁,往往包含著大量的用戶基本信息和興趣標簽,它們是繪制用戶畫像的絕好素材乘盖。
(2)電子商務平臺
電子商務網(wǎng)站上的海量的用戶言論數(shù)據(jù)隱含著巨大的信息焰檩,這些網(wǎng)站包括且不限于淘寶網(wǎng)、京東商城订框、亞馬遜和大眾點評網(wǎng)等主流購物析苫、服務平臺。
例如,亞馬遜上的用戶對某商品的評論衩侥,商家可以根據(jù)用戶的評論和反饋浪腐,為用戶提供定制性的服務,甚至可以預測用戶的需求顿乒,從而達到更加準確的銷售目的。
(3)其他第三方應用市場
移動互聯(lián)網(wǎng)時代誕生了的APP泽谨,這些APP除了“掛”在自家的官方網(wǎng)站以外璧榄,更多的是分布于第三方應用市場(如蘋果商店、91助手吧雹、豌豆莢骨杂、小米應用市場、百度手機助手等)雄卷,這時收集用戶的大量吐槽對于改善APP的用戶體驗至關重要搓蚪。通過對用戶大量評論的文本分析,我們可以第一時間了解到產(chǎn)品的哪些方面是用戶喜歡的丁鹉,哪些方面是用戶比較嫌棄的妒潭,哪些是無關痛癢的“偽需求”,力求在短時間內(nèi)改善產(chǎn)品的功能與設計揣钦。
綜上所述雳灾,相關文本數(shù)據(jù)的來源多樣,而且覆蓋了非常廣泛的話題冯凹。任何和產(chǎn)品/服務相關的陳述和評論本質上都是有用的信息谎亩,因為這些陳述可以讓產(chǎn)品/品牌所有者了解用戶的最真實的想法。
5.大數(shù)據(jù)文本分析的一些應用場景
以上說的是大數(shù)據(jù)文本分析的一些原理宇姚、數(shù)據(jù)來源及其商業(yè)價值匈庭,現(xiàn)在筆者就從以下5點來談談它的實際應用場景。
(1)開放式作答處理
大量問卷調(diào)研中的開放式問題的處理浑劳,這些開放式的問題以電子文檔的形式進行存儲阱持,使計算機進行文本分析成為可能,可以在短時間內(nèi)從數(shù)以萬計的作答中提取出有價值的分析維度呀洲,獲得對(潛在)用戶的需求的洞察紊选。
從近萬份某3.15開放式問答題中提煉出的焦點話題
(2)內(nèi)容運營優(yōu)化
捕捉優(yōu)秀作者的寫作風格
對于一些初入新媒體運營崗位的小伙伴來說,研究和模仿某些知名自媒體作者的寫作風格很有必要道逗,學習他們的寫作手法和套路可以使我們的文案寫作進步神速兵罢。
要想對這些優(yōu)秀作者的行文風格進行深入研究,除了熟悉他們的行文脈絡和篇章結構滓窍,更要熟稔其遣詞造句上的套路(包括措辭特點卖词、常用關鍵詞和情感傾向等),在模仿中逐步形成自己的寫作風格。
如下圖此蜈,對咪蒙10幾篇具有代表性的文章進行文本分析即横,從如下各種屬性的關鍵詞,再結合對咪蒙作品的一定了解裆赵,可以得出這樣的結論:咪蒙的文章里經(jīng)常進行宣泄負面情緒东囚,把粉絲心中想說卻不敢說的話酣暢淋漓的表達了出來,使萬千粉絲感同身受战授,被其感染页藻;另一方面,她身邊的人常是被吐槽和分析的對象植兰。份帐。。
對咪蒙10幾篇具有代表性文章進行文本分析
新媒體熱點采集楣导、追蹤及預測
基于大數(shù)據(jù)的文本分析能快速獲取全網(wǎng)具有趨勢傳播的關鍵詞废境,可以實時監(jiān)測傳播趨勢(包括全面研究閱讀數(shù)、評論數(shù)筒繁、分享量噩凹、傳播趨勢),并且通過分析內(nèi)容屬性和成功原因膝晾,預測內(nèi)容在未來的傳播潛力栓始。
能夠嫻熟使用大數(shù)據(jù)的媒體人在未來的媒體行業(yè)才有立足之地,就如熱巢網(wǎng)CEO穆青所強調(diào)的:
在未來的媒體競爭中血当,媒體人需要轉型為“內(nèi)容+技術”的復合型人才幻赚,一方面發(fā)揮自己在內(nèi)容創(chuàng)作中基于人性的獨立判斷和分析,另一方面需要借助大數(shù)據(jù)分析技術提升文章的傳播效果臊旭,進行科學的人工傳播干預落恼。
(3)口碑管理
基于大數(shù)據(jù)的文本分析能快速準確的識別出企業(yè)/品牌/產(chǎn)品自身及競爭對手在互聯(lián)網(wǎng)上的口碑變化,深度挖掘文本數(shù)據(jù)價值离熏,在消費者洞察佳谦、產(chǎn)品研發(fā)、運營管理滋戳、市場營銷钻蔑、品牌戰(zhàn)略方面,為管理決策提供科學依據(jù)奸鸯。
某餐飲品牌的口碑管理
(4)輿情監(jiān)測及分析
利用基于大數(shù)據(jù)的文本分析咪笑,我們可以清晰的知曉事件從始發(fā)到發(fā)酵期、發(fā)展期娄涩、高漲期窗怒、回落期和反饋期等階段的演變過程,分析輿情的傳播路徑、傳播節(jié)點扬虚、發(fā)展態(tài)勢和受眾反饋等情報努隙。
對滬文化廣播影視管理局的輿情監(jiān)測
(5)了解用戶反饋
通過基于大數(shù)據(jù)的文本分析,企業(yè)可以用正確的方式閱讀用戶散落在網(wǎng)絡上的“聲音”辜昵,企業(yè)可以直接讀懂自己用戶的想法荸镊,挖掘出用戶對于產(chǎn)品/服務的情緒和態(tài)度。比如堪置,大數(shù)據(jù)文本分析可以回答如下問題:
用戶喜歡的是它產(chǎn)品的哪一方面贷洲?
比起其他公司的產(chǎn)品來,客戶是否更傾向他的產(chǎn)品晋柱?
這些偏好會隨著時間發(fā)展和變化嗎?
本文偏向于科普大數(shù)據(jù)文本分析的基本知識诵叁,下一篇將用一個生動的案例來說明雁竞,大數(shù)據(jù)文本分析是如何在互聯(lián)網(wǎng)商業(yè)實踐中體現(xiàn)其巨大商業(yè)價值的。
大數(shù)據(jù)離我們越來越近拧额,從事數(shù)據(jù)運營的小伙伴們碑诉,你準備好了嗎?