用戶研究之文本研究系列-3:用戶反饋文本挖掘基礎(chǔ)

導(dǎo)讀

用戶反饋文本曹货,作為用戶問(wèn)題、建議讳推、態(tài)度的載體顶籽,對(duì)產(chǎn)品評(píng)估和改進(jìn)優(yōu)化極具價(jià)值。但作為非結(jié)構(gòu)化數(shù)據(jù)娜遵,用戶反饋文本的處理并不完全適用結(jié)構(gòu)化數(shù)據(jù)挖掘流程蜕衡。本篇,將向大家闡述用戶反饋文本挖掘的特性和一般過(guò)程设拟,重點(diǎn)介紹用戶反饋文本可以為我們帶來(lái)怎樣的價(jià)值慨仿,以及如何利用這些內(nèi)容。

一纳胧、傳統(tǒng)用戶反饋


用戶反饋镰吆,作為產(chǎn)品使用體驗(yàn)最直接的反饋,對(duì)產(chǎn)品現(xiàn)狀的評(píng)估和后續(xù)優(yōu)化的價(jià)值不言而喻跑慕。

“用戶反饋”的百科釋義

傳統(tǒng)用戶研究通過(guò)訪談等有目的的接觸式方法搜集這些信息万皿,并利用質(zhì)性研究手段對(duì)資料進(jìn)行歸納摧找、演繹、推論牢硅,最終推動(dòng)分析結(jié)果在產(chǎn)品蹬耘、運(yùn)營(yíng)等各方落地。但這類方式搜集的資料數(shù)量有限减余,而且受到分析者主觀經(jīng)驗(yàn)的限制综苔,是一種相對(duì)高成本的研究手段。

傳統(tǒng)用戶反饋的使用與分析方法位岔,我們?cè)诒鞠盗械那?期已經(jīng)進(jìn)行了詳細(xì)地介紹如筛。但如果著眼于用戶反饋分析的核心價(jià)值——搜集輿情,我們會(huì)發(fā)現(xiàn)用戶研究可使用的資料及其方式遠(yuǎn)不止于此抒抬。


二杨刨、用戶自發(fā)的產(chǎn)品反饋


實(shí)際上,用戶在使用我們的產(chǎn)品后擦剑,會(huì)自發(fā)地發(fā)表對(duì)產(chǎn)品使用的評(píng)價(jià)妖胀、意見(jiàn),甚至遇到的問(wèn)題等抓于。

百度貼吧中關(guān)于“網(wǎng)易支付”的帖子

我們?cè)诒鞠盗械膶?dǎo)讀中曾提到做粤,用戶自發(fā)的反饋依其內(nèi)容特性,大致包括傳播類捉撮、評(píng)價(jià)類怕品、意見(jiàn)建議類3種。這些反饋中巾遭,包含著用戶對(duì)產(chǎn)品的關(guān)注熱點(diǎn)窖贤、遇到的bug和投訴尺栖,以及用戶的情感態(tài)度等寶貴信息。如果能夠?qū)@些信息加以挖掘和利用,將給我們帶來(lái)極大的收獲呀袱。這類用戶自發(fā)的反饋具有以下幾個(gè)特性:

1稚照,來(lái)源豐富

用戶發(fā)表意見(jiàn)的地方是不受限制的鲫忍,這就意味著我們所需的資料散布在互聯(lián)網(wǎng)上的各個(gè)地方冀墨。就我們的經(jīng)驗(yàn)來(lái)看,APP Store献丑、安卓應(yīng)用商店末捣、微博、貼吧创橄,當(dāng)然還有網(wǎng)易游戲論壇等箩做,是幾個(gè)主要的數(shù)據(jù)來(lái)源。

主要應(yīng)用商店

2妥畏,數(shù)量可觀

鑒于數(shù)據(jù)來(lái)源的豐富邦邦,以用戶基數(shù)為基礎(chǔ)安吁,我們能夠獲得的用戶反饋數(shù)量也是巨大的。例如燃辖,APP Store內(nèi)網(wǎng)易云音樂(lè)iOS移動(dòng)端的累積用戶評(píng)論(反饋)已達(dá)7萬(wàn)4千條鬼店,而網(wǎng)易新聞app則多達(dá)17萬(wàn)條之多。

3黔龟,數(shù)據(jù)類型多樣

我們?cè)诎l(fā)表關(guān)于產(chǎn)品使用體驗(yàn)時(shí)薪韩,不僅僅是文字表達(dá),還會(huì)附帶圖片捌锭、emoj表情等,而在客服系統(tǒng)中還存在著語(yǔ)音記錄罗捎。當(dāng)然观谦,文本形式的用戶反饋仍然占據(jù)最大比重,相對(duì)也更容易在技術(shù)上實(shí)現(xiàn)桨菜。但隨著技術(shù)的提升豁状,多媒體形式的用戶反饋挖掘?qū)⒊蔀榱硪环斓亍?/p>

貼吧中用戶以表情和圖片說(shuō)明問(wèn)題

4,數(shù)據(jù)價(jià)值密度低

用戶反饋文本存在的一個(gè)問(wèn)題倒得,就是數(shù)據(jù)中包含著大量的垃圾數(shù)據(jù)泻红,“存在大量共現(xiàn)但又毫無(wú)意義的關(guān)聯(lián)模式”。這一問(wèn)題的嚴(yán)重性取決于數(shù)據(jù)源的質(zhì)量霞掺,而技術(shù)上谊路,則需要進(jìn)行識(shí)別和清洗。

游戲論壇用戶多為灌水用戶


三菩彬、用戶反饋文本挖掘的特性與過(guò)程


本篇所針對(duì)的是文本形式用戶反饋的分析缠劝,屬于文本挖掘的范疇,涉及數(shù)據(jù)挖掘骗灶、機(jī)器學(xué)習(xí)惨恭、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)耙旦、信息學(xué)等多個(gè)領(lǐng)域脱羡。它與數(shù)據(jù)挖掘既有共同之處,也有必須明確的不同點(diǎn)免都。

1锉罐,文本挖掘與數(shù)據(jù)挖掘的共性

在核心價(jià)值上,文本挖掘是從大量的文檔中發(fā)現(xiàn)隱含知識(shí)和模式琴昆,“自動(dòng)化或半自動(dòng)化處理文本的過(guò)程”氓鄙,而這恰恰也是數(shù)據(jù)挖掘的目的所在,只是兩個(gè)領(lǐng)域所用的材料是不同的业舍。

在底層技術(shù)上抖拦,文本挖掘帶有明顯的機(jī)器學(xué)習(xí)色彩升酣,依賴于數(shù)據(jù)信息抽取、分類态罪、聚類等基礎(chǔ)算法和技術(shù)噩茄。這些內(nèi)容在數(shù)據(jù)挖掘領(lǐng)域已大有建樹(shù),甚至已發(fā)展出不同的算法流派复颈。

在基本流程上绩聘,二者并無(wú)太大差異。由于文本挖掘本身的特異性耗啦,其過(guò)程則在遵循數(shù)據(jù)挖掘一般過(guò)程的基礎(chǔ)上有所變動(dòng)凿菩。

2,文本挖掘的特性

文本挖掘最大的特性在于帜讲,它要處理的是對(duì)象——文本衅谷。用戶反饋文本本身是一種自然語(yǔ)言,機(jī)器能識(shí)別其中的每個(gè)漢字似将,但卻無(wú)法識(shí)別比字更高的單位(詞句段篇章)获黔。正是這一差異,決定了文本挖掘過(guò)程中要經(jīng)歷一個(gè)自然語(yǔ)言處理的過(guò)程在验。簡(jiǎn)單地說(shuō)玷氏,就是要把人能輕易理解地自然語(yǔ)言加工成適用于數(shù)據(jù)挖掘手段的形式,同時(shí)又不失其意腋舌,這涉及語(yǔ)料庫(kù)盏触、文本詞典和分詞技術(shù)等的使用。

用戶機(jī)器理解漢字的方式(Unicode編碼)

在應(yīng)用場(chǎng)景上块饺,文本挖掘則有一些獨(dú)特的價(jià)值耻陕。諸如商品標(biāo)簽、情感評(píng)估刨沦、意見(jiàn)抽取等诗宣,都需要文本挖掘技術(shù)作為支撐。

3想诅,文本挖掘一般過(guò)程

如前所述召庞,用戶反饋文本挖掘遵循數(shù)據(jù)挖掘的一般過(guò)程,但某些步驟上有所差異来破。

文本挖掘的一般流程示意

1)確定挖掘目標(biāo)

大多工具書上會(huì)將這一步作為數(shù)據(jù)挖掘的起點(diǎn)篮灼,因?yàn)檫@對(duì)整個(gè)項(xiàng)目的作用是提綱挈領(lǐng)的。同樣徘禁,文本挖掘也需要有明確的目標(biāo)诅诱。比如,我們希望了解新版本app存在的用戶體驗(yàn)問(wèn)題送朱,或者了解用戶對(duì)app歷來(lái)的情感態(tài)度等娘荡,都可以得到回答干旁。

2)確定數(shù)據(jù)源并獲取

前面已經(jīng)提到,用戶反饋的來(lái)源是非常豐富炮沐,主流的安卓移動(dòng)應(yīng)用商店就有10多種争群。不同的安卓應(yīng)用商店內(nèi),文本字段也并不是完全統(tǒng)一的大年。因此對(duì)數(shù)據(jù)源的篩選换薄,既包括數(shù)據(jù)存在平臺(tái)的挑選,也包括文本字段的篩查翔试。至于選擇哪些數(shù)據(jù)源轻要,一定要事先斟酌好:

首先要考慮文本挖掘的目標(biāo),也就是要回答的問(wèn)題垦缅;

另一個(gè)要考慮的因素就是用戶群體的特征伦腐,尤其是用戶群體最有可能出現(xiàn)的地方,這決定了我們能否獲得足夠的數(shù)據(jù)失都;

例如,我們?cè)谘芯烤W(wǎng)易支付(原網(wǎng)易寶)app v3.1存在的用戶體驗(yàn)問(wèn)題時(shí)幸冻,考慮到網(wǎng)易支付app有一定量的游戲用戶粹庞,所以對(duì)網(wǎng)易各大游戲論壇進(jìn)行了文本數(shù)據(jù)采集,最終不出所料地得到了相當(dāng)可觀的文本數(shù)據(jù)洽损。(該案例會(huì)在下一期詳細(xì)介紹)

網(wǎng)易游戲論壇作為數(shù)據(jù)源

這一階段我們還可以梳理出高質(zhì)量用戶反饋數(shù)據(jù)源文檔庞溜、數(shù)據(jù)爬取文檔等中間產(chǎn)物,這對(duì)以后同類項(xiàng)目的開(kāi)展是必不可少的碑定。

3)數(shù)據(jù)的預(yù)處理

文本數(shù)據(jù)同樣也要經(jīng)過(guò)一定的預(yù)處理才能進(jìn)行后續(xù)的分析使用流码,諸如數(shù)據(jù)的清洗、規(guī)約等也是文本數(shù)據(jù)預(yù)處理所必需的延刘。

例如從網(wǎng)易游戲論壇抓取發(fā)帖數(shù)據(jù)時(shí)會(huì)發(fā)現(xiàn)漫试,新近帖子的發(fā)帖時(shí)間為“發(fā)表于x天前”,而更早的帖子則標(biāo)記為“發(fā)表于 2016-6-8”碘赖。這就要求我們獲得數(shù)據(jù)以后把發(fā)帖時(shí)間處理為統(tǒng)一格式驾荣,才更便于后續(xù)分析中使用該指標(biāo)。

未清洗的文本數(shù)據(jù)字段

4)文本的自然語(yǔ)言處理

前面提到普泡,用戶反饋文本是基于自然語(yǔ)言的非結(jié)構(gòu)化數(shù)據(jù)播掷,因此文本挖掘過(guò)程最基礎(chǔ)的步驟就是自然語(yǔ)言處理的過(guò)程。這一過(guò)程包括語(yǔ)料庫(kù)整理撼班、專業(yè)詞典歧匈、停用詞詞典等的準(zhǔn)備,和文本分詞砰嘁、特征提取等一系列步驟件炉。

本篇之所以把文本的自然語(yǔ)言處理作為一個(gè)單獨(dú)的環(huán)節(jié)勘究,是因?yàn)槲谋痉衷~是后續(xù)模型建構(gòu)的基礎(chǔ),其質(zhì)量決定這后續(xù)文本分類妻率、聚類乱顾、主題建模等的優(yōu)劣。

5)統(tǒng)計(jì)學(xué)分析

文本分詞后宫静,我們就已經(jīng)可以根據(jù)分詞的結(jié)果進(jìn)行一些簡(jiǎn)單的統(tǒng)計(jì)學(xué)層面的分析走净,例如詞頻統(tǒng)計(jì)、文檔-詞項(xiàng)(共現(xiàn))矩陣等孤里。根據(jù)詞頻伏伯,我們可以知道用戶關(guān)注的核心話題是什么,其中的整體情感傾向又是怎樣的捌袜。

詞頻統(tǒng)計(jì)結(jié)果

但這時(shí)的分析是比較粗糙的说搅,僅僅是讓我們從整體上了解當(dāng)前分析的數(shù)據(jù)中的整體狀況。諸如用戶關(guān)注的所有熱點(diǎn)話題有哪些虏等,不同情感的話題又有哪些弄唧,不同類型的用戶關(guān)注的話題有何差異,此時(shí)還無(wú)法回答霍衫。

6)文本數(shù)據(jù)建模

想要進(jìn)一步了解(大量)用戶反饋的詳情與細(xì)節(jié)候引,就需要用到一定的機(jī)器學(xué)習(xí)技術(shù),對(duì)已有文本數(shù)據(jù)進(jìn)行更深層次的挖掘敦跌。

通過(guò)文本聚類澄干,我們可以知道我們的產(chǎn)品還存在哪些問(wèn)題;

通過(guò)文本分類柠傍,我們可以快速地每一條用戶反饋記錄劃分到其所屬的類別中麸俘;

通過(guò)文本情感分析,我們可以掌握用戶對(duì)產(chǎn)品的情感態(tài)度惧笛,甚至是用戶對(duì)產(chǎn)品的哪些方面產(chǎn)生了積極或消極的情感从媚。

這一過(guò)程是用戶反饋文本挖掘最重要的過(guò)程,具體要針對(duì)用戶反饋文本建立什么樣的模型患整,既取決于文本挖掘的目標(biāo)静檬,也受到文本數(shù)據(jù)豐富性的限制。

7)文本數(shù)據(jù)模型的應(yīng)用

利用機(jī)器學(xué)習(xí)技術(shù)獲得各種數(shù)據(jù)模型后并级,我們還可以利用這些文本模型對(duì)產(chǎn)品作出改進(jìn)拂檩。例如,通過(guò)對(duì)大量用戶反饋文本進(jìn)行文本聚類或主題建模后嘲碧,我們知道了用戶最常遇到的問(wèn)題稻励,后續(xù)就可以把這些問(wèn)題的解決辦法加入到app的幫助中心,引導(dǎo)用戶自助解決問(wèn)題,從而緩解客服壓力并提升用戶體驗(yàn)望抽。


四加矛、文本的自然語(yǔ)言處理


作為非結(jié)構(gòu)化數(shù)據(jù),用戶反饋文本必須經(jīng)過(guò)自然語(yǔ)言處理操作才能進(jìn)行胡須分析煤篙。

1斟览,文本語(yǔ)料庫(kù)整理

文本挖掘的一大特性就是,文本數(shù)據(jù)中包含著大量的無(wú)意義字符辑奈,如標(biāo)點(diǎn)符號(hào)苛茂、數(shù)字、空格鸠窗、英文字母等等妓羊。為了提高文本數(shù)據(jù)的價(jià)值密度,在分詞之前需要剔除其中的雜亂信息稍计,而整理出的文檔就是后續(xù)分析所用到的語(yǔ)料庫(kù)躁绸。

2,文本分詞

為了讓機(jī)器更好地理解自然語(yǔ)言形式的用戶反饋文本臣嚣,我們需要對(duì)文本進(jìn)行切分净刮,通俗的說(shuō)就是告訴機(jī)器哪些字可以作為一個(gè)單位(詞),哪些字必須分開(kāi)為兩個(gè)單位硅则。目前淹父,已有大量成熟的分詞工具流行,為我們的文本挖掘提供了很大便利抢埋。

常用的分詞系統(tǒng)/工具

但實(shí)際上,并不是所有的分詞工具都能夠很好地滿足我們的需要督暂,必要的時(shí)候揪垄,我們還需要對(duì)所用到的分詞工具進(jìn)行優(yōu)化。

常用的文本分詞包(R)


優(yōu)化后的文本分詞包(R)

3逻翁,分詞詞典使用

文本分詞存在的另一個(gè)問(wèn)題就是饥努,有些專業(yè)領(lǐng)域內(nèi)的詞,一開(kāi)始在我們使用的分詞系統(tǒng)中并不存在八回。這時(shí)酷愧,就需要我們使用自定義的分詞詞典,提高分文本分析的精度缠诅。

文本分詞可利用搜狗詞庫(kù)提高分詞精確度

4溶浴,去除停用詞

用戶反饋文本中同時(shí)還存在一些語(yǔ)氣詞、助詞等無(wú)任何實(shí)意的詞管引,分詞完成后士败,需要將他們?nèi)コR驗(yàn)榧幢銓?duì)它們進(jìn)行分析,得到的結(jié)果也毫無(wú)意義谅将。

與分詞類似漾狼,去除停用詞的過(guò)程中,則需要用到停用詞詞典饥臂。目前網(wǎng)絡(luò)上也有停用詞詞典可供下載逊躁,基本能夠滿足需要。

5隅熙,分詞是一個(gè)不斷優(yōu)化的過(guò)程

我們并不能保證分詞詞典能夠涵蓋數(shù)據(jù)集中的所有詞稽煤,所以總會(huì)出現(xiàn)個(gè)別詞無(wú)法準(zhǔn)確切分的情況。這時(shí)猛们,就需要將新詞加入已有詞典念脯,再次進(jìn)行分詞。雖然該過(guò)程較為繁瑣弯淘,但對(duì)后續(xù)建模至關(guān)重要绿店,尤其是某些關(guān)鍵詞無(wú)法準(zhǔn)確切分時(shí)。

通過(guò)補(bǔ)充詞典優(yōu)化分詞結(jié)果

6庐橙,分析結(jié)果的簡(jiǎn)單展示

分詞完成后假勿,可以簡(jiǎn)單統(tǒng)計(jì)數(shù)據(jù)集中的詞頻。下圖是對(duì)網(wǎng)易理財(cái)用戶的用戶反饋記錄進(jìn)行分詞后制作的詞云圖片态鳖,從中可以看出转培,理財(cái)用戶日常交流的熱點(diǎn)集中在“收益”、“(理財(cái))產(chǎn)品”浆竭、“贖回”等方面浸须,這也與互聯(lián)網(wǎng)理財(cái)?shù)谋尘跋辔呛稀?/p>

分詞后的高頻詞詞云局部


五、文本數(shù)據(jù)建模


用戶反饋文本的價(jià)值在于邦泄,其中包含著用戶對(duì)產(chǎn)品的關(guān)注熱點(diǎn)删窒、遇到的bug和問(wèn)題,以及用戶的情感態(tài)度等信息顺囊,而對(duì)這些內(nèi)容的挖掘則有利于我們掌握產(chǎn)品當(dāng)前的發(fā)展?fàn)顟B(tài)肌索,或找到后續(xù)優(yōu)化的突破點(diǎn)。因此特碳,出于不同的研究問(wèn)題诚亚,我們需要對(duì)文本數(shù)據(jù)進(jìn)行模型建構(gòu)。

1午乓,文本聚類與話題主題

用戶對(duì)產(chǎn)品問(wèn)題的反饋主要集中在哪些方面——這想必是任何一位相關(guān)角色都希望知道答案的問(wèn)題站宗。但是由于文本量巨大,我們不可能逐條閱讀每條記錄益愈,然后手工劃分類別份乒。這時(shí),通過(guò)文本聚類的方式將內(nèi)容上具有高相似度的文本記錄劃分成一類,最終獲得有限數(shù)量的問(wèn)題主題或辖。

基于R語(yǔ)言的hclust聚類

決定兩條文本記錄能否劃分成同一類的依據(jù)——相似度——便是二者之間的統(tǒng)計(jì)距離瘾英,這里可以使歐幾里得距離、曼哈頓距離颂暇、切比雪夫距離缺谴。當(dāng)前,文本聚類技術(shù)常用的算法很多耳鸯,適用于結(jié)構(gòu)化數(shù)據(jù)挖掘的k-means湿蛔、kclust、kernel等方法同樣可以在文本數(shù)據(jù)挖掘中發(fā)揮作用县爬。

2阳啥,短文本與主題模型方法

“我都沒(méi)點(diǎn)它,它就自動(dòng)升級(jí)了财喳,升級(jí)后關(guān)聯(lián)電話察迟、銀行卡全錯(cuò)誤……”

上面這條語(yǔ)錄是我們?cè)趯?shí)際項(xiàng)目中遇到的一條真實(shí)用戶反饋,其中包含“自動(dòng)升級(jí)”耳高、“關(guān)聯(lián)電話錯(cuò)誤”扎瓶、“快捷卡號(hào)錯(cuò)誤”這3個(gè)主題,但在聚類分析中只能將其歸于一類泌枪,這就影響了文本挖掘準(zhǔn)確性和信息浪費(fèi)概荷,也不利于產(chǎn)品問(wèn)題的解決。

單個(gè)關(guān)鍵詞代表問(wèn)題主題的不足

為了解決這一問(wèn)題碌燕,我們可以選擇主題模型(topic model)方法建構(gòu)用戶反饋文本中的主題误证。主題模型方法基于貝葉斯概率模型,將“主題”看做詞語(yǔ)的條件概率分布修壕,認(rèn)為在一個(gè)主題上出現(xiàn)概率較高的詞項(xiàng)愈捅,能非常好的描述該主題的意義。同時(shí)叠殷,主題模型方法還可以避免一詞多義的問(wèn)題改鲫,因?yàn)樵谥黝}模型方法看來(lái)诈皿,同一個(gè)詞在概率上可以同時(shí)屬于多個(gè)主題林束。

文本主題模型結(jié)果示例

作為一種無(wú)監(jiān)督的算法模型,主題模型方法能夠自動(dòng)化地從訓(xùn)練集中訓(xùn)練出主題的分析稽亏。常用的訓(xùn)練算法有兩種壶冒,pLSA(Probabilistic Latent Semantic Analysis)和LDA(Latent Dirichlet Allocation),考慮到算法技術(shù)不是本篇討論的重點(diǎn)截歉,故不做深入介紹胖腾。

3,文本分類與問(wèn)題識(shí)別

與文本聚類不同的是咸作,如果已經(jīng)有明確標(biāo)注文本主題的原始反饋記錄锨阿,我們就可以基于此對(duì)新獲得的反饋文本進(jìn)行自動(dòng)分類。但通常记罚,這種已經(jīng)標(biāo)注類別的原始數(shù)據(jù)還是要靠人工標(biāo)注完成的墅诡,這也是其成本所在。

一般桐智,我們會(huì)利用已經(jīng)人工標(biāo)注好的文本進(jìn)行分類模型的訓(xùn)練末早,再?gòu)闹谐槌鲆恍〔糠郑ɑ蚴孪瘸槿『茫┻M(jìn)行模型測(cè)試,之后就可以利用新獲得的文本記錄進(jìn)行模型的預(yù)測(cè)说庭。文本分類的優(yōu)勢(shì)在于然磷,它既可以快速處理大量新增文本,又能不斷優(yōu)化以滿足應(yīng)用場(chǎng)景的需要刊驴。

4姿搜,情感分析與用戶態(tài)度

用戶反饋文本是用戶使用產(chǎn)品的體驗(yàn)的反饋的集合,這其中應(yīng)該包含體驗(yàn)優(yōu)良和體驗(yàn)不良兩方面的內(nèi)容缺脉,這就給我們提供了從情感角度分析用戶對(duì)產(chǎn)品的積極痪欲、消極態(tài)度的機(jī)會(huì)。

從情感極性的角度攻礼,我們可以分析產(chǎn)品的哪些方面給用戶帶來(lái)了積極體驗(yàn)业踢,而又是哪些方面導(dǎo)致了用戶的消極體驗(yàn),甚至是極端情感礁扮。從情感類別的角度看知举,我們可以挖掘產(chǎn)品的某一特定方面,給用戶帶來(lái)了哪種具體的情緒體驗(yàn)太伊,如新版本升級(jí)帶來(lái)的是驚喜雇锡,還是不適應(yīng);app中的一個(gè)問(wèn)題僚焦,給用戶帶來(lái)的是疑惑锰提,還是憤怒等等。

常用的文本情感分析主要有基于情感詞典的文本-詞項(xiàng)匹配方法芳悲、無(wú)監(jiān)督的機(jī)器學(xué)習(xí)方法和基于人工標(biāo)注語(yǔ)料庫(kù)的機(jī)器學(xué)習(xí)方法立肘,其中成本最低的是基于情感詞典的方法。這一方法一般需要用到情感詞典名扛,如《<知網(wǎng)>情感分析用詞語(yǔ)集》谅年、《臺(tái)灣大學(xué)簡(jiǎn)體中文情感極性詞典》等,在分析過(guò)程中則是將原始文本中的詞項(xiàng)與情感詞典進(jìn)行匹配并標(biāo)記得分肮韧,最后基于詞項(xiàng)得分合成整條記錄的情感得分融蹂。

微博200萬(wàn)條情感語(yǔ)料庫(kù)片段

除了情感極性外旺订,基于情感詞典的方法還可用于計(jì)算文本的情感強(qiáng)度,此時(shí)與原始詞項(xiàng)進(jìn)行匹配的不再是正負(fù)情感超燃,而是正負(fù)情感對(duì)應(yīng)的正負(fù)分值区拳。

5,語(yǔ)義網(wǎng)絡(luò)分析與問(wèn)題背景

用戶使用產(chǎn)品時(shí)遇到的問(wèn)題意乓,總是存在于一定的背景中的劳闹,這并不是指時(shí)間、地點(diǎn)等信息洽瞬,而是前因后果這樣的事件背景本涕。通過(guò)文本的語(yǔ)義網(wǎng)絡(luò)分析,我們可以更全面地了解到一個(gè)問(wèn)題與另一個(gè)問(wèn)題之間的關(guān)聯(lián)伙窃,清楚地說(shuō)明兩個(gè)問(wèn)題之間的相互影響菩颖,讓我們能夠更清楚地回答問(wèn)題的發(fā)生或結(jié)果。

例如为障,我們?cè)谘芯坷碡?cái)用戶的反饋文本時(shí)發(fā)現(xiàn)晦闰,用戶在搶購(gòu)票據(jù)(網(wǎng)易理財(cái)推出的一種互聯(lián)網(wǎng)理財(cái)產(chǎn)品)時(shí)遇到了“交易失敗”的問(wèn)題。但進(jìn)行了語(yǔ)義網(wǎng)絡(luò)分析后發(fā)現(xiàn)鳍怨,“交易失敗”問(wèn)題與“收不到短信驗(yàn)證碼”呻右、“忘記交易密碼”、“搶購(gòu)額度太高”等均存在關(guān)聯(lián)鞋喇,這就意味著交易失敗并不是一個(gè)單一的問(wèn)題声滥,而是由各種原因?qū)е拢虼私鉀Q這一問(wèn)題時(shí)更要“辯證施治”侦香。

6落塑,時(shí)間序列分析與時(shí)間規(guī)律

用戶反饋文本的分析通常是針對(duì)一段時(shí)間內(nèi)的文本資料進(jìn)行的,我們?cè)诓杉瘮?shù)據(jù)時(shí)罐韩,同時(shí)還會(huì)獲得每條記錄對(duì)應(yīng)的時(shí)間字段憾赁。這樣一來(lái),我們就可以基于時(shí)間維度散吵,分析各個(gè)用戶反饋主題是否存在明顯的時(shí)間規(guī)律龙考。例如,如果app的每個(gè)版本期間矾睦,某一主題(某一app問(wèn)題反饋)始終存在晦款,這就意味著這一問(wèn)題始終沒(méi)有得到解決。

六顷锰、總結(jié)


用戶使用產(chǎn)品的同時(shí)柬赐,會(huì)自發(fā)的產(chǎn)生大量的用戶反饋亡问,可以是應(yīng)用商店內(nèi)的用戶評(píng)論官紫,也可以是客服咨詢記錄肛宋,還可以是貼吧、論壇內(nèi)的用戶交流束世、咨詢貼子酝陈。這些用戶反饋中,包含著用戶對(duì)產(chǎn)品的關(guān)注點(diǎn)毁涉、遇到的問(wèn)題沉帮,以及用戶的情感態(tài)度等各種相關(guān)信息。對(duì)這些文本信息的挖掘贫堰,既能幫助我們了解產(chǎn)品當(dāng)前的用戶體驗(yàn)狀態(tài)穆壕,更能幫助我們找到需要對(duì)產(chǎn)品進(jìn)行優(yōu)化的地方。

本篇中其屏,我們向大家介紹了用戶反饋內(nèi)容的文本挖掘過(guò)程和相關(guān)方法喇勋,但主要是基于人工操作的,需要耗費(fèi)大量的時(shí)間和人力成本偎行。實(shí)際上川背,目前已有一些成熟的分析系統(tǒng),對(duì)不同形式的用戶反饋文本進(jìn)行分析蛤袒,并且通過(guò)可視化的形式展現(xiàn)分析結(jié)果熄云,這也從側(cè)面反映出行業(yè)內(nèi)對(duì)用戶相關(guān)的文本數(shù)據(jù)的關(guān)注和重視。

當(dāng)然妙真,用戶反饋文本數(shù)據(jù)的挖掘只是信息獲取的層面缴允,之后,我們還可以利用文本挖掘的結(jié)果做更深入的利用珍德,如智能客服系統(tǒng)癌椿、輿情監(jiān)控系統(tǒng)等等。甚至可以打造出具有針對(duì)性的文本數(shù)據(jù)產(chǎn)品菱阵,專門服務(wù)于不同角色踢俄。


參考資料:

金融行業(yè)的數(shù)據(jù)挖掘之道:http://www.infoq.com/cn/articles/icbc-bigdata-experience

如何挖掘網(wǎng)民意見(jiàn)?評(píng)價(jià)對(duì)象抽取綜述:http://www.199it.com/archives/416727.html

語(yǔ)義分析網(wǎng)絡(luò)大數(shù)據(jù)的文本內(nèi)容分析研究方向及問(wèn)題:http://www.199it.com/archives/431399.html

文本特征提取方法研究:http://blog.chinaunix.net/uid-20767210-id-1849628.html

R語(yǔ)言做文本挖掘(系列):EchoCaiCai的專欄(CSDN)

LDA主題聚類學(xué)習(xí)小結(jié):http://my.oschina.net/BreathL/blog/165558

文章首發(fā)于“網(wǎng)易金融大數(shù)據(jù)實(shí)驗(yàn)室”(微信公眾號(hào))晴及,文章地址:點(diǎn)擊跳轉(zhuǎn)文章頁(yè)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末都办,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子虑稼,更是在濱河造成了極大的恐慌琳钉,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,402評(píng)論 6 499
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蛛倦,死亡現(xiàn)場(chǎng)離奇詭異歌懒,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)溯壶,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,377評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門及皂,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)甫男,“玉大人,你說(shuō)我怎么就攤上這事验烧“宀担” “怎么了?”我有些...
    開(kāi)封第一講書人閱讀 162,483評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵碍拆,是天一觀的道長(zhǎng)若治。 經(jīng)常有香客問(wèn)我,道長(zhǎng)感混,這世上最難降的妖魔是什么端幼? 我笑而不...
    開(kāi)封第一講書人閱讀 58,165評(píng)論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮弧满,結(jié)果婚禮上静暂,老公的妹妹穿的比我還像新娘。我一直安慰自己谱秽,他們只是感情好洽蛀,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,176評(píng)論 6 388
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著疟赊,像睡著了一般郊供。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上近哟,一...
    開(kāi)封第一講書人閱讀 51,146評(píng)論 1 297
  • 那天驮审,我揣著相機(jī)與錄音,去河邊找鬼吉执。 笑死疯淫,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的戳玫。 我是一名探鬼主播熙掺,決...
    沈念sama閱讀 40,032評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼咕宿!你這毒婦竟也來(lái)了币绩?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書人閱讀 38,896評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤府阀,失蹤者是張志新(化名)和其女友劉穎缆镣,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體试浙,經(jīng)...
    沈念sama閱讀 45,311評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡董瞻,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,536評(píng)論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了田巴。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片钠糊。...
    茶點(diǎn)故事閱讀 39,696評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡挟秤,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出眠蚂,到底是詐尸還是另有隱情,我是刑警寧澤斗躏,帶...
    沈念sama閱讀 35,413評(píng)論 5 343
  • 正文 年R本政府宣布逝慧,位于F島的核電站,受9級(jí)特大地震影響啄糙,放射性物質(zhì)發(fā)生泄漏笛臣。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,008評(píng)論 3 325
  • 文/蒙蒙 一隧饼、第九天 我趴在偏房一處隱蔽的房頂上張望沈堡。 院中可真熱鬧,春花似錦燕雁、人聲如沸诞丽。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 31,659評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)僧免。三九已至,卻和暖如春捏浊,著一層夾襖步出監(jiān)牢的瞬間懂衩,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 32,815評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工金踪, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留浊洞,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,698評(píng)論 2 368
  • 正文 我出身青樓胡岔,卻偏偏與公主長(zhǎng)得像法希,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子靶瘸,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,592評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容