每一款游戲在策劃、研發(fā)倦零、運(yùn)營(yíng)階段,都需要去傾聽游戲玩家的各種聲音吨悍。比如游戲運(yùn)營(yíng)人員經(jīng)常需要觀察游戲事件(如活動(dòng)扫茅、新英雄、新版本)在玩家中的反響和口碑育瓜。WeTest輿情針對(duì)游戲領(lǐng)域葫隙,玩家在各個(gè)數(shù)據(jù)渠道、社交媒體上的評(píng)論進(jìn)行分析躏仇,對(duì)玩家關(guān)于游戲的各個(gè)維度評(píng)論進(jìn)行聚類恋脚,便于游戲運(yùn)營(yíng)人員快速準(zhǔn)確的發(fā)現(xiàn)問(wèn)題腺办、評(píng)價(jià)活動(dòng)的玩家口碑和事件分析等。
在我們的口碑分析過(guò)程中糟描,需要依賴大量的情感詞庫(kù)怀喉,但是展示給用戶的時(shí)候,我們要把同類情感作為一個(gè)主題展示船响。傳統(tǒng)的bag of words中躬拢,每個(gè)詞只是向量空間的一個(gè)點(diǎn),彼此間不具有相關(guān)性见间。為此我們采用了word embedding方式將詞轉(zhuǎn)化
游戲評(píng)論維度的挖掘:用戶在論壇聊闯、社交媒體上的語(yǔ)料屬于大規(guī)模短文本語(yǔ)料,具有稀疏性高米诉、隨意性強(qiáng)的特點(diǎn)菱蔬。如果直接利用傳統(tǒng)方法進(jìn)行語(yǔ)料聚類來(lái)挖掘維度,效果很差荒辕。我們基于paragraph2vec算法汗销,將待聚類語(yǔ)料和歷史大量無(wú)標(biāo)注語(yǔ)料統(tǒng)一進(jìn)行訓(xùn)練,得到每條語(yǔ)料的句向量抵窒,然后選出其中待分類語(yǔ)料的句向量進(jìn)行聚類弛针。在待分類樣本數(shù)較少時(shí),該方法可以顯著擴(kuò)展語(yǔ)料的語(yǔ)義特征李皇,使得聚類結(jié)果更加理想削茁。
在此之前,嘗試了很多方案對(duì)手頭語(yǔ)料進(jìn)行聚類掉房,包括Kmeans茧跋,AP,DBScan等卓囚,但是由于短文本的特點(diǎn)瘾杭,效果一直不理想(很多語(yǔ)義相似的詞由于沒(méi)有字面上的交集,無(wú)法聚集到一起)哪亿,也嘗試過(guò)用LDA抽取主題特征粥烁,但是能夠表示的隱語(yǔ)義空間也很有限,并不適用于隨意性特別強(qiáng)的不規(guī)范短文本蝇棉。后來(lái)聽過(guò)一次關(guān)于DeepLearning在NLP領(lǐng)域的應(yīng)用讨阻,期間提到了一個(gè)影響業(yè)界的Word2Vec算法,才知道了有word embedding這種特征可以解決這一問(wèn)題篡殷,并且計(jì)算效率完全可以接受钝吮。嘗試以后發(fā)現(xiàn)效果非常好,進(jìn)一步研究了擴(kuò)展到句子級(jí)別的paragraph2vec,并且通過(guò)思考解決了paragraph2vec只能對(duì)目標(biāo)集提取特征的限制(用參考級(jí)+目標(biāo)集一起提取特征奇瘦,但僅使用目標(biāo)集的特征作為后續(xù)算法輸入)
整體數(shù)據(jù)流程如下棘催,其中最終的口碑分析是依賴維度+情感詞庫(kù)結(jié)合句法分析和規(guī)則庫(kù)進(jìn)行的,而維度庫(kù)和情感詞庫(kù)的產(chǎn)生依賴于聚類+人工链患。這里聚類采用的即是上文提到的word2vec和paragraph2vec特征巧鸭。
游戲風(fēng)向標(biāo)目前主要是游戲各個(gè)維度下用戶正負(fù)口碑的羅列瓶您,這有利于游戲運(yùn)營(yíng)人員發(fā)現(xiàn)問(wèn)題麻捻,了解活動(dòng)、事件的各個(gè)方面的口碑呀袱。后續(xù)我們會(huì)進(jìn)一步增加各個(gè)維度下口碑隨著事件的變化趨勢(shì)贸毕、本游戲與競(jìng)品在各個(gè)口碑下的對(duì)比、整個(gè)游戲行業(yè)里各個(gè)游戲的口碑整體評(píng)價(jià)排行等功能夜赵,幫助游戲團(tuán)隊(duì)各個(gè)環(huán)節(jié)的人員更好進(jìn)行決策和分析明棍。