?????? 這篇小文章主要是記錄一下中文分詞的一次小樣本實(shí)驗(yàn)政敢,實(shí)驗(yàn)數(shù)據(jù)來源于京東商城生鮮區(qū)火龍果的評(píng)價(jià)文本,抽取評(píng)價(jià)數(shù)據(jù)中的30條作為小樣本進(jìn)行實(shí)驗(yàn)胚迫,這30條數(shù)據(jù)包括正面評(píng)價(jià)和負(fù)面評(píng)價(jià)喷户,既有關(guān)于商品質(zhì)量的評(píng)價(jià),又有關(guān)于價(jià)格和物流的評(píng)價(jià)访锻。部分?jǐn)?shù)據(jù)截圖如下所示:
?????? 整個(gè)實(shí)驗(yàn)過程中輸入和輸出的數(shù)據(jù)都是以txt文本格式保存的褪尝,去除評(píng)價(jià)文本中重復(fù)的數(shù)據(jù),然后利用開源工具ROSTCM6進(jìn)行中文分詞處理期犬,結(jié)果如下所示:
?????? 實(shí)驗(yàn)中的分詞結(jié)果是以制表符而不是“/”來分割的河哑。分詞之后,去除停頓詞 龟虎,進(jìn)行詞頻統(tǒng)計(jì)璃谨,在實(shí)驗(yàn)中,我們并沒有顯示出所有詞的頻數(shù),而是按詞頻進(jìn)行降序排列佳吞,顯示出排名在前300的詞及其頻數(shù)拱雏,詞頻統(tǒng)計(jì)結(jié)果的部分截圖和其可視化標(biāo)簽如下所示:
?????? 在可視化的標(biāo)簽中,字體的大小與其頻數(shù)成正比容达,也就是詞語的頻數(shù)越大古涧,則在可視化標(biāo)簽中詞語顯示的字體就越大垂券,從上面結(jié)果我們可以看出:“京東”花盐、“水果”、“新鮮”菇爪、“快遞”這4個(gè)詞語的頻數(shù)相對(duì)較高算芯,京東和水果是兩個(gè)命名實(shí)體,新鮮和快遞可以看出凳宙,買家對(duì)于商品的質(zhì)量和物流服務(wù)在購物過程中是很關(guān)心的兩個(gè)要素熙揍。
?????? 最后是對(duì)于評(píng)價(jià)文本進(jìn)行情感分析,即判斷評(píng)價(jià)的情感傾向氏涩。這里主要是計(jì)算情感得分來判斷情感傾向届囚,當(dāng)情感得分大于0時(shí),我們認(rèn)定這條評(píng)價(jià)是正面評(píng)價(jià)是尖;得分小于0時(shí)意系,為負(fù)面評(píng)價(jià);得分等于0時(shí)饺汹,為中性評(píng)價(jià)蛔添。
?????? 在這30條的樣本數(shù)據(jù)中,積極情緒占主要部分兜辞,中性和消極情緒所占比例相對(duì)較小迎瞧,而且消極情緒中-20分以下的情況是沒有發(fā)生的,這說明了客戶對(duì)于京東商城蘋果的評(píng)價(jià)還是不錯(cuò)的逸吵,客戶滿意度還是相對(duì)較高的凶硅。但是,這個(gè)情感的評(píng)價(jià)并不是十分的準(zhǔn)確扫皱,我們舉其中的一個(gè)例子來說明一下足绅。
例:42 ? ?? 一共 買 了 9 個(gè) 其他 都 還 好 就是 有 一個(gè) 也 太 小 了 吧 看 著 根本 就 不 熟 感覺 都 沒有 多少 果肉 要是 沒有 這一 個(gè) 的 影響 就 很 完美
?? ? ? ? 3 ? ? 貨 收到 物流 快 滿意
???????? 9??? 全 五星 是 給 快遞 哥 的 因?yàn)?五月 八 號(hào) 下午 六 至 八點(diǎn) 廣州 特大 暴雨 還是 特快 送 到 了 非常 感謝 紫色 肉 很 甜
?????? 上面的這3條數(shù)據(jù)是從正面情感結(jié)果中抽取的其中3條數(shù)據(jù),前面的數(shù)值42啸罢、3和9是該條評(píng)論的情感得分编检,通過這3條數(shù)據(jù)我們可以很容易的看到第一條評(píng)論的客戶并不是很滿意,但是受到個(gè)別詞語(如完美)的影響扰才,其情感得分值較高允懂,而后面兩條評(píng)論的客戶相對(duì)而言要比第一條評(píng)論滿意,但是其情感得分卻要遠(yuǎn)遠(yuǎn)小于第一條評(píng)價(jià)的情感得分衩匣。由此我們可以發(fā)現(xiàn)蕾总,單單只憑借情感詞忽視整條評(píng)論的語義所得到的情感分析結(jié)果有待商榷粥航,后面可以針對(duì)這樣的情況,做出改進(jìn)生百。