人工智能技術(shù)應(yīng)用:情感分析概述

情感分析概述

與其他的人工智能技術(shù)相比朵耕,情感分析(Sentiment Analysis)顯得有些特殊,因為其他的領(lǐng)域都是根據(jù)客觀的數(shù)據(jù)來進(jìn)行分析和預(yù)測碳柱,但情感分析則帶有強(qiáng)烈的個人主觀因素读跷。情感分析的目標(biāo)是從文本中分析出人們對于實體及其屬性所表達(dá)的情感傾向以及觀點(diǎn),這項技術(shù)最早的研究始于2003年Nasukawa和Yi兩位學(xué)者的關(guān)于商品評論的論文刃榨。
隨著推特等社交媒體以及電商平臺的發(fā)展而產(chǎn)生大量帶有觀點(diǎn)的內(nèi)容,給情感分析提供了所需的數(shù)據(jù)基礎(chǔ)双仍。時至今日枢希,情感識別已經(jīng)在多個領(lǐng)域被廣泛的應(yīng)用。例如在商品零售領(lǐng)域朱沃,用戶的評價對于零售商和生產(chǎn)商都是非常重要的反饋信息苞轿,通過對海量用戶的評價進(jìn)行情感分析茅诱,可以量化用戶對產(chǎn)品及其競品的褒貶程度,從而了解用戶對于產(chǎn)品的訴求以及自己產(chǎn)品與競品的對比優(yōu)劣搬卒。在社會輿情領(lǐng)域瑟俭,通過分析大眾對于社會熱點(diǎn)事件的點(diǎn)評可以有效的掌握輿論的走向。在企業(yè)輿情方面秀睛,利用情感分析可以快速了解社會對企業(yè)的評價尔当,為企業(yè)的戰(zhàn)略規(guī)劃提供決策依據(jù),提升企業(yè)在市場中的競爭力蹂安。在金融交易領(lǐng)域椭迎,分析交易者對于股票及其他金融衍生品的態(tài)度,為行情交易提供輔助依據(jù)田盈。
目前畜号,絕大多數(shù)的人工智能開放平臺都具備情感分析的能力,如圖所示是玻森中文語義開放平臺的情感分析功能演示允瞧,可以看出除了通用領(lǐng)域的情感分析外简软,還有汽車、廚具述暂、餐飲痹升、新聞和微博幾個特定領(lǐng)域的分析。


玻森中文語義開放平臺的情感分析示例

那么到底什么是情感分析呢畦韭?從自然語言處理技術(shù)的角度來看疼蛾,情感分析的任務(wù)是從評論的文本中提取出評論的實體,以及評論者對該實體所表達(dá)的情感傾向艺配,自然語言所有的核心技術(shù)問題察郁,例如:詞匯語義,指代消解转唉,此役小氣皮钠,信息抽取,語義分析等都會在情感分析中用到赠法。因此麦轰,情感分析被認(rèn)為是一個自然語言處理的子任務(wù),我們可以將人們對于某個實體目標(biāo)的情感統(tǒng)一用一個五元組的格式來表示:(e,a,s,h,t)

  • e表示情感分析的目標(biāo)實體砖织,可以是一個具體的實例原朝,也可以是一個類,但必須是唯一的對象镶苞。
  • a表示實體e中一個觀點(diǎn)具體評價的屬性。
  • s表示對實體e的a屬性的觀點(diǎn)中所包含的情感鞠评,通常來講會分為正向褒義茂蚓、負(fù)向貶義和中性三種分類。也可以通過回歸算法轉(zhuǎn)化為1星到5星的評價等級。
  • h是情感觀點(diǎn)的持有者聋涨,有可能是評價者本人晾浴,也有可能是其他人。
  • t是觀點(diǎn)發(fā)布的時間牍白。

以圖為例脊凰,e是指某餐廳,a為該餐廳的性價比屬性茂腥,s是對該餐廳的性價比表示了褒義的評價狸涌,h為發(fā)表評論者本人,t是19年7月27日最岗。所以這條評論的情感分析可以表示為五元組(某餐廳帕胆,性價比,正向褒義般渡,評論者懒豹,19年7月27日)。


用戶對某餐廳的評價

情感分析根據(jù)處理文本顆粒度的不同驯用,大致可以分為三個級別的任務(wù)脸秽,分別是篇章級、句子級和屬性級蝴乔。我們分別來看一下记餐。

1. 篇章級情感分析

篇章級情感分析的目標(biāo)是判斷整篇文檔表達(dá)的是褒義還是貶義的情感,例如一篇書評淘这,或者對某一個熱點(diǎn)時事新聞發(fā)表的評論剥扣,只要待分析的文本超過了一句話的范疇,即可視為是篇章級的情感分析铝穷。
對于篇章級的情感分析而言有一個前提假設(shè)钠怯,那就是全篇章所表達(dá)的觀點(diǎn)僅針對一個單獨(dú)的實體e,且只包含一個觀點(diǎn)持有者h(yuǎn)的觀點(diǎn)曙聂。這種做法將整個文檔視為一個整體晦炊,不對篇章中包含的具體實體和實體屬性進(jìn)行研究,使得篇章級的情感分析在實際應(yīng)用中比較局限宁脊,無法對一段文本中的多個實體進(jìn)行單獨(dú)分析断国,對于文本中多個觀點(diǎn)持有者的觀點(diǎn)也無法辨別。
例如評價的文本是:“我覺得這款手機(jī)很棒榆苞∥瘸模”評價者表達(dá)的是對手機(jī)整體的褒義評價,但如果是:“我覺得這款手機(jī)拍照功能很不錯坐漏,但信號不是很好”這樣的句子薄疚,在同一個評論中出現(xiàn)了褒義詞又出現(xiàn)了貶義詞碧信,篇章級的分析是無法分辨出來的,只能將其作為一個整體進(jìn)行分析街夭。
不過好在有很多的場景是不需要區(qū)分觀點(diǎn)評價的實體和觀點(diǎn)持有者砰碴,例如在商品評論的情感分析中,可以默認(rèn)評論的對象是被評論的商品板丽,評論的觀點(diǎn)持有者也是評論者本人呈枉。當(dāng)然,這個也需要看被評論的商品具體是什么東西埃碱,如果是親子旅游這樣的旅游服務(wù)猖辫,那么評論中就很有可能包含一個以上的觀點(diǎn)持有者。
在實際工作中乃正,篇章級的情感分析無法滿足我們對于評價更細(xì)致住册,如果需要對評論進(jìn)行更精確,更細(xì)致的分析瓮具,我們需要拆分篇章中的每一句話荧飞,這就是句子級的情感分析研究的問題。

2. 句子級情感分析

與篇章級的情感分析類似名党,句子級的情感分析任務(wù)是判斷一個句子表達(dá)的是褒義還是貶義的情感叹阔,雖然顆粒度到了句子層級,但是句子級分析與篇章級存在同樣的前提假設(shè)是传睹,那就是一個句子只表達(dá)了一個觀點(diǎn)和一種情感耳幢,并且只有一個觀點(diǎn)持有人。如果一個句子中包含了兩種以上的評價或多個觀點(diǎn)持有人的觀點(diǎn)欧啤,句子級的分析是無法分辨的睛藻。好在現(xiàn)實生活中,絕大多數(shù)的句子都只表達(dá)了一種情感邢隧。
既然句子級的情感分析在局限性上與篇章級是一樣的店印,那么進(jìn)行句子級的情感分析意義何在呢?關(guān)于這個問題倒慧,需要先解釋一下語言學(xué)上主觀句與客觀句的分別按摘。在我們?nèi)粘S谜Z當(dāng)中,根據(jù)語句中是否帶有說話人的主觀情感可以將句子分為主觀句和客觀句纫谅,例如:“我喜歡這款新手機(jī)炫贤。”就是一個主觀句付秕,表達(dá)了說話人內(nèi)心的情感或觀點(diǎn)兰珍,而:“這個APP昨天更新了新功能⊙猓”則是一個客觀句俩垃,陳述的是一個客觀事實性信息励幼,并不包含說話人內(nèi)心的主觀情感。通過分辨一個句子是否是主觀句口柳,可以幫助我們過濾掉一部分不含情感的句子,讓數(shù)據(jù)處理更有效率有滑。
但是在實操過程中跃闹,我們會發(fā)現(xiàn)這樣的分類方法似乎并不是特別準(zhǔn)確,因為一個主觀句也可能沒有表達(dá)任何的情感信息毛好,知識表達(dá)了期望或者猜測望艺,例如:“我覺得他現(xiàn)在已經(jīng)在回家的路上了〖》茫”這句話是一個主觀句找默,表達(dá)了說話人的猜測,但是并沒有表達(dá)出任何的情感吼驶。而客觀句也有可能包含情感信息惩激,表明說話者并不希望這個事實發(fā)生,例如:“昨天剛買的新車就被人刮花了蟹演》缱辏”這句話是一個客觀句,但結(jié)合常識我們會發(fā)現(xiàn)酒请,這句話中其實是包含了說話人的負(fù)面情感骡技。
所以,僅僅對句子進(jìn)行主客觀的分類還不足以達(dá)到對數(shù)據(jù)進(jìn)行過濾的要求羞反,我們需要的是對句子是否含有情感信息進(jìn)行分類布朦,如果一個句子直接表達(dá)或隱含了情感信息,則認(rèn)為這個句子是含有情感觀點(diǎn)的昼窗,對于不含情感觀點(diǎn)的句子則可以進(jìn)行過濾是趴。目前對于句子是否含有情感信息的分類技術(shù)大多都是采用有監(jiān)督的學(xué)習(xí)算法,這種方法需要大量的人工標(biāo)注數(shù)據(jù)膏秫,基于句子特征來對句子進(jìn)行分類右遭。
總之,我們可以將句子級的情感分析分成兩步缤削,第一步是判斷待分析的句子是否含有觀點(diǎn)信息窘哈,第二步則是針對這些含有觀點(diǎn)信息的句子進(jìn)行情感分析,發(fā)現(xiàn)其中情感的傾向性亭敢,判斷是褒義還是貶義滚婉。關(guān)于分析情感傾向性的方法與篇章級類似,依然是可以采用監(jiān)督學(xué)習(xí)或根據(jù)情感詞詞典的方法來處理帅刀,我們會在后續(xù)的小節(jié)詳細(xì)講解让腹。
句子級的情感分析相較于篇章級而言远剩,顆粒度更加細(xì)分,但同樣只能判斷整體的情感骇窍,忽略了對于被評價實體的屬性瓜晤。同時它也無法判斷比較型的情感觀點(diǎn),例如:“A產(chǎn)品的用戶體驗比B產(chǎn)品好多了腹纳×÷樱”對于這樣一句話中表達(dá)了多個情感的句子,我們不能將其簡單的歸類為褒義或貶義的情感嘲恍,而是需要更進(jìn)一步的細(xì)化顆粒度足画,對評價實體的屬性進(jìn)行抽取,并將屬性與相關(guān)實體之間進(jìn)行關(guān)聯(lián)佃牛,這就是屬性級情感分析淹辞。

3. 屬性級情感分析

上文介紹的篇章級和句子級的情感分析,都無法確切的知道評價者喜歡和不喜歡的具體是什么東西俘侠,同時也無法區(qū)分對某一個被評價實體的A屬性持褒義傾向象缀,對B屬性卻持貶義傾向的情況。但在實際的語言表達(dá)中兼贡,一個句子中可能包含了多個不同情感傾向的觀點(diǎn)攻冷,例如:“我喜歡這家餐廳的裝修風(fēng)格,但菜的味道卻很一般遍希〉嚷”類似于這樣的句子,很難通過篇章級和句子級的情感分析了解到對象的屬性層面凿蒜。
為了在句子級分析的基礎(chǔ)上更加細(xì)化禁谦,我們需要從文本中發(fā)現(xiàn)或抽取評價的對象主體信息,并根據(jù)文本的上下文判斷評價者針對每一個屬性所表達(dá)的是褒義還是貶義的情感废封,這種就稱之為屬性級的情感分析州泊。屬性級的情感分析關(guān)注的是被評價實體及其屬性,包括評價者以及評價時間漂洋,目標(biāo)是挖掘與發(fā)現(xiàn)評論在實體及其屬性上的觀點(diǎn)信息遥皂,使之能夠生成有關(guān)目標(biāo)實體及其屬性完整的五元組觀點(diǎn)摘要。具體到技術(shù)層面來看刽漂,屬性級的情感分析可以分為以下6個步驟:

  1. 實體抽取和消解:抽取文檔中所有涉及到實體的表達(dá)語句演训,并使用聚類方法將同一個實體的表達(dá)聚為一類,每一類都對應(yīng)唯一的一個實體贝咙。
  2. 屬性抽取和消解:抽取文檔中所有實體的屬性样悟,并把這些屬性進(jìn)行聚類,每個屬性類別對應(yīng)對象實體唯一的一個屬性。
  3. 觀點(diǎn)持有者抽取和消解:抽取文檔中觀點(diǎn)的持有者窟她,并將持有者進(jìn)行聚類陈症,每個觀點(diǎn)持有者類別對應(yīng)唯一的一個觀點(diǎn)持有者。
  4. 時間抽取和標(biāo)準(zhǔn)化:抽取每個觀點(diǎn)的發(fā)布時間震糖,并把不同時間的格式進(jìn)行標(biāo)準(zhǔn)化录肯。
  5. 屬性的情感分類和回歸:對具體的屬性進(jìn)行情感分析,判斷它是褒義吊说、貶義還是中性情感嘁信,或者通過回歸算法給屬性賦予一個數(shù)值化的情感得分,例如1至5分疏叨。
  6. 生成觀點(diǎn)五元組:使用任務(wù)1-6的結(jié)果構(gòu)造文檔中所有觀點(diǎn)的五元組。

關(guān)于文本中的實體抽取和指代消解問題穿剖,我們已經(jīng)在知識圖譜的相關(guān)章節(jié)中做了介紹蚤蔓,這里就不再贅述。針對篇章級糊余、句子級秀又、屬性級這三種類型的情感分析任務(wù),人們做了大量的研究并提出了很多分類的方法贬芥,這些方法大致可以分為基于詞典和基于機(jī)器學(xué)習(xí)兩種吐辙,下面我們進(jìn)行詳細(xì)的講解。

基于詞典的情感分析

做情感分析離不開情感詞蘸劈,情感詞是承載情感信息最基本的單元昏苏,除了基本的詞之外,一些包含了情感含義的短語和成語我們也將其統(tǒng)稱為情感詞威沫∠凸撸基于情感詞典的情感分析方法,主要是基于一個包含了已標(biāo)注的情感詞和短語的詞典棒掠,在這個詞典中包括了情感詞的情感傾向以及情感強(qiáng)度孵构,一般將褒義的情感標(biāo)注為正數(shù),貶義的情感標(biāo)注為負(fù)數(shù)烟很。
具體的步驟如圖所示颈墅,首先將待分析的文本先進(jìn)行分詞,并對分詞后的結(jié)果做去除停用詞和無用詞等文本數(shù)據(jù)的預(yù)處理雾袱。然后將分詞的結(jié)果與情感詞典中的詞進(jìn)行匹配恤筛,并根據(jù)詞典標(biāo)注的情感分對文本進(jìn)行加法計算,最終的計算結(jié)果如果為正則是褒義情感谜酒,如果為負(fù)則是貶義情感叹俏,如果為0或情感傾向不明顯的得分則為中性情感或無情感。


基于詞典的情感分析流程

情感詞典是整個分析流程的核心僻族,情感詞標(biāo)注數(shù)據(jù)的好壞直接決定了情感分類的結(jié)果粘驰,在這方面可以直接采用已有的開源情感詞典屡谐,例如BosonNLP基于微博、新聞蝌数、論壇等數(shù)據(jù)來源構(gòu)建的情感詞典愕掏,知網(wǎng)(Hownet)情感詞典,臺灣大學(xué)簡體中文情感極性詞典(NTSUSD)顶伞,snownlp框架的詞典等饵撑,同時還可以使用哈工大整理的同義詞詞林拓展詞典作為輔助,通過這個詞典可以找到情感詞的同義詞唆貌,拓展情感詞典的范圍滑潘。
當(dāng)然,我們也可以根據(jù)業(yè)務(wù)的需要來自己訓(xùn)練情感詞典锨咙,目前主流的情感詞詞典有三種構(gòu)建方法:人工方法语卤、基于字典的方法和基于語料庫的方法。對于情感詞的情感賦值酪刀,最簡單的方法是將所有的褒義情感詞賦值為+1粹舵,貶義的情感詞賦值為-1,最后進(jìn)行相加得出情感分析的結(jié)果骂倘。
但是這種賦值方式顯然不符合實際的需求眼滤,在實際的語言表達(dá)中,存在著非常多的表達(dá)方式可以改變情感的強(qiáng)度历涝,最典型的就是程度副詞诅需。程度副詞分為兩種,一種是可以加強(qiáng)情感詞原本的情感睬关,這種稱之為情感加強(qiáng)詞诱担,例如“很好”相較于“好”的情感程度會更強(qiáng)烈,“非常好”又比“很好”更強(qiáng)电爹。另外一種是情感減弱詞蔫仙,例如“沒那么好”雖然也是褒義傾向,但情感強(qiáng)度相較于“好”會弱很多丐箩。如果出現(xiàn)了增強(qiáng)詞摇邦,則需要在原來的賦值基礎(chǔ)上增加情感得分,如果出現(xiàn)了減弱詞則需要減少相應(yīng)的情感得分屎勘。
另一種需要注意的情況是否定詞施籍,否定詞的出現(xiàn)一般會改變情感詞原本的情感傾向,變?yōu)橄喾吹那楦懈攀纭安缓谩本褪窃凇昂谩鼻懊婕由狭朔穸ㄔ~“不”丑慎,使之變成了貶義詞。早期的研究會將否定詞搭配的情感詞直接取相反數(shù),即如果“好”的情感傾向是+1竿裂,那么“不好”的情感傾向就是-1玉吁。但是這種簡單粗暴的規(guī)則無法對應(yīng)上真實的表達(dá)情感,例如“太好”是一個比“好”褒義傾向更強(qiáng)的詞腻异,如果“好”的值為+1进副,那么“太好”可以賦值為+3,加上否定詞的“不太好”變成-3則顯然有點(diǎn)過于貶義了悔常,將其賦值為-1或者-0.5可能更合適影斑。
基于這種情況,我們可以對否定詞也添加上程度的賦值而不是簡單的取相反數(shù)机打,對于表達(dá)強(qiáng)烈否定的詞例如“不那么”賦值為±4矫户,當(dāng)遇到與褒義詞的組合時褒義詞則取負(fù)數(shù),與貶義詞的組合則取正數(shù)残邀,例如貶義詞“難聽”的賦值是-3吏垮,加上否定詞變成“不那么難聽”的情感得分就會是(-3+4=1)。
第三種需要注意的情況是條件詞罐旗,如果一個條件詞出現(xiàn)在句子中,則這個句子很可能不適合用來做情感分析唯蝶,例如“如果我明天可以去旅行九秀,那么我一定會非常開心≌澄遥”鼓蜒,在這句話中有明顯的褒義情感詞,但是因為存在條件詞“如果”征字,使得這個句子的并沒有表達(dá)觀點(diǎn)持有者的真實情感都弹,而是一種假設(shè)。
除了條件句之外匙姜,還有一種語言表達(dá)也是需要在數(shù)據(jù)預(yù)處理階段進(jìn)行排除的畅厢,那就是疑問句。例如“這個餐廳真的有你說的那么好嗎氮昧?”框杜,雖然句子中出現(xiàn)了很強(qiáng)烈的褒義情感詞“那么好”,但依然不能將它分類為褒義句袖肥。疑問句通常會有固定的結(jié)尾詞咪辱,例如“……嗎?”或者“……么椎组?”油狂,但是也有的疑問句會省略掉結(jié)尾詞,直接使用標(biāo)點(diǎn)符號“?”专筷,例如“你今天是不是不開心弱贼?”,這個句子中含有否定詞和褒義詞組成的“不開心”仁堪,但不能將其分類為貶義情感哮洽。
最后一種需要注意的情況是轉(zhuǎn)折詞,典型詞是“但是”弦聂,出現(xiàn)在轉(zhuǎn)折詞之前的情感傾向通常與轉(zhuǎn)折詞之后的情感傾向相反鸟辅,例如:“我上次在這家酒店的住宿體驗非常好,但是這次卻讓我很失望莺葫》肆梗”在這個轉(zhuǎn)折句中,轉(zhuǎn)折詞之前的“非常好”是一個很強(qiáng)的褒義詞捺檬,但真實的情感表達(dá)卻是轉(zhuǎn)折詞之后的“很失望”再层,最終應(yīng)該將其分類為貶義情感。當(dāng)然堡纬,也存在出現(xiàn)了轉(zhuǎn)折詞聂受,但語句本身的情感并沒有發(fā)生改變的情況,例如“你這次考試比上次有了很大的進(jìn)步烤镐,但是我覺得你可以做得更好”蛋济,這里的轉(zhuǎn)折詞沒有轉(zhuǎn)折含義,而是一種遞進(jìn)含義炮叶。在實際操作中碗旅,我們所以需要先判斷轉(zhuǎn)折句真實的情感表達(dá)到底是哪個,才能進(jìn)行正確的分析計算镜悉。
構(gòu)建情感詞典是一件比較耗費(fèi)人工的事情祟辟,除了上述需要注意的問題外,還存在精準(zhǔn)度不高侣肄,新詞和網(wǎng)絡(luò)用語難以快速收錄進(jìn)詞典等問題旧困。同時基于詞典的分析方法也存在很多的局限性,例如一個句子可能出現(xiàn)了情感詞稼锅,但并沒有表達(dá)情感叮喳。或者一個句子不含任何情感詞缰贝,但卻蘊(yùn)含了說話人的情感馍悟。以及部分情感詞的含義會隨著上下文語境的變化而變化的問題,例如“精明”這個詞可以作為褒義詞夸獎他人剩晴,也可以作為貶義詞批評他人锣咒。
盡管目前存在諸多問題侵状,但基于字典的情感分析方法也有著不可取代的優(yōu)勢,那就是這種分析方法通用性較強(qiáng)毅整,大多數(shù)情況下無需特別的領(lǐng)域數(shù)據(jù)標(biāo)注就可以分析文本所表達(dá)的情感趣兄,對于通用領(lǐng)域的情感分析可以將其作為首選的方案。

基于機(jī)器學(xué)習(xí)的情感識別

我們在機(jī)器學(xué)習(xí)算法的章節(jié)介紹過很多分類算法悼嫉,例如邏輯回歸艇潭、樸素貝葉斯、KNN等戏蔑,這些算法都可以用于情感識別蹋凝。具體的做法與機(jī)器學(xué)習(xí)一樣需要分為兩個步驟,第一步是根據(jù)訓(xùn)練數(shù)據(jù)構(gòu)建算法模型总棵,第二步是將測試數(shù)據(jù)輸入到算法模型中輸出對應(yīng)的結(jié)果鳍寂,接下來做具體的講解。
首先情龄,我們需要準(zhǔn)備一些訓(xùn)練用的文本數(shù)據(jù)迄汛,并人工給這些數(shù)據(jù)做好情感分類的標(biāo)注,通常的做法下骤视,如果是褒義和貶義的兩分類鞍爱,則褒義標(biāo)注為1,貶義標(biāo)注為0专酗,如果是褒義硬霍、貶義和中性三分類,則褒義標(biāo)注為1笼裳,中性標(biāo)注為0,貶義標(biāo)注為-1.
在這一環(huán)節(jié)中如果用純?nèi)斯し椒▉磉M(jìn)行標(biāo)注粱玲,可能會因為個人主觀因素對標(biāo)注的結(jié)果造成一定影響躬柬,為了避免人的因素帶來的影響,也為了提高標(biāo)注的效率抽减,有一些其他取巧的方法來對數(shù)據(jù)進(jìn)行自動標(biāo)注允青。比如在電商領(lǐng)域中,商品的評論除了文本數(shù)據(jù)之外通常還會帶有一個5星的等級評分卵沉,我們可以根據(jù)用戶的5星評分作為標(biāo)注依據(jù)颠锉,如果是1-2星則標(biāo)注為貶義,如果是3星標(biāo)注為中性史汗,4-5星標(biāo)注為褒義琼掠。又比如在社區(qū)領(lǐng)域中,很多社區(qū)會對帖子有贊和踩的功能停撞,這一數(shù)據(jù)也可以作為情感標(biāo)注的參考依據(jù)瓷蛙。
第二步是將標(biāo)注好情感傾向的文本進(jìn)行分詞悼瓮,并進(jìn)行數(shù)據(jù)的預(yù)處理,前文已經(jīng)對分詞有了很多的介紹艰猬,這里就不再過多的贅述横堡。第三步是從分詞的結(jié)果中標(biāo)注出具備情感特征的詞,這里特別說一下冠桃,如果是對情感進(jìn)行分類命贴,可以參考情感詞典進(jìn)行標(biāo)注,也可以采用TF-IDF算法自動抽取出文檔的特征詞進(jìn)行標(biāo)注食听。如果分析的是某個特定領(lǐng)域的胸蛛,還需要標(biāo)注出特定領(lǐng)域的詞,例如做商品評價的情感分析碳蛋,需要標(biāo)注出商品名稱胚泌,品類名稱,屬性名稱等肃弟。第四步根據(jù)分詞統(tǒng)計詞頻構(gòu)建詞袋模型玷室,形成特征詞矩陣,如表所示笤受。在這一步可以根據(jù)業(yè)務(wù)需要給每個特征詞賦予權(quán)重穷缤,并通過詞頻乘以權(quán)重得到特征詞分?jǐn)?shù)。最后一步就是根據(jù)分類算法箩兽,將特征詞矩陣作為輸入數(shù)據(jù)津肛,得到最終的分類模型。

特征詞1 特征詞2 特征詞3 特征詞4 特征詞5 特征詞6 分類結(jié)果
文檔A 2 0 2 4 1 6 1
文檔B 0 2 3 3 2 2 1
文檔C 5 1 6 2 5 6 1
文檔D 5 0 1 5 3 4 0
文檔E 3 3 0 3 3 3 0

當(dāng)訓(xùn)練好分類模型之后汗贫,就可以對測試集進(jìn)行分類了身坐,具體的流程與建模流程類似,先對測試的文本數(shù)據(jù)進(jìn)行分詞并做數(shù)據(jù)預(yù)處理落包,然后根據(jù)特征詞矩陣抽取測試文本的特征詞構(gòu)建詞袋矩陣部蛇,并將詞袋矩陣的詞頻數(shù)據(jù)作為輸入數(shù)據(jù)代入之前訓(xùn)練好的模型進(jìn)行分類,得到分類的結(jié)果咐蝇。
采用基于機(jī)器學(xué)習(xí)的方法進(jìn)行情感分析有以下幾個不足之處涯鲁,第一是每一個應(yīng)用領(lǐng)域之間的語言描述差異導(dǎo)致了訓(xùn)練得到的分類模型不能應(yīng)用與其他的領(lǐng)域,需要單獨(dú)構(gòu)建有序。第二是最終的分類效果取決于訓(xùn)練文本的選擇以及正確的情感標(biāo)注抹腿,而人對于情感的理解帶有主觀性,如果標(biāo)注出現(xiàn)偏差就會對最終的結(jié)果產(chǎn)生影響旭寿。
除了基于詞典和基于機(jī)器學(xué)習(xí)的方法警绩,也有一些學(xué)者將兩者結(jié)合起來使用,彌補(bǔ)兩種方法的缺點(diǎn)盅称,比單獨(dú)采用一種方法的分類效果要更好房蝉,另外僚匆,也有學(xué)者嘗試使用基于LSTM等深度學(xué)習(xí)的方法對情感進(jìn)行分析,相信在未來搭幻,情感分析會應(yīng)用在更多的產(chǎn)品中咧擂,幫助我們更好的理解用戶需求,提升用戶使用智能產(chǎn)品的體驗檀蹋。

情感識別的困難與挑戰(zhàn)

隨著深度神經(jīng)網(wǎng)絡(luò)等算法的應(yīng)用松申,情感分析的研究方向已經(jīng)有了非常大的進(jìn)展,但依然存在著一些難題是目前尚未解決的俯逾,在實操過程中需特別注意以下幾種類型數(shù)據(jù):

  • 顏文字贸桶、emoji和表情包
    互聯(lián)網(wǎng)上的交流不僅僅只是通過單純的文字來進(jìn)行,大量的情感表達(dá)是通過顏文字或表情包來實現(xiàn)的桌肴,例如經(jīng)典的表示笑臉的顏文字“:D”皇筛,這類文本表達(dá)無法與上下文形成聯(lián)系,所以很難判斷他們評價的實體對象是什么坠七。不過好在這類數(shù)據(jù)本身就代表了非常強(qiáng)烈的情感傾向水醋,在篇章級和句子級的顆粒度對情感進(jìn)行分析,我們可以將特定的顏文字作為一種特殊的詞組構(gòu)建成情感字典彪置,并人工進(jìn)行情感分的賦值拄踪,對于emoji表情也可以將標(biāo)準(zhǔn)的emoji編碼編入情感字典。而對于表情包的識別則是一個計算機(jī)視覺的問題拳魁,目前還沒有學(xué)者在這個領(lǐng)域方向展開研究惶桐。

  • 諷刺句
    諷刺語句是一種比較特殊的情感表達(dá)語句,諷刺語句的語言組織形式從字面上來看可能是褒義潘懊,但實際的含義卻是貶義姚糊,或者字面是貶義但實際卻是褒義,例如:“太棒了授舟!這家外賣治好了我多年的便秘救恨!”諷刺句在情感分析中是非常難以處理的,因為要分辨這類語句的含義岂却,通常來講需要結(jié)合常識或者是相關(guān)的背景知識才可以了解,僅僅通過上下文是無法正確解讀諷刺句的含義的裙椭。
    在對商品的評價語中躏哩,諷刺句并不常見,但在輿論或社會新聞的評價中揉燃,諷刺句則比較常見扫尺。識別出諷刺句是情感分析分析方向的一個研究難點(diǎn)。

  • 比較句
    比較語句也是一種特殊的情感表達(dá)句炊汤,例如:“我覺得這件衣服很適合我正驻,但我更喜歡那一件弊攘。”這類比較語句中通常存在著兩個以上的實體或?qū)傩怨檬铮绻皇窃诰渥蛹壍念w粒度下可以辨別出這句話是含有褒義的情感襟交,但在屬性級的顆粒度下,以情感五元組來定義的情感無法將一個實體作為另一個實體的屬性來進(jìn)行判斷伤靠,很難分辨觀點(diǎn)持有者到底是在對哪一個實體或?qū)傩员磉_(dá)情感捣域。而這類語句在商品的評論中有非常常見,需要特別注意宴合。

  • 情緒分類
    目前對于情感的分析依然處于初級階段焕梅,僅僅只是對情感做了褒義、貶義卦洽、中性三種劃分贞言,但現(xiàn)實生活中的情緒遠(yuǎn)遠(yuǎn)不止這三種類型,例如在心理學(xué)領(lǐng)域中阀蒂,著名的心理學(xué)家羅伯特·普拉切克(Robert Plutchik)提出的情緒輪包含了8種基本情緒该窗,并且每種情緒又劃分了不同的情緒強(qiáng)度等級,8種情緒還可以相互結(jié)合形成更多的情緒,如圖所示葵礼。


    普拉切克的情緒輪

情緒輪在用戶體驗設(shè)計上被廣泛的應(yīng)用割粮,很多情感化設(shè)計都是基于情緒輪進(jìn)行的。但是在人工智能領(lǐng)域级零,將情緒進(jìn)行多分類比情感分析的三分類任務(wù)要難得多,目前大多數(shù)分類方法的結(jié)果準(zhǔn)確性都不到50%滞乙。這是因為情緒本身包含了太多的類別奏纪,而且不同的類別之間又可能具有相似性,一個情緒詞在不同的語境下有可能表達(dá)的是不同的情緒類別斩启,算法很難對其進(jìn)行分類序调。即使是人工對文本進(jìn)行情緒類別標(biāo)注也往往效果不佳,因為情緒是非常主觀性的兔簇,不同的人對不同的文本可能產(chǎn)生不同的理解发绢,這使得人工標(biāo)注情緒類比的過程異常困難。如何讓機(jī)器可以理解真實的情緒目前還是一個未能攻克的難題垄琐。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末边酒,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子狸窘,更是在濱河造成了極大的恐慌墩朦,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,755評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件翻擒,死亡現(xiàn)場離奇詭異氓涣,居然都是意外死亡牛哺,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,305評論 3 395
  • 文/潘曉璐 我一進(jìn)店門劳吠,熙熙樓的掌柜王于貴愁眉苦臉地迎上來引润,“玉大人,你說我怎么就攤上這事赴背∫埽” “怎么了?”我有些...
    開封第一講書人閱讀 165,138評論 0 355
  • 文/不壞的土叔 我叫張陵凰荚,是天一觀的道長燃观。 經(jīng)常有香客問我,道長便瑟,這世上最難降的妖魔是什么缆毁? 我笑而不...
    開封第一講書人閱讀 58,791評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮到涂,結(jié)果婚禮上脊框,老公的妹妹穿的比我還像新娘。我一直安慰自己践啄,他們只是感情好浇雹,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,794評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著屿讽,像睡著了一般昭灵。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上伐谈,一...
    開封第一講書人閱讀 51,631評論 1 305
  • 那天烂完,我揣著相機(jī)與錄音,去河邊找鬼诵棵。 笑死抠蚣,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的履澳。 我是一名探鬼主播嘶窄,決...
    沈念sama閱讀 40,362評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼距贷!你這毒婦竟也來了柄冲?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,264評論 0 276
  • 序言:老撾萬榮一對情侶失蹤储耐,失蹤者是張志新(化名)和其女友劉穎羊初,沒想到半個月后滨溉,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體什湘,經(jīng)...
    沈念sama閱讀 45,724評論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡长赞,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了闽撤。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片得哆。...
    茶點(diǎn)故事閱讀 40,040評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖哟旗,靈堂內(nèi)的尸體忽然破棺而出贩据,到底是詐尸還是另有隱情,我是刑警寧澤闸餐,帶...
    沈念sama閱讀 35,742評論 5 346
  • 正文 年R本政府宣布饱亮,位于F島的核電站,受9級特大地震影響舍沙,放射性物質(zhì)發(fā)生泄漏近上。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,364評論 3 330
  • 文/蒙蒙 一拂铡、第九天 我趴在偏房一處隱蔽的房頂上張望壹无。 院中可真熱鬧,春花似錦感帅、人聲如沸斗锭。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,944評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽岖是。三九已至,卻和暖如春她倘,著一層夾襖步出監(jiān)牢的瞬間璧微,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,060評論 1 270
  • 我被黑心中介騙來泰國打工硬梁, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留前硫,地道東北人。 一個月前我還...
    沈念sama閱讀 48,247評論 3 371
  • 正文 我出身青樓荧止,卻偏偏與公主長得像屹电,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子跃巡,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,979評論 2 355