情感分析的現(xiàn)代方法(譯)

原文鏈接:https://districtdatalabs.silvrback.com/modern-methods-for-sentiment-analysis

原文作者:Michael Czerny

? ? ?? 情感分析是一種常見(jiàn)的自然語(yǔ)言處理(NLP)方法的應(yīng)用滔悉,特別是在以提取文本的情感內(nèi)容為目標(biāo)的分類方法中梯轻。通過(guò)這種方式邮辽,情感分析可以被視為利用一些情感得分指標(biāo)來(lái)量化定性數(shù)據(jù)的方法塞俱。盡管情緒在很大程度上是主觀的惜互,但是情感量化分析已經(jīng)有很多有用的實(shí)踐茵汰,比如企業(yè)分析消費(fèi)者對(duì)產(chǎn)品的反饋信 息捐下,或者檢測(cè)在線評(píng)論中的差評(píng)信息弧哎。

? ? ?? 最簡(jiǎn)單的情感分析方法是利用詞語(yǔ)的正負(fù)屬性來(lái)判定。句子中的每個(gè)單詞都有一個(gè)得分蜻韭,樂(lè)觀的單詞得分為 +1悼尾,悲觀的單詞則為 -1。然后我們對(duì)句子中所有單詞得分進(jìn)行加總求和得到一個(gè)最終的情感總分肖方。很明顯闺魏,這種方法有許多局限之處,最重要的一點(diǎn)在于它忽略了上下文的信息俯画。例如析桥,在這個(gè)簡(jiǎn)易模型中,因?yàn)椤皀ot”的得分為 -1艰垂,而“good”的得分為 +1泡仗,所以詞組“not good”將被歸類到中性詞組中。盡管詞組“not good”中包含單詞“good”猜憎,但是人們?nèi)詢A向于將其歸類到悲觀詞組中娩怎。

? ? ?? 另外一個(gè)常見(jiàn)的方法是將文本視為一個(gè)“詞袋”。我們將每個(gè)文本看出一個(gè)1xN的向量胰柑,其中N表示文本詞匯的數(shù)量截亦。該向量中每一列都是一個(gè)單詞, 其對(duì)應(yīng)的值為該單詞出現(xiàn)的頻數(shù)柬讨。例如崩瓤,詞組“bag of bag of words”可以被編碼為 [2, 2, 1]。這些數(shù)據(jù)可以被應(yīng)用到機(jī)器學(xué)習(xí)分類算法中(比如羅吉斯回歸或者支持向量機(jī))踩官,從而預(yù)測(cè)未知數(shù)據(jù)的情感狀況却桶。需要注意的是,這種有監(jiān)督學(xué)習(xí)的方法要求利用已知情感狀況的數(shù)據(jù)作為訓(xùn)練集蔗牡。雖然這個(gè)方法改進(jìn)了之前的模型颖系,但是它仍然忽略了上下文的信息和數(shù)據(jù)集的規(guī)模情況。

Word2Vec 和 Doc2Vec

? ? ?? 最近辩越,谷歌開(kāi)發(fā)了一個(gè)叫做 Word2Vec 的方法嘁扼,該方法可以在捕捉語(yǔ)境信息的同時(shí)壓縮數(shù)據(jù)規(guī)模。Word2Vec實(shí)際上是兩種不同的方法:Continuous Bag of Words (CBOW) 和 Skip-gram区匣。CBOW的目標(biāo)是根據(jù)上下文來(lái)預(yù)測(cè)當(dāng)前詞語(yǔ)的概率。Skip-gram剛好相反:根據(jù)當(dāng)前詞語(yǔ)來(lái)預(yù)測(cè)上下文的概率(如圖 1 所示)。這兩種方法都利用人工神經(jīng)網(wǎng)絡(luò)作為它們的分類算法亏钩。起初莲绰,每個(gè)單詞都是一個(gè)隨機(jī) N 維向量。經(jīng)過(guò)訓(xùn)練之后姑丑,該算法利用 CBOW 或者 Skip-gram 的方法獲得了每個(gè)單詞的最優(yōu)向量蛤签。

? ? ? ? 現(xiàn)在這些詞向量已經(jīng)捕捉到上下文的信息。我們可以利用基本代數(shù)公式來(lái)發(fā)現(xiàn)單詞之間的關(guān)系(比如栅哀,“國(guó)王”-“男人”+“女人”=“王后”)震肮。這些詞向量可以代替詞袋用來(lái)預(yù)測(cè)未知數(shù)據(jù)的情感狀況。該模型的優(yōu)點(diǎn)在于不僅考慮了語(yǔ)境信息還壓縮了數(shù)據(jù)規(guī)模(通常情況下留拾,詞匯量規(guī)模大約在300個(gè)單詞左右而不是之前模型的100000個(gè)單詞)戳晌。因?yàn)樯窠?jīng)網(wǎng)絡(luò)可以替我們提取出這些特征的信息,所以我們僅需要做很少的手動(dòng)工作痴柔。但是由于文本的長(zhǎng)度各異,我們可能需要利用所有詞向量的平均值作為分類算法的輸入值,從而對(duì)整個(gè)文本文檔進(jìn)行分類處理煤蚌。

CBOW & Skip-gram

? ? ?? 然而锯茄,即使上述模型對(duì)詞向量進(jìn)行平均處理,我們?nèi)匀缓雎粤藛卧~之間的排列順序?qū)η楦蟹治龅挠绊懱富稹W鳛橐粋€(gè)處理可變長(zhǎng)度文本的總結(jié)性方法侈询,Quoc Le 和 Tomas Mikolov 提出了 Doc2Vec方法。除了增加一個(gè)段落向量以外糯耍,這個(gè)方法幾乎等同于 Word2Vec扔字。和 Word2Vec 一樣,該模型也存在兩種方法:Distributed Memory(DM) 和 Distributed Bag of Words(DBOW)谍肤。DM 試圖在給定上下文和段落向量的情況下預(yù)測(cè)單詞的概率啦租。在一個(gè)句子或者文檔的訓(xùn)練過(guò)程中,段落 ID 保持不變荒揣,共享著同一個(gè)段落向量篷角。DBOW 則在僅給定段落向量的情況下預(yù)測(cè)段落中一組隨機(jī)單詞的概率。(如圖 2 所示)

? ? ?? 一旦開(kāi)始被訓(xùn)練系任,這些段落向量可以被納入情感分類器中而不必對(duì)單詞進(jìn)行加總處理恳蹲。這個(gè)方法是當(dāng)前最先進(jìn)的方法,當(dāng)它被用于對(duì) IMDB 電影評(píng)論數(shù)據(jù)進(jìn)行情感分類時(shí)俩滥,該模型的錯(cuò)分率僅為 7.42%嘉蕾。當(dāng)然如果我們無(wú)法真正實(shí)施的話,一切都是浮云霜旧。幸運(yùn)的是错忱,genism(Python 軟件庫(kù))中 Word2Vec 和 Doc2Vec 的優(yōu)化版本是可用的。

Doc2Vec

利用 Python 實(shí)現(xiàn)的 Word2Vec 實(shí)例

? ? ?? 在本節(jié)中,我們展示了人們?nèi)绾卧谇楦蟹诸愴?xiàng)目中使用詞向量以清。我們可以在 Anaconda 分發(fā)版中找到 genism 庫(kù)儿普,或者可以通過(guò) pip 安裝 genism 庫(kù)。從這里開(kāi)始掷倔,你可以訓(xùn)練自己語(yǔ)料庫(kù)(一個(gè)文本數(shù)據(jù)集)的詞向量或者從文本格式或二進(jìn)制格式文件中導(dǎo)入已經(jīng)訓(xùn)練好的詞向量眉孩。

? ? ?? 我發(fā)現(xiàn)利用谷歌預(yù)訓(xùn)練好的詞向量數(shù)據(jù)來(lái)構(gòu)建模型是非常有用的,該詞向量是基于谷歌新聞數(shù)據(jù)(大約一千億個(gè)單詞)訓(xùn)練所得勒葱。需要注意的是浪汪,這個(gè)文件解壓后的大小是 3.5 GB。利用谷歌的詞向量我們可以看到單詞之間一些有趣的關(guān)系:

有趣的是凛虽,我們可以從中發(fā)現(xiàn)語(yǔ)法關(guān)系死遭,比如識(shí)別出最高級(jí)或單詞形態(tài)的單詞:

“biggest”-“big”+“small”=“smallest”

“ate”-“eat”+“speak”=“spoke”

? ? ?? 從上述的例子中我們可以看出 Word2Vec 可以識(shí)別單詞之間重要的關(guān)系。這使得它在許多 NLP 項(xiàng)目和我們的情感分析案例中非常有用涩维。在我們將它運(yùn)用到情感分析案例之前殃姓,讓我們先來(lái)測(cè)試下 Word2Vec 對(duì)單詞的分類能力。我們將利用三個(gè)分類的樣本集:食物瓦阐、運(yùn)動(dòng)和天氣單詞集合蜗侈,我們可以從Enchanted Learning網(wǎng)中下載得到這三個(gè)數(shù)據(jù)集。由于這是一個(gè) 300 維的向量睡蟋,為了在 2D 視圖中對(duì)其進(jìn)行可視化踏幻,我們需要利用 Scikit-Learn 中的降維算法 t-SNE 處理源數(shù)據(jù)。

首先戳杀,我們必須獲得如下所示的詞向量:

然后我們利用 TSNE 和 matplotlib 對(duì)分類結(jié)果進(jìn)行可視化處理:

可視化結(jié)果如下圖所示:

從上圖可以看出该面,Word2Vec 很好地分離了不相關(guān)的單詞,并對(duì)它們進(jìn)行聚類處理信卡。

Emoji 推文的情感分析

? ? ?? 現(xiàn)在我們將分析帶有 Emoji 表情推文的情感狀況隔缀。我們利用 emoji 表情對(duì)我們的數(shù)據(jù)添加模糊的標(biāo)簽。笑臉表情(:-))表示樂(lè)觀情緒傍菇,皺眉標(biāo)簽(:-()表示悲觀情緒猾瘸。總的 400000 條推文被分為樂(lè)觀和悲觀兩組數(shù)據(jù)丢习。我們隨機(jī)從這兩組數(shù)據(jù)中抽取樣本牵触,構(gòu)建比例為 8:2 的訓(xùn)練集和測(cè)試集。隨后咐低,我們對(duì)訓(xùn)練集數(shù)據(jù)構(gòu)建 Word2Vec 模型揽思,其中分類器的輸入值為推文中所有詞向量的加權(quán)平均值。我們可以利用 Scikit-Learn 構(gòu)建許多機(jī)器學(xué)習(xí)模型见擦。

首先钉汗,我們導(dǎo)入數(shù)據(jù)并構(gòu)建 Word2Vec 模型:

接下來(lái)羹令,為了利用下面的函數(shù)獲得推文中所有詞向量的平均值,我們必須構(gòu)建作為輸入文本的詞向量损痰。

? ? ?? 調(diào)整數(shù)據(jù)集的量綱是數(shù)據(jù)標(biāo)準(zhǔn)化處理的一部分特恬,我們通常將數(shù)據(jù)集轉(zhuǎn)化成服從均值為零的高斯分布,這說(shuō)明數(shù)值大于均值表示樂(lè)觀徐钠,反之則表示悲觀。為了使模型更有效役首,許多機(jī)器學(xué)習(xí)模型需要預(yù)先處理數(shù)據(jù)集的量綱尝丐,特別是文本分類器這類具有許多變量的模型。

最后我們需要建立測(cè)試集向量并對(duì)其標(biāo)準(zhǔn)化處理:

? ? ?? 接下來(lái)我們想要通過(guò)計(jì)算測(cè)試集的預(yù)測(cè)精度和 ROC 曲線來(lái)驗(yàn)證分類器的有效性衡奥。 ROC 曲線衡量當(dāng)模型參數(shù)調(diào)整的時(shí)候爹袁,其真陽(yáng)性率和假陽(yáng)性率的變化情況。在我們的案例中矮固,我們調(diào)整的是分類器模型截?cái)嚅撝档母怕适ⅰR话銇?lái)說(shuō),ROC 曲線下的面積(AUC)越大档址,該模型的表現(xiàn)越好盹兢。你可以在這里找到更多關(guān)于 ROC 曲線的資料

(https://en.wikipedia.org/wiki/Receiver_operating_characteristic)

在這個(gè)案例中我們使用羅吉斯回歸的隨機(jī)梯度下降法作為分類器算法。

隨后我們利用 matplotlib 和 metric 庫(kù)來(lái)構(gòu)建 ROC 曲線守伸。

ROC 曲線如下圖所示:

? ? ?? 在沒(méi)有創(chuàng)建任何類型的特性和最小文本預(yù)處理的情況下绎秒,我們利用 Scikit-Learn 構(gòu)建的簡(jiǎn)單線性模型的預(yù)測(cè)精度為 73%。有趣的是尼摹,刪除標(biāo)點(diǎn)符號(hào)會(huì)影響預(yù)測(cè)精度见芹,這說(shuō)明 Word2Vec 模型可以提取出文檔中符號(hào)所包含的信息。處理單獨(dú)的單詞蠢涝,訓(xùn)練更長(zhǎng)時(shí)間玄呛,做更多的數(shù)據(jù)預(yù)處理工作,和調(diào)整模型的參數(shù)都可以提高預(yù)測(cè)精度和二。我發(fā)現(xiàn)使用人工神 經(jīng)網(wǎng)絡(luò)(ANNs)模型可以提高 5% 的預(yù)測(cè)精度徘铝。需要注意的是,Scikit-Learn 沒(méi)有提供 ANN 分類器的實(shí)現(xiàn)工具儿咱,所以我利用了自己創(chuàng)建的自定義庫(kù):

分類結(jié)果的精度為 77%庭砍。對(duì)于任何機(jī)器學(xué)習(xí)項(xiàng)目來(lái)說(shuō),選擇正確的模型通常是一種藝術(shù)而非科學(xué)的行為混埠。如果你想要使用我自定義的庫(kù)怠缸,你可以在我的 github 主頁(yè)上找到它,但是這個(gè)庫(kù)非城埽混亂而且沒(méi)有定期維護(hù)揭北!如果你想要貢獻(xiàn)自己的力量扳炬,請(qǐng)隨時(shí)復(fù)刻我的項(xiàng)目。

利用 Doc2Vec 分析電影評(píng)論數(shù)據(jù)

? ? ?? 利用詞向量均值對(duì)推文進(jìn)行分析效果不錯(cuò)搔体,這是因?yàn)橥莆耐ǔV挥惺畮讉€(gè)單詞恨樟,所以即使經(jīng)過(guò)平均化處理仍能保持相關(guān)的特性。一旦我們開(kāi)始分析段落數(shù)據(jù)時(shí)疚俱,如果忽略上下文和單詞順序的信息劝术,那么我們將會(huì)丟掉許多重要的信息。在這種情況下呆奕,最好是使用 Doc2Vec 來(lái)創(chuàng)建輸入信息养晋。作為一個(gè)示例,我們將使用 IMDB 電影評(píng)論數(shù)據(jù)及來(lái)測(cè)試 Doc2Vec 在情感分析中的有效性梁钾。該數(shù)據(jù)集包含 25000 條樂(lè)觀的電影評(píng)論绳泉,25000 條悲觀評(píng)論和 50000 條尚未添加標(biāo)簽的評(píng)論。我們首先對(duì)未添加標(biāo)簽的評(píng)論數(shù)據(jù)構(gòu)建 Doc2Vec 模型:

這個(gè)代碼創(chuàng)建了 LabeledSentence 類型的對(duì)象:

接下來(lái)姆泻,我們舉例說(shuō)明 Doc2Vec 的兩個(gè)模型零酪,DM 和 DBOW。gensim 的說(shuō)明文檔建議多次訓(xùn)練數(shù)據(jù)集并調(diào)整學(xué)習(xí)速率或在每次訓(xùn)練中打亂輸入信息的順序拇勃。我們從Doc2Vec 模型中獲得電影評(píng)論向量四苇。

現(xiàn)在我們準(zhǔn)備利用評(píng)論向量構(gòu)建分類器模型。我們將再次使用 sklearn 中的 SGDClassifier方咆。

這個(gè)模型的預(yù)測(cè)精度為 86%蛔琅,我們還可以利用下面的代碼繪制 ROC 曲線:

原論文中聲稱:與簡(jiǎn)單羅吉斯回歸模型相比,他們利用 50 個(gè)節(jié)點(diǎn)的神經(jīng)網(wǎng)絡(luò)分類器能獲得較高的預(yù)測(cè)精度峻呛。

? ? ?? 有趣的是罗售,在這里我們并沒(méi)有看到這樣的改進(jìn)效果。該模型的預(yù)測(cè)精度為 85%钩述,我們沒(méi)有看到他們所聲稱的 7.42% 誤差率寨躁。這可能存在以下幾個(gè)原因:我們沒(méi)有對(duì)訓(xùn)練集和測(cè)試集進(jìn)行足夠多的訓(xùn)練,他們的 Doc2Vec 和 ANN 的實(shí)現(xiàn)方法不一樣等原因牙勘。因?yàn)檎撐闹袥](méi)有詳細(xì)的說(shuō)明职恳,所以我們很難知道到底是哪個(gè)原因。不管這么說(shuō)方面,沒(méi)有經(jīng)過(guò)很多的數(shù)據(jù)預(yù)處理和變量選擇過(guò)程放钦,我們?nèi)匀蝗?得了 86% 的預(yù)測(cè)精度。而且這不需要復(fù)雜的卷積和樹(shù)圖資料庫(kù)恭金。

結(jié)論

? ? ?? 我希望你已經(jīng)看到 Word2Vec 和 Doc2Vec 的實(shí)用性和便捷性操禀。通過(guò)一個(gè)非常簡(jiǎn)單的算法,我們可以獲得豐富的詞向量和段落向量横腿,這些向量數(shù)據(jù)可以被應(yīng)用到各種各樣的 NLP 應(yīng)用中颓屑。更關(guān)鍵的是谷歌公司開(kāi)放了他們自己的預(yù)訓(xùn)練詞向量結(jié)果斤寂,這個(gè)詞向量是基于一個(gè)別人難以獲取的大數(shù)據(jù)集而訓(xùn)練得到的。如果你想要在大數(shù)據(jù)集中訓(xùn)練自己的向量結(jié)果揪惦,現(xiàn)在已經(jīng)有一個(gè)基于 Apache Spark 的 Word2Vec 實(shí)現(xiàn)工具遍搞。

(https://spark.apache.org/mllib/)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市器腋,隨后出現(xiàn)的幾起案子溪猿,更是在濱河造成了極大的恐慌,老刑警劉巖纫塌,帶你破解...
    沈念sama閱讀 219,188評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件再愈,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡护戳,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,464評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門垂睬,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)媳荒,“玉大人,你說(shuō)我怎么就攤上這事驹饺∏恚” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,562評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵赏壹,是天一觀的道長(zhǎng)鱼炒。 經(jīng)常有香客問(wèn)我,道長(zhǎng)蝌借,這世上最難降的妖魔是什么昔瞧? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,893評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮菩佑,結(jié)果婚禮上自晰,老公的妹妹穿的比我還像新娘。我一直安慰自己稍坯,他們只是感情好酬荞,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,917評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著瞧哟,像睡著了一般混巧。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上勤揩,一...
    開(kāi)封第一講書(shū)人閱讀 51,708評(píng)論 1 305
  • 那天咧党,我揣著相機(jī)與錄音,去河邊找鬼陨亡。 笑死凿傅,一個(gè)胖子當(dāng)著我的面吹牛缠犀,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播聪舒,決...
    沈念sama閱讀 40,430評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼辨液,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了箱残?” 一聲冷哼從身側(cè)響起滔迈,我...
    開(kāi)封第一講書(shū)人閱讀 39,342評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎被辑,沒(méi)想到半個(gè)月后燎悍,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,801評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡盼理,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,976評(píng)論 3 337
  • 正文 我和宋清朗相戀三年谈山,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片宏怔。...
    茶點(diǎn)故事閱讀 40,115評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡奏路,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出臊诊,到底是詐尸還是另有隱情鸽粉,我是刑警寧澤,帶...
    沈念sama閱讀 35,804評(píng)論 5 346
  • 正文 年R本政府宣布抓艳,位于F島的核電站触机,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏玷或。R本人自食惡果不足惜儡首,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,458評(píng)論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望偏友。 院中可真熱鬧椒舵,春花似錦、人聲如沸约谈。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,008評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)棱诱。三九已至泼橘,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間迈勋,已是汗流浹背炬灭。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,135評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留靡菇,地道東北人重归。 一個(gè)月前我還...
    沈念sama閱讀 48,365評(píng)論 3 373
  • 正文 我出身青樓米愿,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親鼻吮。 傳聞我的和親對(duì)象是個(gè)殘疾皇子育苟,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,055評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容