利用Python實(shí)現(xiàn)中文情感極性分析

情感極性分析逼泣，即情感分類辅柴，對(duì)帶有主觀情感色彩的文本進(jìn)行分析怠噪、歸納恐似。情感極性分析主要有兩種分類方法：基于情感知識(shí)的方法和基于機(jī)器學(xué)習(xí)的方法“睿基于情感知識(shí)的方法通過(guò)一些已有的情感詞典計(jì)算文本的情感極性（正向或負(fù)向）矫夷，其方法是統(tǒng)計(jì)文本中出現(xiàn)的正、負(fù)向情感詞數(shù)目或情感詞的情感值來(lái)判斷文本情感類別憋槐；基于機(jī)器學(xué)習(xí)的方法利用機(jī)器學(xué)習(xí)算法訓(xùn)練已標(biāo)注情感類別的訓(xùn)練數(shù)據(jù)集訓(xùn)練分類模型双藕，再通過(guò)分類模型預(yù)測(cè)文本所屬情感分類。本文采用機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)對(duì)酒店評(píng)論數(shù)據(jù)的情感分類阳仔，利用Python語(yǔ)言實(shí)現(xiàn)情感分類模型的構(gòu)建和預(yù)測(cè)忧陪，不包含理論部分，旨在通過(guò)實(shí)踐一步步了解近范、實(shí)現(xiàn)中文情感極性分析嘶摊。

1 開(kāi)發(fā)環(huán)境準(zhǔn)備

1.1 Python環(huán)境

在python官網(wǎng)https://www.python.org/downloads/ 下載計(jì)算機(jī)對(duì)應(yīng)的python版本，本人使用的是Python2.7.13的版本评矩。后面叶堆，因?yàn)橄胍褂肅NN算法與SVM算法結(jié)果進(jìn)行比對(duì)，使用到了Tensorflow模塊斥杜，而此模塊在Windows系統(tǒng)中只有Python35版本虱颗，因此又加裝了Python3.5的版本俯萌，即一臺(tái)電腦同時(shí)存在連個(gè)python版本，可以分開(kāi)使用上枕。

在本實(shí)例中前面直到SVM算法的實(shí)現(xiàn)都在Python27下完成咐熙，僅CNN算法在Python35下完成，特此說(shuō)明辨萍。

1.2 第三方模塊

本實(shí)例代碼的實(shí)現(xiàn)使用到了多個(gè)著名的第三方模塊棋恼，主要模塊如下所示：

1）Jieba
目前使用最為廣泛的中文分詞組件。下載地址：https://pypi.python.org/pypi/jieba/
2）Gensim
用于主題模型锈玉、文檔索引和大型語(yǔ)料相似度索引的python庫(kù)细办，主要用于自然語(yǔ)言處理（NLP）和信息檢索（IR）。下載地址：https://pypi.python.org/pypi/gensim
本實(shí)例中的維基中文語(yǔ)料處理和中文詞向量模型構(gòu)建需要用到該模塊淆两。
3）Pandas
用于高效處理大型數(shù)據(jù)集铺敌、執(zhí)行數(shù)據(jù)分析任務(wù)的python庫(kù)，是基于Numpy的工具包椅棺。下載地址：https://pypi.python.org/pypi/pandas/0.20.1
4）Numpy
用于存儲(chǔ)和處理大型矩陣的工具包犁罩。下載地址：https://pypi.python.org/pypi/numpy
5）Scikit-learn
用于機(jī)器學(xué)習(xí)的python工具包，python模塊引用名字為sklearn两疚，安裝前還需要Numpy和Scipy兩個(gè)Python庫(kù)床估。官網(wǎng)地址：http://scikit-learn.org/stable/
6）Matplotlib
Matplotlib是一個(gè)python的圖形框架，用于繪制二維圖形诱渤。下載地址：https://pypi.python.org/pypi/matplotlib
7）Tensorflow
Tensorflow是一個(gè)采用數(shù)據(jù)流圖用于數(shù)值計(jì)算的開(kāi)源軟件庫(kù)丐巫，用于人工智能領(lǐng)域。
官網(wǎng)地址：http://www.tensorfly.cn/
下載地址：https://pypi.python.org/pypi/tensorflow/1.1.0

2 數(shù)據(jù)獲取

2.1 停用詞詞典

本文使用中科院計(jì)算所中文自然語(yǔ)言處理開(kāi)放平臺(tái)發(fā)布的中文停用詞表勺美，包含了1208個(gè)停用詞递胧。下載地址：http://www.hicode.cc/download/view-software-13784.html

2.2 正負(fù)向語(yǔ)料庫(kù)

文本從http://www.datatang.com/data/11936 下載“有關(guān)中文情感挖掘的酒店評(píng)論語(yǔ)料”作為訓(xùn)練集與測(cè)試集，該語(yǔ)料包含了4種語(yǔ)料子集赡茸，本文選用正負(fù)各1000的平衡語(yǔ)料（ChnSentiCorp_htl_ba_2000）作為數(shù)據(jù)集進(jìn)行分析缎脾。

3 數(shù)據(jù)預(yù)處理

3.1 正負(fù)向語(yǔ)料預(yù)處理

下載并解壓ChnSentiCorp_htl_ba_2000.rar文件，得到的文件夾中包含neg（負(fù)向語(yǔ)料）和pos（正向語(yǔ)料）兩個(gè)文件夾坛掠，而文件夾中的每一篇評(píng)論為一個(gè)txt文檔赊锚，為了方便之后的操作，需要把正向和負(fù)向評(píng)論分別規(guī)整到對(duì)應(yīng)的一個(gè)txt文件中屉栓，即正向語(yǔ)料的集合文檔（命名為2000_pos.txt）和負(fù)向語(yǔ)料的集合文檔（命名為2000_neg.txt）舷蒲。
具體Python實(shí)現(xiàn)代碼如下所示：

1_process--文檔處理代碼

運(yùn)行完成后得到2000_pos.txt和2000_neg.txt兩個(gè)文本文件，分別存放正向評(píng)論和負(fù)向評(píng)論友多，每篇評(píng)論為一行牲平。文檔部分截圖如下所示：

酒店評(píng)論截圖

3.2 中文文本分詞

本文采用結(jié)巴分詞分別對(duì)正向語(yǔ)料和負(fù)向語(yǔ)料進(jìn)行分詞處理。特別注意域滥，在執(zhí)行代碼前需要把txt源文件手動(dòng)轉(zhuǎn)化成UTF-8格式纵柿，否則會(huì)報(bào)中文編碼的錯(cuò)誤蜈抓。在進(jìn)行分詞前，需要對(duì)文本進(jìn)行去除數(shù)字昂儒、字母和特殊符號(hào)的處理沟使，使用python自帶的string和re模塊可以實(shí)現(xiàn)，其中string模塊用于處理字符串操作渊跋，re模塊用于正則表達(dá)式處理腊嗡。
具體實(shí)現(xiàn)代碼如下所示：

2_cutsentence--結(jié)巴分詞代碼

處理完成后，得到2000_pos_cut.txt和2000_neg_cut.txt兩個(gè)txt文件拾酝，分別存放正負(fù)向語(yǔ)料分詞后的結(jié)果燕少。分詞結(jié)果部分截圖如下所示：

分詞結(jié)果截圖

3.3 去停用詞

分詞完成后，即可讀取停用詞表中的停用詞蒿囤，對(duì)分詞后的正負(fù)向語(yǔ)料進(jìn)行匹配并去除停用詞客们。去除停用詞的步驟非常簡(jiǎn)單，主要有兩個(gè)：

1）讀取停用詞表材诽；
2）遍歷分詞后的句子底挫，將每個(gè)詞丟到此表中進(jìn)行匹配，若停用詞表存在則替換為空岳守。

具體實(shí)現(xiàn)代碼如下所示：

3_stopword--去除停用詞代碼

根據(jù)代碼所示凄敢，停用詞表的獲取使用到了python特有的廣播形式碌冶，一句代碼即可搞定：

stopkey = [w.strip() for w in codecs.open('data\stopWord.txt', 'r', encoding='utf-8').readlines()]

讀取出的每一個(gè)停用詞必須要經(jīng)過(guò)去符號(hào)處理即w.strip()湿痢，因?yàn)樽x取出的停用詞還包含有換行符和制表符，如果不處理則匹配不上扑庞。代碼執(zhí)行完成后譬重，得到2000_neg_cut_stopword.txt和2000_pos_cut_stopword.txt兩個(gè)txt文件。

由于去停用詞的步驟是在句子分詞后執(zhí)行的罐氨，因此通常與分詞操作在同一個(gè)代碼段中進(jìn)行臀规，即在句子分詞操作完成后直接調(diào)用去停用詞的函數(shù)，并得到去停用詞后的結(jié)果栅隐，再寫(xiě)入結(jié)果文件中塔嬉。本文是為了便于步驟的理解將兩者分開(kāi)為兩個(gè)代碼文件執(zhí)行，各位可根據(jù)自己的需求進(jìn)行調(diào)整租悄。

3.4 獲取特征詞向量

根據(jù)以上步驟得到了正負(fù)向語(yǔ)料的特征詞文本谨究，而模型的輸入必須是數(shù)值型數(shù)據(jù)，因此需要將每條由詞語(yǔ)組合而成的語(yǔ)句轉(zhuǎn)化為一個(gè)數(shù)值型向量泣棋。常見(jiàn)的轉(zhuǎn)化算法有Bag of Words(BOW)胶哲、TF-IDF、Word2Vec潭辈。本文采用Word2Vec詞向量模型將語(yǔ)料轉(zhuǎn)換為詞向量鸯屿。

由于特征詞向量的抽取是基于已經(jīng)訓(xùn)練好的詞向量模型澈吨，而wiki中文語(yǔ)料是公認(rèn)的大型中文語(yǔ)料，本文擬從wiki中文語(yǔ)料生成的詞向量中抽取本文語(yǔ)料的特征詞向量寄摆。Wiki中文語(yǔ)料的Word2vec模型訓(xùn)練在之前寫(xiě)過(guò)的一篇文章“利用Python實(shí)現(xiàn)wiki中文語(yǔ)料的word2vec模型構(gòu)建” 中做了詳盡的描述谅辣，在此不贅述。即本文從文章最后得到的wiki.zh.text.vector中抽取特征詞向量作為模型的輸入婶恼。

獲取特征詞向量的主要步驟如下：

1）讀取模型詞向量矩陣屈藐；
2）遍歷語(yǔ)句中的每個(gè)詞，從模型詞向量矩陣中抽取當(dāng)前詞的數(shù)值向量熙尉，一條語(yǔ)句即可得到一個(gè)二維矩陣联逻，行數(shù)為詞的個(gè)數(shù)，列數(shù)為模型設(shè)定的維度检痰；
3）根據(jù)得到的矩陣計(jì)算矩陣均值作為當(dāng)前語(yǔ)句的特征詞向量包归；
4）全部語(yǔ)句計(jì)算完成后，拼接語(yǔ)句類別代表的值铅歼，寫(xiě)入csv文件中公壤。

主要代碼如下圖所示：

4_getwordvecs--獲取詞向量代碼

代碼執(zhí)行完成后，得到一個(gè)名為2000_data.csv的文件椎椰，第一列為類別對(duì)應(yīng)的數(shù)值（1-pos, 0-neg）厦幅，第二列開(kāi)始為數(shù)值向量，每一行代表一條評(píng)論慨飘。結(jié)果的部分截圖如下所示：

詞向量截圖

3.5 降維

Word2vec模型設(shè)定了400的維度進(jìn)行訓(xùn)練确憨，得到的詞向量為400維，本文采用PCA算法對(duì)結(jié)果進(jìn)行降維瓤的。具體實(shí)現(xiàn)代碼如下所示：

5_pca_svm--PCA降維代碼

運(yùn)行代碼休弃，根據(jù)結(jié)果圖發(fā)現(xiàn)前100維就能夠較好的包含原始數(shù)據(jù)的絕大部分內(nèi)容，因此選定前100維作為模型的輸入圈膏。

PCA維度解釋結(jié)果圖

4 分類模型構(gòu)建

本文采用支持向量機(jī)（SVM）作為本次實(shí)驗(yàn)的中文文本分類模型塔猾，其他分類模型采用相同的分析流程，在此不贅述稽坤。

支持向量機(jī)（SVM）是一種有監(jiān)督的機(jī)器學(xué)習(xí)模型丈甸。本文首先采用經(jīng)典的機(jī)器學(xué)習(xí)算法SVM作為分類器算法，通過(guò)計(jì)算測(cè)試集的預(yù)測(cè)精度和ROC曲線來(lái)驗(yàn)證分類器的有效性尿褪，一般來(lái)說(shuō)ROC曲線的面積（AUC）越大模型的表現(xiàn)越好睦擂。

首先使用SVM作為分類器算法，隨后利用matplotlib和metric庫(kù)來(lái)構(gòu)建ROC曲線茫多。具體python代碼如下所示：

5_pca_svm--SVM代碼

運(yùn)行代碼祈匙，得到Test Accuracy: 0.88，即本次實(shí)驗(yàn)測(cè)試集的預(yù)測(cè)準(zhǔn)確率為88%，ROC曲線如下圖所示夺欲。

ROC曲線圖

至此跪帝，利用Pyhon對(duì)酒店評(píng)論進(jìn)行中文情感極性分析的流程與方法全部介紹完畢，代碼和數(shù)據(jù)已上傳至本人的GitHub倉(cāng)庫(kù)些阅，data文件夾中包含停用詞表stopWord.txt和測(cè)試集ChnSentiCorp_htl_ba_2000伞剑，還可采用其他分類模型進(jìn)行分類，歡迎各位朋友批評(píng)指正市埋、共同學(xué)習(xí)黎泣！

最后編輯于：2017.12.07 07:49:40

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市缤谎，隨后出現(xiàn)的幾起案子抒倚，更是在濱河造成了極大的恐慌，老刑警劉巖坷澡，帶你破解...
沈念sama閱讀 206,214評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件托呕，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡频敛，警方通過(guò)查閱死者的電腦和手機(jī)项郊，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,307評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)斟赚，“玉大人着降，你說(shuō)我怎么就攤上這事∞志” “怎么了任洞？”我有些...
開(kāi)封第一講書(shū)人閱讀 152,543評(píng)論 0贊 341
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)食绿。經(jīng)常有香客問(wèn)我侈咕，道長(zhǎng)，這世上最難降的妖魔是什么器紧？我笑而不...
開(kāi)封第一講書(shū)人閱讀 55,221評(píng)論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮楼眷，結(jié)果婚禮上铲汪，老公的妹妹穿的比我還像新娘。我一直安慰自己罐柳，他們只是感情好掌腰，可當(dāng)我...
茶點(diǎn)故事閱讀 64,224評(píng)論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著张吉，像睡著了一般齿梁。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書(shū)人閱讀 49,007評(píng)論 1贊 284
城市分裂傳說(shuō)
那天勺择，我揣著相機(jī)與錄音创南，去河邊找鬼。笑死省核，一個(gè)胖子當(dāng)著我的面吹牛稿辙，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播气忠，決...
沈念sama閱讀 38,313評(píng)論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼邻储，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了旧噪？” 一聲冷哼從身側(cè)響起吨娜，我...
開(kāi)封第一講書(shū)人閱讀 36,956評(píng)論 0贊 259
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎淘钟，沒(méi)想到半個(gè)月后萌壳，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 43,441評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡日月，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,925評(píng)論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年袱瓮，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片爱咬。...
茶點(diǎn)故事閱讀 38,018評(píng)論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡尺借，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出精拟，到底是詐尸還是另有隱情燎斩，我是刑警寧澤，帶...
沈念sama閱讀 33,685評(píng)論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布蜂绎，位于F島的核電站栅表，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏师枣。R本人自食惡果不足惜怪瓶，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,234評(píng)論 3贊 307
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望践美。院中可真熱鬧洗贰，春花似錦、人聲如沸陨倡。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 30,240評(píng)論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)兴革。三九已至绎晃，卻和暖如春蜜唾，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背庶艾。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 31,464評(píng)論 1贊 261
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工袁余，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人落竹。一個(gè)月前我還...
沈念sama閱讀 45,467評(píng)論 2贊 352
代替公主和親
正文我出身青樓泌霍，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親述召。傳聞我的和親對(duì)象是個(gè)殘疾皇子朱转，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,762評(píng)論 2贊 345