今天上午睡了一上午穗慕,下午和小伙伴們?nèi)ビ懻揗OOC學(xué)術(shù)社團(tuán)的事情了,剛洗完澡都快十一點(diǎn)了妻导,所以今天就只看看摘要和Intro吧逛绵。
Large-Scale Sentiment Analysis for News and Blogs
摘要
報(bào)紙、博客能夠反映新發(fā)生事件的觀點(diǎn)倔韭,因?yàn)樗麄儓?bào)道最近發(fā)生的事情术浪。我們的系統(tǒng)進(jìn)行正面負(fù)面分析。
簡介
有好新聞和壞新聞寿酌,但它們很少是中性的(和巴黎南大學(xué)那個(gè)觀點(diǎn)正好沖突嘛)胰苏。雖然完全理解文字語言的技術(shù)現(xiàn)在還無法用機(jī)器完成,統(tǒng)計(jì)上的簡單情感分析卻依舊很有意義醇疼。
本文以Lydia文字分析系統(tǒng)為基礎(chǔ)硕并。
(Lydia文字分析系統(tǒng)的論文http://link.springer.com/chapter/10.1007%2F11575832_18)
本文討論的側(cè)面如下:
輿情字典的算法結(jié)構(gòu):我們利用WordNet中的近反義詞來把我們的小列表擴(kuò)充。(WordNet是由Princeton 大學(xué)的心理學(xué)家秧荆,語言學(xué)家和計(jì)算機(jī)工程師聯(lián)合設(shè)計(jì)的一種基于認(rèn)知語言學(xué)的英語詞典倔毙。它不是光把單詞以字母順序排列,而且按照單詞的意義組成一個(gè)“單詞的網(wǎng)絡(luò)”乙濒。)
情感指數(shù)公式:主要利用情感詞匯疊加和世界情感等級插值技術(shù)陕赃。
重要性評價(jià):主要是用實(shí)際生活中的例子來驗(yàn)證。
研究背景
研究技術(shù)主要有兩方面,生成情感詞典凯正,以及整文分析。
情感指向
Hatzivassiloglou and McKeown的研究假設(shè)用and連接的形容詞為近義詞豌蟋、而but連接的為反義詞廊散。(中文里可以用“而且/并且”和“但是”之類的代替)這樣可以用一個(gè)很小的列表拓展出很大的詞庫。
Wiebe不僅研究詞語的極性梧疲,還研究了他們的等級(程度)允睹。主要用統(tǒng)計(jì)方法。
Kim and Hovy則使用了WordNet幌氮。他們假設(shè)同近義詞/反義詞都有一樣/相反的極性缭受,而一個(gè)詞語的近義詞的極性比率則表示了他們的極性程度,而在一定極性一下的詞語則為中性和不清楚该互。
情感分析系統(tǒng)
Pang, Lee and Vaithyanathan的電影情感分析系統(tǒng)的正確率大約83%米者。
Nasukawa and Yi的論文則更能識別local sentiment(區(qū)域性情感)。即分對象地分析情感宇智,如對一個(gè)照相機(jī)的評價(jià)可能是指向其電池蔓搞、鏡頭等部件。
我們的系統(tǒng)更快更好地完成了上述任務(wù)随橘。
That's all for today. See you tomorrow.
Kevin Ham@Wuhu
Department of Internet Engineering, Anhui Normal University, Wuhu, China
3.8.2015