5 Sentiment Analysis

5.1 Setiment Analysis ist eine spezielle Anwendung von Methoden der NLP zur Erfassung von Meinungen, Bewertungen und Polarit?ten in (gro?en) Textkorpora über die "Bestimmung der semantischen Orientierung von W?rtern, Phrasen und Texten" (Klenner 2009)

-- ------- Technische Probleme und Herausforderungen:?

a: Objektidentifikation: Ein typischer L?sungsweg ist ein dom?nspezifisches Lexikon, das alle relevanten Begriffe eines Themenbereichs listet.?

b. Merkmalsextraktion und Synonymgruppen: Zu diesem Zweck werden in Webtexten nach Nomen und nominalen Phrasen gesucht.?

c, Explikationsgrad: Bewertungen k?nnen explizit oder implizit formuliert sein (Liu 2010, Zhang 1995). Das gr??te Problem ist, dass die Polarit?t des Satzes bei impliziten ?u?erungen meist nicht bestimmt werden kann, da die verwendete Worte in einem Satz keine eindeutige Polarit?t aufweisen. Die Polarit?t des Satzes ist nur mit Kontextwissen identifizierbar. Die automatische Identifikation und Analyse von Bewertungen wird in S?tzen mit expliziter Bewertung bzw. mit eindeutigen Polarit?tsw?rtern erleichtert.?

d. Polarit?t: Die Identifikation der Polarit?t ist schwierig, kann durch dom?n-bzw. themenspezifische Polarit?tsbegrifflisten verbessert werden. Ein weiteres Problem ist die Disambiguierung von Begriffen: billig kann sowohl positiv als auch negativ konnotiert sein. L?sungen k?nnen sein: die manuelle Disambiguierung; das Anlegen umfangreicher lexikalischer Datenbank mit Synsets; Ein drittes Problem betrifft die Rekonstruktion der Polarit?t in vergleichenden S?tzen, weil sie meist keine Polarit?tsausdrücke enthalten, h?ufig muss anhand des Kontextes entschieden werden, ob eine Bewertung eher positiv oder negativ gemeint ist.?

---------- L?sungsans?tze: Ressourcen, Ans?tze, Verfahren:

a. Ressourcen: Verfahren und Ans?tze der Sentiment Analysis greifen bei der Verarbeitung von Textdaten auf unterschiedliche Ressourcen zurück. Dies sind in der Regel lexikalische Datenbanken, dom?nspezifische W?rterbücher und Trainingskorpora.?

Lexikalische Datenbanken: Für die Analyse deutscher Texte wurden die Datenbanken SentiWordNet und SentiWS entwickelt. SentiWordNet ist die erste lexikalische Datenbank und eine Weiterentwicklung der englischsprachigen Datenbank WordNet. Sie enthalten Synsets für die Wortarten Nomen, Adjektiv, Verb und Adverb mit den Polarit?ten positiv, negativ oder objektiv. In der Korpusanalyse werden satzweise die enthaltenen Nomen, Verben, Adverben und Adjektive ins Englische übersetzt und hinsichtlich ihres Polarit?tsgrades bestimmt. Der Durchschnitt aller Polarit?tsgrade ergibt die Satzpolarit?t. (Problem: Die Performanz des Klassifikationsalgorithmus sei relativ gering; die Güte der übersetzung sei fraglich); SentiWS ist eine deutschsprachige lexikalische Datenbank, die 1650 als genativ bewertend und 1818 als positiv bewertende POS-getaggte W?rter umfassen. Jedes Wort ist hinsichtlich seines Polarit?tsgrades mit einem numerischen Wert zwischen -1 und 1 versehen. Die SentiWS befindet sich noch in der Entwicklungsphase. Momentan ist SentiWS die einzige deutsche lexikalische Datenbank für Sentiment Analysis.?

b. Empirie-Probleme: Methoden der Text Mining bieten L?sungsans?tze für die semi-automatische Analyse sprachlichen Bewertens. Die Analysemethoden variieren im Granularit?tsgrad und der Analysetiefe. Je nach Annotationsebene k?nnen Verarbeitungsprobleme auftreten. Als ebenenübergreifendes Problem gilt die Ambiguit?t. Analysemethoden des Text Mining werden bereits für die Untersuchung sprachlichen Bewertens genutzt. Es muss geprüft werden, inwiefern existierende Ans?tze für die Analyse sprachlichen Bewertens in Kommentaren genutzt werden k?nnen und wie der theoretisch-methodische Ans?tze mit Methoden der Computerlinguistik und der Sentiment Analysis verknüpft werden kann.?

--- Quelle: Bewerten im Blogkommentaren.?

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末码撰,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌朵栖,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,734評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件陨溅,死亡現(xiàn)場離奇詭異,居然都是意外死亡门扇,警方通過查閱死者的電腦和手機(jī)雹有,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,931評論 3 394
  • 文/潘曉璐 我一進(jìn)店門臼寄,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人吉拳,你說我怎么就攤上這事质帅『衔洌” “怎么了?”我有些...
    開封第一講書人閱讀 164,133評論 0 354
  • 文/不壞的土叔 我叫張陵稼跳,是天一觀的道長。 經(jīng)常有香客問我汤善,道長什猖,這世上最難降的妖魔是什么红淡? 我笑而不...
    開封第一講書人閱讀 58,532評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮在旱,結(jié)果婚禮上摇零,老公的妹妹穿的比我還像新娘桶蝎。我一直安慰自己,他們只是感情好登渣,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,585評論 6 392
  • 文/花漫 我一把揭開白布噪服。 她就那樣靜靜地躺著胜茧,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上雹顺,一...
    開封第一講書人閱讀 51,462評論 1 302
  • 那天,我揣著相機(jī)與錄音嬉愧,去河邊找鬼带到。 笑死英染,一個胖子當(dāng)著我的面吹牛被饿,可吹牛的內(nèi)容都是我干的四康。 我是一名探鬼主播狭握,決...
    沈念sama閱讀 40,262評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼论颅!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起恃疯,我...
    開封第一講書人閱讀 39,153評論 0 276
  • 序言:老撾萬榮一對情侶失蹤漏设,失蹤者是張志新(化名)和其女友劉穎今妄,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體盾鳞,經(jīng)...
    沈念sama閱讀 45,587評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡犬性,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,792評論 3 336
  • 正文 我和宋清朗相戀三年腾仅,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片推励。...
    茶點(diǎn)故事閱讀 39,919評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡鹤耍,死狀恐怖吹艇,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情受神,我是刑警寧澤抛猖,帶...
    沈念sama閱讀 35,635評論 5 345
  • 正文 年R本政府宣布,位于F島的核電站财著,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏撑教。R本人自食惡果不足惜朝墩,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,237評論 3 329
  • 文/蒙蒙 一伟姐、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧愤兵,春花似錦鹿霸、人聲如沸秆乳。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,855評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽肛冶。三九已至扯键,卻和暖如春睦袖,著一層夾襖步出監(jiān)牢的瞬間忧陪,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,983評論 1 269
  • 我被黑心中介騙來泰國打工嘶摊, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留延蟹,地道東北人叶堆。 一個月前我還...
    沈念sama閱讀 48,048評論 3 370
  • 正文 我出身青樓,卻偏偏與公主長得像虱颗,于是被迫代替她去往敵國和親沥匈。 傳聞我的和親對象是個殘疾皇子忘渔,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,864評論 2 354

推薦閱讀更多精彩內(nèi)容