5.1 Setiment Analysis ist eine spezielle Anwendung von Methoden der NLP zur Erfassung von Meinungen, Bewertungen und Polarit?ten in (gro?en) Textkorpora über die "Bestimmung der semantischen Orientierung von W?rtern, Phrasen und Texten" (Klenner 2009)
-- ------- Technische Probleme und Herausforderungen:?
a: Objektidentifikation: Ein typischer L?sungsweg ist ein dom?nspezifisches Lexikon, das alle relevanten Begriffe eines Themenbereichs listet.?
b. Merkmalsextraktion und Synonymgruppen: Zu diesem Zweck werden in Webtexten nach Nomen und nominalen Phrasen gesucht.?
c, Explikationsgrad: Bewertungen k?nnen explizit oder implizit formuliert sein (Liu 2010, Zhang 1995). Das gr??te Problem ist, dass die Polarit?t des Satzes bei impliziten ?u?erungen meist nicht bestimmt werden kann, da die verwendete Worte in einem Satz keine eindeutige Polarit?t aufweisen. Die Polarit?t des Satzes ist nur mit Kontextwissen identifizierbar. Die automatische Identifikation und Analyse von Bewertungen wird in S?tzen mit expliziter Bewertung bzw. mit eindeutigen Polarit?tsw?rtern erleichtert.?
d. Polarit?t: Die Identifikation der Polarit?t ist schwierig, kann durch dom?n-bzw. themenspezifische Polarit?tsbegrifflisten verbessert werden. Ein weiteres Problem ist die Disambiguierung von Begriffen: billig kann sowohl positiv als auch negativ konnotiert sein. L?sungen k?nnen sein: die manuelle Disambiguierung; das Anlegen umfangreicher lexikalischer Datenbank mit Synsets; Ein drittes Problem betrifft die Rekonstruktion der Polarit?t in vergleichenden S?tzen, weil sie meist keine Polarit?tsausdrücke enthalten, h?ufig muss anhand des Kontextes entschieden werden, ob eine Bewertung eher positiv oder negativ gemeint ist.?
---------- L?sungsans?tze: Ressourcen, Ans?tze, Verfahren:
a. Ressourcen: Verfahren und Ans?tze der Sentiment Analysis greifen bei der Verarbeitung von Textdaten auf unterschiedliche Ressourcen zurück. Dies sind in der Regel lexikalische Datenbanken, dom?nspezifische W?rterbücher und Trainingskorpora.?
Lexikalische Datenbanken: Für die Analyse deutscher Texte wurden die Datenbanken SentiWordNet und SentiWS entwickelt. SentiWordNet ist die erste lexikalische Datenbank und eine Weiterentwicklung der englischsprachigen Datenbank WordNet. Sie enthalten Synsets für die Wortarten Nomen, Adjektiv, Verb und Adverb mit den Polarit?ten positiv, negativ oder objektiv. In der Korpusanalyse werden satzweise die enthaltenen Nomen, Verben, Adverben und Adjektive ins Englische übersetzt und hinsichtlich ihres Polarit?tsgrades bestimmt. Der Durchschnitt aller Polarit?tsgrade ergibt die Satzpolarit?t. (Problem: Die Performanz des Klassifikationsalgorithmus sei relativ gering; die Güte der übersetzung sei fraglich); SentiWS ist eine deutschsprachige lexikalische Datenbank, die 1650 als genativ bewertend und 1818 als positiv bewertende POS-getaggte W?rter umfassen. Jedes Wort ist hinsichtlich seines Polarit?tsgrades mit einem numerischen Wert zwischen -1 und 1 versehen. Die SentiWS befindet sich noch in der Entwicklungsphase. Momentan ist SentiWS die einzige deutsche lexikalische Datenbank für Sentiment Analysis.?
b. Empirie-Probleme: Methoden der Text Mining bieten L?sungsans?tze für die semi-automatische Analyse sprachlichen Bewertens. Die Analysemethoden variieren im Granularit?tsgrad und der Analysetiefe. Je nach Annotationsebene k?nnen Verarbeitungsprobleme auftreten. Als ebenenübergreifendes Problem gilt die Ambiguit?t. Analysemethoden des Text Mining werden bereits für die Untersuchung sprachlichen Bewertens genutzt. Es muss geprüft werden, inwiefern existierende Ans?tze für die Analyse sprachlichen Bewertens in Kommentaren genutzt werden k?nnen und wie der theoretisch-methodische Ans?tze mit Methoden der Computerlinguistik und der Sentiment Analysis verknüpft werden kann.?
--- Quelle: Bewerten im Blogkommentaren.?