7.1 Hier geht es drum, ein Mehrebenenannotationsmodell zu entwickeln, was hei?t. dass die Annotation über alle linguistischen Ebenen hinweg erfolgt.?
7.2 Datenaufbereitung: Im ersten Schritt wurden die Prim?rdaten automatisch mit dem Webtagger tokenisiert, getaggt und lemmatisiert. WebTagger ist eine Weiterentwicklung des TreeTaggers und wurde spezifisch für die Aufbereitung von Webkommentaren entwickelt. Dabei wurden die Tokenisierungs- und Taggingsregeln angepasst. Dazu werden themenspezifische Lexika genutzt. Drin ist festghalten, welche Wortformen und Tags ein Wort annehmen kann.?
7.3 Ebenen des Mehrebenenannotationsmodells
Die Auf der morphosyntaktischen Ebene getaggten Daten bilden die Basis der Mehrebenenannotation. Für die weitere Annotation werden die getaggten Dateien in den Partitur Editor EXMARaLDA (steht online frei zur Verfügung). Die Daten werden auf der Text- und Metadatenebenen annotiert.
Der Umfang einer Annotation ist die Anzahl der Token, der mit einem Tag annotiert werden dürfen. Es werden fünf Tokenumf?nge unterschieden: 1)Token als eine Einheit. 2) Mehrere Token wie Phrasen. 3) Satzteile 4) ganze S?tze 5) Satzübergreifende Annotationen. Für jedes Tag des Modells wurde einzeln definiert, wie gro? der Tokenumfang sein darf. Die Annotationsrichtlinien sind wie folgt im Annotationsschema notiert.?
7.3.1 Metadatenebene
Unten ist das Tagset für die Annotation kontextbezogener Metadaten
7.3.2? Textebene
Bezogen auf den Kommentartext werden sieben Annotationsebenen unterschieden:
Bei der Definition der Analysekategorien werden textmusterbezogene Merkmale modelliert und bestehende Ans?tze aus der Literatur adaptiert.?
Auf der morphologischen Ebene werden Tags zur Auszeichnung von Flexion und Wortbildung vergeben. Abkürzung, Akronyme, Anglizismen, Enklise, Klitisierung, Kompositum, Netzjargon, Reduktion des Adressatenpronomens, e-Tilgung werden auf dieser Ebene annotiert.?
Auf der syntaktischen Ebene wird die Struktur des Blogkommentars annotiert. Da werden drei Subebenen unterschieden: Satz, Absatz und Text. Die Annotation auf der Text- und Absatzebene gibt die Textstruktur wieder, sie kann u.a. dienlich sein, um Verwendungsregularit?ten von Bewertungshandlungen zu identifizieren.?
Auf der lexikalisch-semantischen Ebene werden themenbezogene Lexeme annotiert. Die identifizierten themenbezogenen Lexeme k?nnen für die Erstellung themenspezifischer Lexika verwendet werden und bilden die Basis für die Annotation von Bewertungskomponenten.?
Auf der pragmatischen Ebene werden Bewertungshandlungen und Komponenten des Bewertungskonzepts annotiert. Die bewertungshandlungsanzeigenden Mittel werden im Folgenden als Indikatoren beschrieben. Es werden sprachliche, korpusbezogene und polarit?tsbezogene Indikatoren unterschieden.?
Auf der Polarit?tsebene werden drei Typen unterschieden: Token, Multitoken, Satz: Auf der Tokenebene werden die Polarit?ten einzelner Einheiten annotiert (dadurch kann herausgefunden werden, welche Bewertungsgegenst?nde wie bewertet werden. Auf der Multitoken-Ebene wird die Polarit?t der Phrasen annotiert. Immer dann, wenn auf der Tokenebene ein oder mehrere Token ausgezeichnet wurden, erfolgt in den meisten F?llen die Annotation auf der Multitokenebene. Bei der bottom-up Polarit?tsbestimmung werden die zuvor auf den zwei Ebenen ausgzeichneten Satzteile berücksichtigt. Bei kontextbezogener Polarit?tsbestimmung wird der Kontext berücksichtigt.?
7.4 Fazit. Die verwendeten Tools WebTagger und EXMARalDA erwiesen sich als nützliche Werkzeuge bei der semi-automatischen Datenannotation von Blogkommentaren. Die manuelle Annotation des Mehrebenenannotationsmodells in EXMARaLDA erlaubt die Einführung von Annotationsebenen als auch das vertikale Lesen der Ebenenannotation zu Zwecken der Feststellung von Mehrheitsentscheidungen und Ableitung des Goldstandards. Eine Automatisierung der Toolfunktionen ist für die stark regelbasierten und weniger interpretativen Ebenen, wie die graphematische, morphologische, syntaktische, lexikalisch-semantische und Polarit?t_Token Ebene denkbar. Stark interpretative Ebene, wie etwa die Ebenen Bewertungshandlung, Bewertungskonzept. Polarit?tssatz und rhetorische Mittel sind maschinell nur eingeschr?nkt verarbeitbar.??