7 Fallstudie 2: Hauptuntersuchung

7.1 Hier geht es drum, ein Mehrebenenannotationsmodell zu entwickeln, was hei?t. dass die Annotation über alle linguistischen Ebenen hinweg erfolgt.?

7.2 Datenaufbereitung: Im ersten Schritt wurden die Prim?rdaten automatisch mit dem Webtagger tokenisiert, getaggt und lemmatisiert. WebTagger ist eine Weiterentwicklung des TreeTaggers und wurde spezifisch für die Aufbereitung von Webkommentaren entwickelt. Dabei wurden die Tokenisierungs- und Taggingsregeln angepasst. Dazu werden themenspezifische Lexika genutzt. Drin ist festghalten, welche Wortformen und Tags ein Wort annehmen kann.?

7.3 Ebenen des Mehrebenenannotationsmodells

Die Auf der morphosyntaktischen Ebene getaggten Daten bilden die Basis der Mehrebenenannotation. Für die weitere Annotation werden die getaggten Dateien in den Partitur Editor EXMARaLDA (steht online frei zur Verfügung). Die Daten werden auf der Text- und Metadatenebenen annotiert.

Der Umfang einer Annotation ist die Anzahl der Token, der mit einem Tag annotiert werden dürfen. Es werden fünf Tokenumf?nge unterschieden: 1)Token als eine Einheit. 2) Mehrere Token wie Phrasen. 3) Satzteile 4) ganze S?tze 5) Satzübergreifende Annotationen. Für jedes Tag des Modells wurde einzeln definiert, wie gro? der Tokenumfang sein darf. Die Annotationsrichtlinien sind wie folgt im Annotationsschema notiert.?

7.3.1 Metadatenebene

Unten ist das Tagset für die Annotation kontextbezogener Metadaten

7.3.2? Textebene

Bezogen auf den Kommentartext werden sieben Annotationsebenen unterschieden:

Bei der Definition der Analysekategorien werden textmusterbezogene Merkmale modelliert und bestehende Ans?tze aus der Literatur adaptiert.?

Auf der morphologischen Ebene werden Tags zur Auszeichnung von Flexion und Wortbildung vergeben. Abkürzung, Akronyme, Anglizismen, Enklise, Klitisierung, Kompositum, Netzjargon, Reduktion des Adressatenpronomens, e-Tilgung werden auf dieser Ebene annotiert.?

Auf der syntaktischen Ebene wird die Struktur des Blogkommentars annotiert. Da werden drei Subebenen unterschieden: Satz, Absatz und Text. Die Annotation auf der Text- und Absatzebene gibt die Textstruktur wieder, sie kann u.a. dienlich sein, um Verwendungsregularit?ten von Bewertungshandlungen zu identifizieren.?

Auf der lexikalisch-semantischen Ebene werden themenbezogene Lexeme annotiert. Die identifizierten themenbezogenen Lexeme k?nnen für die Erstellung themenspezifischer Lexika verwendet werden und bilden die Basis für die Annotation von Bewertungskomponenten.?

Auf der pragmatischen Ebene werden Bewertungshandlungen und Komponenten des Bewertungskonzepts annotiert. Die bewertungshandlungsanzeigenden Mittel werden im Folgenden als Indikatoren beschrieben. Es werden sprachliche, korpusbezogene und polarit?tsbezogene Indikatoren unterschieden.?

Auf der Polarit?tsebene werden drei Typen unterschieden: Token, Multitoken, Satz: Auf der Tokenebene werden die Polarit?ten einzelner Einheiten annotiert (dadurch kann herausgefunden werden, welche Bewertungsgegenst?nde wie bewertet werden. Auf der Multitoken-Ebene wird die Polarit?t der Phrasen annotiert. Immer dann, wenn auf der Tokenebene ein oder mehrere Token ausgezeichnet wurden, erfolgt in den meisten F?llen die Annotation auf der Multitokenebene. Bei der bottom-up Polarit?tsbestimmung werden die zuvor auf den zwei Ebenen ausgzeichneten Satzteile berücksichtigt. Bei kontextbezogener Polarit?tsbestimmung wird der Kontext berücksichtigt.?

7.4 Fazit. Die verwendeten Tools WebTagger und EXMARalDA erwiesen sich als nützliche Werkzeuge bei der semi-automatischen Datenannotation von Blogkommentaren. Die manuelle Annotation des Mehrebenenannotationsmodells in EXMARaLDA erlaubt die Einführung von Annotationsebenen als auch das vertikale Lesen der Ebenenannotation zu Zwecken der Feststellung von Mehrheitsentscheidungen und Ableitung des Goldstandards. Eine Automatisierung der Toolfunktionen ist für die stark regelbasierten und weniger interpretativen Ebenen, wie die graphematische, morphologische, syntaktische, lexikalisch-semantische und Polarit?t_Token Ebene denkbar. Stark interpretative Ebene, wie etwa die Ebenen Bewertungshandlung, Bewertungskonzept. Polarit?tssatz und rhetorische Mittel sind maschinell nur eingeschr?nkt verarbeitbar.??

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末环壤,一起剝皮案震驚了整個(gè)濱河市谱净,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌颅拦,老刑警劉巖缕坎,帶你破解...
    沈念sama閱讀 216,692評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件怖侦,死亡現(xiàn)場離奇詭異,居然都是意外死亡念赶,警方通過查閱死者的電腦和手機(jī)础钠,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,482評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來叉谜,“玉大人,你說我怎么就攤上這事踩萎⊥>郑” “怎么了?”我有些...
    開封第一講書人閱讀 162,995評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵香府,是天一觀的道長董栽。 經(jīng)常有香客問我,道長企孩,這世上最難降的妖魔是什么锭碳? 我笑而不...
    開封第一講書人閱讀 58,223評(píng)論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮勿璃,結(jié)果婚禮上擒抛,老公的妹妹穿的比我還像新娘。我一直安慰自己补疑,他們只是感情好歧沪,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,245評(píng)論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著莲组,像睡著了一般诊胞。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上锹杈,一...
    開封第一講書人閱讀 51,208評(píng)論 1 299
  • 那天撵孤,我揣著相機(jī)與錄音迈着,去河邊找鬼。 笑死邪码,一個(gè)胖子當(dāng)著我的面吹牛裕菠,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播霞扬,決...
    沈念sama閱讀 40,091評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼糕韧,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了喻圃?” 一聲冷哼從身側(cè)響起萤彩,我...
    開封第一講書人閱讀 38,929評(píng)論 0 274
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎斧拍,沒想到半個(gè)月后雀扶,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,346評(píng)論 1 311
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡肆汹,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,570評(píng)論 2 333
  • 正文 我和宋清朗相戀三年愚墓,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片昂勉。...
    茶點(diǎn)故事閱讀 39,739評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡浪册,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出岗照,到底是詐尸還是另有隱情村象,我是刑警寧澤,帶...
    沈念sama閱讀 35,437評(píng)論 5 344
  • 正文 年R本政府宣布攒至,位于F島的核電站厚者,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏迫吐。R本人自食惡果不足惜库菲,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,037評(píng)論 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望志膀。 院中可真熱鬧熙宇,春花似錦、人聲如沸梧却。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,677評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽放航。三九已至烈拒,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背荆几。 一陣腳步聲響...
    開封第一講書人閱讀 32,833評(píng)論 1 269
  • 我被黑心中介騙來泰國打工吓妆, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人吨铸。 一個(gè)月前我還...
    沈念sama閱讀 47,760評(píng)論 2 369
  • 正文 我出身青樓行拢,卻偏偏與公主長得像,于是被迫代替她去往敵國和親诞吱。 傳聞我的和親對(duì)象是個(gè)殘疾皇子舟奠,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,647評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容