Neural Models for Sequence Chunking


論文:https://arxiv.org/pdf/1701.04027.pdf


亮點(diǎn):以前都是給每個(gè)字標(biāo)標(biāo)簽(sequence labeling),這篇文章是給每個(gè)chunk標(biāo)標(biāo)簽(sequence chunking)

In this paper, we propose an alternative approach by investigating the use of DNN for sequence chunk- ing, and propose three neural models so that each chunk can be treated as a complete unit for labeling.


Introduction

IOB scheme 不好:1)IOB是間接地學(xué)習(xí)chunks的范圍它改,沒(méi)有充分利用訓(xùn)練數(shù)據(jù);2)一些神經(jīng)網(wǎng)絡(luò)可以解碼出上下文信息但不能將每個(gè)chunk當(dāng)作一個(gè)單元
Sequence chunking把原先的sequence labeling task分為兩個(gè)子任務(wù):

  • Segmentation. 識(shí)別chunks的范圍
  • Labeling. 把識(shí)別出的每個(gè)chunk作為一個(gè)單元標(biāo)label

這篇文章依賴于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)取進(jìn)行分段房待,用了兩個(gè)方法:1)IOB labels;2)pointer networks and three neural sequence chunking models缀辩。第二種方法結(jié)果好岸啡。


Proposed Models (3個(gè))

  • Model 1
    先對(duì)每個(gè)字分類(lèi)鸵赖,分成三類(lèi) { I, O, B };然后再對(duì)每個(gè)chunk(B+I)取平均后分類(lèi)滚婉,分為chunk label图筹。若有錯(cuò)誤的,比如I在O的后面让腹,就把第一個(gè)I當(dāng)作B远剩。

    缺點(diǎn):?jiǎn)蝹€(gè)BLSTM可能不會(huì)在segmentation和labeling任務(wù)上表現(xiàn)的都很好

  • Model 2

    encoder-decoder framework
    encoder:BLSTM for segmentation with IOB labels,和model 1一樣骇窍。把頂層hidden作為句子表示特征 [hf_T, hb_1]瓜晤,用來(lái)初始化decoder LSTM。
    decoder:LSTM for labeling. 由三部分組成輸入:1)以每個(gè)chunk作為單個(gè)輸入腹纳,用CNNMax提取chunk中單詞的重要特征痢掠。2)chunk的context word embeddings;3)把encoder BLSTM的hidden取平均嘲恍。
    缺點(diǎn):IOB不能利用chunk-level特征足画,也不能直接比較不同的chunk。包括shift-reduce算法佃牛,都是將多分類(lèi)任務(wù)轉(zhuǎn)為三分類(lèi)任務(wù)淹辞。

  • Model 3

    Model 3. 黑色向下小箭頭是起始點(diǎn),紅色部分是終結(jié)點(diǎn)俘侠。decoder的輸入與model 2相同
    貪婪方法:一旦識(shí)別出一個(gè)chunk就label it象缀,直到所有字都處理了。
    因?yàn)閏hunks都是相連的爷速,我們知道當(dāng)前chunk的起始點(diǎn)就是上一個(gè)chunk的終結(jié)點(diǎn)的后一個(gè)字央星,因此只需要識(shí)別出當(dāng)前chunk結(jié)束點(diǎn)在哪 -> pointer network

    Pointer network
    在一個(gè)可能的chunk的起始點(diǎn),對(duì)之后m個(gè)字用Eq.(6)計(jì)算特征向量惫东,然后用Eq.(7)選取最大可能的字作為終結(jié)點(diǎn)莉给。

  • learning objective
    L = L_seg + L_label


Experiments

  • text chunking
    CoNLL 2000: 8936 training and 893 test, 12 labels
    只有model 3超過(guò)baseline(BLSTM)
  • **slot filling **
    ATIS: 4978 training and 893 test, 84 labels
    LARGE: (ATIS + MIT Restaurant + MIT Movie Corpus) 30229 training and 6810 test, 116 labels, 3 different domains.(提出者
    LARGE的詞匯量和chunk長(zhǎng)度都比較大,當(dāng)chunk長(zhǎng)度大的時(shí)候,三個(gè)模型都明顯表現(xiàn)不好
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末颓遏,一起剝皮案震驚了整個(gè)濱河市胁黑,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌州泊,老刑警劉巖丧蘸,帶你破解...
    沈念sama閱讀 218,546評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異遥皂,居然都是意外死亡力喷,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,224評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén)演训,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)弟孟,“玉大人,你說(shuō)我怎么就攤上這事样悟》髂迹” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 164,911評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵窟她,是天一觀的道長(zhǎng)陈症。 經(jīng)常有香客問(wèn)我,道長(zhǎng)震糖,這世上最難降的妖魔是什么录肯? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,737評(píng)論 1 294
  • 正文 為了忘掉前任,我火速辦了婚禮吊说,結(jié)果婚禮上论咏,老公的妹妹穿的比我還像新娘。我一直安慰自己颁井,他們只是感情好厅贪,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,753評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著雅宾,像睡著了一般养涮。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上秀又,一...
    開(kāi)封第一講書(shū)人閱讀 51,598評(píng)論 1 305
  • 那天单寂,我揣著相機(jī)與錄音贬芥,去河邊找鬼吐辙。 笑死,一個(gè)胖子當(dāng)著我的面吹牛蘸劈,可吹牛的內(nèi)容都是我干的昏苏。 我是一名探鬼主播,決...
    沈念sama閱讀 40,338評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼贤惯!你這毒婦竟也來(lái)了洼专?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,249評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤孵构,失蹤者是張志新(化名)和其女友劉穎屁商,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體颈墅,經(jīng)...
    沈念sama閱讀 45,696評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡蜡镶,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,888評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了恤筛。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片官还。...
    茶點(diǎn)故事閱讀 40,013評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖毒坛,靈堂內(nèi)的尸體忽然破棺而出望伦,到底是詐尸還是另有隱情,我是刑警寧澤煎殷,帶...
    沈念sama閱讀 35,731評(píng)論 5 346
  • 正文 年R本政府宣布屯伞,位于F島的核電站,受9級(jí)特大地震影響豪直,放射性物質(zhì)發(fā)生泄漏愕掏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,348評(píng)論 3 330
  • 文/蒙蒙 一顶伞、第九天 我趴在偏房一處隱蔽的房頂上張望饵撑。 院中可真熱鬧,春花似錦唆貌、人聲如沸滑潘。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,929評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)语卤。三九已至,卻和暖如春酪刀,著一層夾襖步出監(jiān)牢的瞬間粹舵,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,048評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工骂倘, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留眼滤,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,203評(píng)論 3 370
  • 正文 我出身青樓历涝,卻偏偏與公主長(zhǎng)得像诅需,于是被迫代替她去往敵國(guó)和親漾唉。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,960評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容