2018-07-28-論文閱讀(1)-Learning Ensembled for Structured Prediction Rules

在高人的指點之下準備開始海量讀論文,計劃本系列完成ACL,EMNLP,NAACL最近五年來的全部論文添坊。希望有所收獲圆到,啦啦啦!

1. Learning Ensembled for Structured Prediction Rules

1.1 -1st PASS

①論文類型

??嘖嘖揍拆,第一篇論文就不是熟悉的領域。這篇論文提出了新的算法茶凳,并且對老算法進行了調研和比較嫂拴。

②問題領域

??這篇論文是針對集成學習提出的新算法播揪。試圖通過新的算法,將集成學習能夠應用到新的研究潮流中筒狠。

③假設正確性討論

??該論文最重要的假設就是將一類任務統(tǒng)一看做是結構化輸出的任務猪狈,集成學習僅僅針對這個結構化的輸出結果,而和前面的模型訓練過程無關辩恼。這個假設大大的簡化了集成學習的難度雇庙。有了這個前提,統(tǒng)一的集成學習的框架將會成為可能灶伊。其實這個假設可以進行一下擴展疆前,我們知道啊,在現(xiàn)在的問題中聘萨,比如序列標注竹椒,我們高大上的訓練模型不僅僅可以給出標注的結果,甚至是可以給出標注的概率的匈挖。那么我們如果采用論文中的假設的話,就沒有辦法充分利用這一部分信息咯康愤。

??另外一個假設是輸出的整體損失是子結構的損失之和儡循。這個假設在大多數(shù)結構化輸出的任務中都是成立的。

??還有一個隱藏的假設征冷,就是我們用于集成學習的模型(專家)是各有所長的择膝。每個人對于某一個子結構的預測能力是不一樣的。這個假設就要求我們在構造這些專家的時候盡量采用不同的模型检激,模型的差距越大越好肴捉。

??還有一個小假設吧,就是每個輸出的子結構的個數(shù)都是一樣的叔收。這個呢是為了方便說明問題才做這樣的假設的齿穗,完全可以采用不等長的子結構。算法的過程是完全一樣的饺律。

④主要貢獻

??本文的基本思想是:在當今的研究潮流中窃页,預測問題的結果已經不再是原本的分類或者回歸問題了。而是更多的涉及到結構化的結果复濒,比如語音識別和序列標注等等脖卖。以序列標注為例,我們如今面臨的任務是給整個序列每個基本單元都貼上標簽巧颈。

??想象一下畦木,如果我們采用原本的集成學習的方法,把這個問題當做分類問題砸泛,那么預測空間將會非常龐大十籍。集成策略如果采用傳統(tǒng)的“投票”的方式的話蛆封,訓練5個模型,每個模型對這個序列進行一下標注妓雾,然后把標注的結果進行投票娶吞。這是沒有意義的,因為從結果來說械姻,很有可能最終每個模型都給出了不同的標注方案妒蛇,一人一票,沒有意義楷拳。但是绣夺,同時我們注意到,每個模型雖然標注的結果都不一樣欢揖,但是每個模型的標注都是有意義的陶耍,就像5個專家,說的雖然不一定一致吧她混,但是各有各的道理烈钞,所以急需一種新的算法能夠將集成學習應用到這類新問題上來,將每個“專家”的意見取其精華去其糟粕坤按。

??在這樣的背景下毯欣,這篇論文提出了新的算法,主要具有以下幾個貢獻:

????1.歸一處理臭脓。將不同的任務泛化成同樣的抽象任務酗钞,該論文在不了解任何任務背景的情況下建立起一套統(tǒng)一的集成學習框架,因此可以說是徹底的任務無關的来累。以前的隨機森林等方法砚作,都是只能針對特定的任務,或者說是特定的學習模型嘹锁,在該論文提出的方法中將不存在這種限制葫录。

????2.充分利用子結構信息的集成。正如前面提到的领猾,這篇論文充分利用了結構化的輸出中的子結構的信息压昼,即從各個專家的話中獲取有用的信息進行集成,而不是像傳統(tǒng)的方法一樣進行粗粒度的簡單集成瘤运。同時窍霞,區(qū)別貪心算法,貪心算法并沒有辦法保證整個序列的最優(yōu)性拯坟。

????3.非基于概率的但金。傳統(tǒng)的集成學習大多是基于概率的模型,而一旦基于概率郁季,該模型將會變得非常復雜冷溃。在該論文中并沒有任何和概率相關的內容钱磅。

1.2 -2nd PASS

??啊哈哈哈。似枕。盖淡。這個圖叫“線上學習”(on-line)哎。凿歼。差點被忽悠了褪迟!這個模型的大概意思呢是很簡單的。我們認為呀答憔,每個專家對不同的子結構的預測能力是不一樣的味赃,那么就各司其職唄。我們從這些專家的話中綜合出來一個path_expert.舉例來說虐拓,有五個專家心俗,有六個子結構,每個專家都對序列做了標注蓉驹,那么就會最多可以出現(xiàn)6的5次方種不同的標注方法(說是最多因為可能存在意見相同的時候)城榛,然后根據(jù)損失函數(shù)進行選擇一個就好啦。文章中還提到啦态兴,這樣的模型能夠做到綜合各個專家的意見狠持,而不是最后就是選了某一個人的意見作為判別啦。

image.png

??這個方法簡單吧诗茎。但是效率低哇工坊!怎么辦献汗?敢订?論文提出了batch方法,包括基于WMWP和基于FPL方法的兩種方案罢吃。其中前者是該論文的研究重點楚午。

??基于WMWP的方法呢也很簡單。既然不能遍歷的話就引入概率唄尿招。這就簡單啦矾柜。按照指定的概率選擇path_expert作為最終的標注序列【兔眨可以看出來啦怪蔑,這里最關鍵的就是這個概率啦。不說也知道丧荐,這個概率一定和預測的好壞程度成正比 咯缆瓣。猜的越好我們就優(yōu)先按這個來,損失越小就是猜的越好虹统。但是這樣的話效率沒有提高弓坞,這時使用了關鍵的轉換,序列的損失是單個子結構損失之和隧甚。所以我們只需要計算有限數(shù)量的單個損失,然后把每個序列的損失加出來就行了渡冻。這樣就從指數(shù)復雜度O(n2)變成了線性復雜度O(n)戚扳。

1.3 -3rd PASS

??這個算法可以說是很簡單啦,具體的思維重現(xiàn)結果如下。需要注意族吻,算法輸入是黑箱訓練模型提供的標注帽借,輸出是集成之后的序列標注。

image.png

image.png
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末呼奢,一起剝皮案震驚了整個濱河市宜雀,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌握础,老刑警劉巖辐董,帶你破解...
    沈念sama閱讀 216,651評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異禀综,居然都是意外死亡简烘,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,468評論 3 392
  • 文/潘曉璐 我一進店門定枷,熙熙樓的掌柜王于貴愁眉苦臉地迎上來孤澎,“玉大人,你說我怎么就攤上這事欠窒「残瘢” “怎么了?”我有些...
    開封第一講書人閱讀 162,931評論 0 353
  • 文/不壞的土叔 我叫張陵岖妄,是天一觀的道長型将。 經常有香客問我,道長荐虐,這世上最難降的妖魔是什么七兜? 我笑而不...
    開封第一講書人閱讀 58,218評論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮福扬,結果婚禮上腕铸,老公的妹妹穿的比我還像新娘。我一直安慰自己铛碑,他們只是感情好狠裹,可當我...
    茶點故事閱讀 67,234評論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著汽烦,像睡著了一般涛菠。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,198評論 1 299
  • 那天碗暗,我揣著相機與錄音颈将,去河邊找鬼。 笑死言疗,一個胖子當著我的面吹牛晴圾,可吹牛的內容都是我干的。 我是一名探鬼主播噪奄,決...
    沈念sama閱讀 40,084評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼死姚,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了勤篮?” 一聲冷哼從身側響起都毒,我...
    開封第一講書人閱讀 38,926評論 0 274
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎碰缔,沒想到半個月后账劲,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經...
    沈念sama閱讀 45,341評論 1 311
  • 正文 獨居荒郊野嶺守林人離奇死亡金抡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,563評論 2 333
  • 正文 我和宋清朗相戀三年瀑焦,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片梗肝。...
    茶點故事閱讀 39,731評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡榛瓮,死狀恐怖,靈堂內的尸體忽然破棺而出巫击,到底是詐尸還是另有隱情禀晓,我是刑警寧澤,帶...
    沈念sama閱讀 35,430評論 5 343
  • 正文 年R本政府宣布坝锰,位于F島的核電站粹懒,受9級特大地震影響,放射性物質發(fā)生泄漏什黑。R本人自食惡果不足惜崎淳,卻給世界環(huán)境...
    茶點故事閱讀 41,036評論 3 326
  • 文/蒙蒙 一堪夭、第九天 我趴在偏房一處隱蔽的房頂上張望愕把。 院中可真熱鬧,春花似錦森爽、人聲如沸恨豁。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,676評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽橘蜜。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間计福,已是汗流浹背跌捆。 一陣腳步聲響...
    開封第一講書人閱讀 32,829評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留象颖,地道東北人佩厚。 一個月前我還...
    沈念sama閱讀 47,743評論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像说订,于是被迫代替她去往敵國和親抄瓦。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,629評論 2 354

推薦閱讀更多精彩內容

  • 各種機器學習的應用場景分別是什么陶冷?例如钙姊,k近鄰,貝葉斯,決策樹埂伦,svm煞额,邏輯斯蒂回歸和最大熵模型。 如何評價Pyt...
    hzyido閱讀 1,412評論 0 7
  • 昨天的雨帶給我們了一場濕濕的天氣沾谜。我們現(xiàn)在心情也是濕濕的立镶。
    雄安志源閱讀 153評論 0 0
  • 文/常子沐 01. 2014年7月31日媚媒,是一個特殊的日子。 彼時涩僻,我剛失戀幾個月缭召,那幾個月里我絲毫沒有失戀的痛苦...
    麋鹿不說話閱讀 303評論 2 3
  • 早睡早起 7/7 早晚洗臉 7/7 跑步 4/7 有聲讀書 斯坦福的人生設計 樊登讀書 親密...
    多悠閱讀 144評論 0 0
  • 《幸福的方法》一書中提到了幸福深度的概念。首先了解一下幸福的高度和深度的區(qū)別逆日。幸福的高度是指我們生活中體驗到的情緒...
    春寒1215閱讀 498評論 0 0