Beam_search集束搜索

1.算法描述

Beam Search算法是以較少的代價在相對受限的搜索空間中找出其最優(yōu)解,得出的解接近于整個搜索空間中的最優(yōu)解侦副。
Beam Search算法一般分為兩部分:

  • 路徑搜索:是指在受限空間中檢索出所有路徑
  • 路徑打分:是指對某一條路徑進(jìn)行評估打分

Beam Search的一般步驟為:

  • 初始化beam_size個序列污它,序列均為空剖踊,這些序列稱之為beam paths;
  • 取下一個Frame的前N個候選值(N一般為beam size或者更大衫贬,F(xiàn)rame內(nèi)部侯選值已按照概率倒序排列)德澈,與已存在的beam paths組合形成N * beam_size條路徑,稱之為prob_paths固惯;
  • 對prob_paths進(jìn)行打分梆造,取前beam_size個prob_path作為新的beam paths;
    若解碼結(jié)束在完成算法葬毫,否則回到2镇辉。

注意:

beam_search只在test的時候需要。

2. motivation動機(jī)

(1)encoder-decoder框架

encoder-decoder.png
  • Encoder部分是一個兩層的LSTM 神經(jīng)網(wǎng)絡(luò)贴捡,這個神經(jīng)網(wǎng)絡(luò)不做任何輸出忽肛,只輸出最后一步的h,c,我們可以理解這個h,c 是已經(jīng)總結(jié)了的輸入信息烂斋;
  • Decoder部分也是一個兩層的LSTM 神經(jīng)網(wǎng)絡(luò)屹逛,并且其隱藏層h,c 的初始值為Encoder 部分輸出的h,c箍镜,然后在Decoder 部分進(jìn)行翻譯。

注意在Encoder 部分每一步并不預(yù)測任何東西煎源,其初始的h,c 為全零向量,并且與Decoder 是完全不同的參數(shù)香缺。

(2)Beam Search

Mismatch between Train and Test

首先需要注意到模型訓(xùn)練和模型預(yù)測是兩個不同的過程手销,在訓(xùn)練時,我們知道每一步真正的reference图张,而在預(yù)測時是不知道每一步的reference 的锋拖。


encoder過程.png

在上圖的網(wǎng)絡(luò)結(jié)構(gòu)中,都是以上一時刻真正的reference 作為下一時刻的input 來訓(xùn)練模型祸轮。但是在預(yù)測階段我們是不知道reference 的兽埃,我們可以嘗試這樣做,把上一次的輸出作為下一次的輸入适袜。
如果一步錯柄错,可能步步錯,造成嚴(yán)重后果


不適用beam-search的可能后果.png

3. 代碼講解

未完待續(xù)……

4.改進(jìn)

論文1:A Simple, Fast Diverse Decoding Algorithm for Neural Generation

作者:Jiwei Li, Will Monroe and Dan Jurafsky
單位:Stanford
關(guān)鍵詞:seq2seq, diversity, RL
文章來源:arXiv, 2016
問題:seq2seq模型decoder時改進(jìn)beam search苦酱,引入懲罰因子影響排序結(jié)果售貌,并加入強(qiáng)化學(xué)習(xí)模型來自動學(xué)習(xí)diversity rate,使得解碼出的結(jié)果更具多樣性
模型改進(jìn):對比標(biāo)準(zhǔn)beam search疫萤,本模型引入懲罰因子颂跨。


模型.png
論文2:DIVERSE BEAM SEARCH: DECODING DIVERSE SOLUTIONS FROM NEURAL SEQUENCE MODELS

作者:
Ashwin K Vijayakumar, Michael Cogswell, Ramprasath R. Selvaraju, Qing Sun1 Stefan Lee, David Crandall & Dhruv Batra
單位:
Virginia Tech, Blacksburg, VA, USA
Indiana University, Bloomington, IN, USA
關(guān)鍵詞:
Beam Search; Diversity; Image Caption; Machine Translation; Visual Question Answer; Chatbot
文章來源:
arXiv, 2016.10
問題:
如何改進(jìn)beam search解碼算法,使其在seq2seq模型中可以生成更加豐富的結(jié)果扯饶?
模型:
經(jīng)典的beam search算法以最大后驗概率作為優(yōu)化目標(biāo)函數(shù)恒削,每一個time step只保留B個最優(yōu)的狀態(tài),是一種典型的貪心算法尾序,這個經(jīng)典算法常常被用于解碼可選狀態(tài)數(shù)量多的情形钓丰,比如生成對話、生成圖片描述每币、機(jī)器翻譯等斑粱,每一步都有詞表大小的可選狀態(tài)集。seq2seq模型的流行脯爪,讓這種解碼算法的研究變得熱門则北。在生成對話任務(wù)時,用經(jīng)典的beam search會生成類似“我不知道”等這種沒有營養(yǎng)的對話痕慢,雖然沒有語法上的錯誤尚揣,而且可能在一定的評價體系內(nèi)會得到不錯的分?jǐn)?shù),但實際應(yīng)用效果太差掖举,因此diversity的研究變得熱門快骗。
本文針對diversity的問題,提出了一種改進(jìn)版的beam search算法,旨在生成更加多樣性的話方篮。
新算法的主要思路是將經(jīng)典算法中的Beam進(jìn)行分組名秀,通過引入一個懲罰機(jī)制,使得每一組的相似度盡量低藕溅,這一項保證了生成的話相互之間差異更大一些匕得,即滿足了多樣性的需求,在每一組Beam中巾表,用經(jīng)典的算法進(jìn)行優(yōu)化搜索汁掠。具體的算法流程如下圖:


image.png
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市集币,隨后出現(xiàn)的幾起案子考阱,更是在濱河造成了極大的恐慌,老刑警劉巖鞠苟,帶你破解...
    沈念sama閱讀 217,509評論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件乞榨,死亡現(xiàn)場離奇詭異,居然都是意外死亡当娱,警方通過查閱死者的電腦和手機(jī)姜凄,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,806評論 3 394
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來趾访,“玉大人态秧,你說我怎么就攤上這事《笮” “怎么了申鱼?”我有些...
    開封第一講書人閱讀 163,875評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長云头。 經(jīng)常有香客問我捐友,道長,這世上最難降的妖魔是什么溃槐? 我笑而不...
    開封第一講書人閱讀 58,441評論 1 293
  • 正文 為了忘掉前任匣砖,我火速辦了婚禮,結(jié)果婚禮上昏滴,老公的妹妹穿的比我還像新娘猴鲫。我一直安慰自己,他們只是感情好谣殊,可當(dāng)我...
    茶點故事閱讀 67,488評論 6 392
  • 文/花漫 我一把揭開白布拂共。 她就那樣靜靜地躺著,像睡著了一般姻几。 火紅的嫁衣襯著肌膚如雪宜狐。 梳的紋絲不亂的頭發(fā)上势告,一...
    開封第一講書人閱讀 51,365評論 1 302
  • 那天,我揣著相機(jī)與錄音抚恒,去河邊找鬼咱台。 笑死,一個胖子當(dāng)著我的面吹牛俭驮,可吹牛的內(nèi)容都是我干的回溺。 我是一名探鬼主播,決...
    沈念sama閱讀 40,190評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼表鳍,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了祥诽?” 一聲冷哼從身側(cè)響起譬圣,我...
    開封第一講書人閱讀 39,062評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎雄坪,沒想到半個月后厘熟,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,500評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡维哈,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,706評論 3 335
  • 正文 我和宋清朗相戀三年绳姨,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片阔挠。...
    茶點故事閱讀 39,834評論 1 347
  • 序言:一個原本活蹦亂跳的男人離奇死亡飘庄,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出购撼,到底是詐尸還是另有隱情跪削,我是刑警寧澤,帶...
    沈念sama閱讀 35,559評論 5 345
  • 正文 年R本政府宣布迂求,位于F島的核電站碾盐,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏揩局。R本人自食惡果不足惜毫玖,卻給世界環(huán)境...
    茶點故事閱讀 41,167評論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望凌盯。 院中可真熱鬧付枫,春花似錦、人聲如沸驰怎。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,779評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽砸西。三九已至叶眉,卻和暖如春址儒,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背衅疙。 一陣腳步聲響...
    開封第一講書人閱讀 32,912評論 1 269
  • 我被黑心中介騙來泰國打工莲趣, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人饱溢。 一個月前我還...
    沈念sama閱讀 47,958評論 2 370
  • 正文 我出身青樓喧伞,卻偏偏與公主長得像,于是被迫代替她去往敵國和親绩郎。 傳聞我的和親對象是個殘疾皇子潘鲫,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,779評論 2 354

推薦閱讀更多精彩內(nèi)容