QMDP-Net閱讀記錄

記錄一下自己所看的論文俺抽,后續(xù)會繼續(xù)更新一些model-based的論文閱讀記錄若未,歡迎交流禾怠、討論(emmmmm恩商,我實在才疏學(xué)淺)变逃。

論文:P Karkus,?D Hsu,?WS Lee,” Qmdp-net: Deep learning for planning under partial observability”,NIPS 2017

是一篇Initation Learning的論文(并不是DRL)。

有以下兩個特點:

a怠堪、將貝葉斯濾波器和QMDP算法嵌入到一個RNN中揽乱,解決一個POMDP問題(主要是導(dǎo)航規(guī)劃的問題)

b、是一個end-to-end算法粟矿,預(yù)測專家的輸出



1凰棉、POMDP(部分觀察馬爾可夫決策過程)

與MDP的差異在于agent僅有觀察o\in O,而無法獲知完整的狀態(tài)信息(環(huán)境的狀態(tài)無法被直接感知到)。論文中例子如下:


原作者示例

如果不使用GPS陌粹,在導(dǎo)航中撒犀,agent對環(huán)境的認(rèn)識顯然是局部的、部分的掏秩。

一個POMDP模型可以被定義為(S,A,O,T,Z,R):

S:有限的狀態(tài)空間或舞,A:有限的動作空間,O:有限的觀察空間蒙幻。

T:狀態(tài)-動作轉(zhuǎn)移概率映凳,即p(s'|s,a),也稱之為動力學(xué)模型杆煞。Z:條件觀測模型魏宽,p(o|s)。R:狀態(tài)-動作的獎勵决乎,就是獎勵函數(shù)队询。

置信度分布(belief):它表示對環(huán)境狀態(tài)的置信度的分布:b(s)=p(s)。有一種觀點是將POMDP作為一個置信-狀態(tài)的MDP(Belief-State MDP)构诚。

2蚌斩、貝葉斯濾波器和QMDP

POMDP算法是較為復(fù)雜的,QMDP是一種簡單的近似POMDP算法范嘱,算法如下:

QMDP算法

b(s)為置信度分布送膳,它的更新策略為貝葉斯濾波器:

貝葉斯濾波器

結(jié)合這兩個算法,我們就能夠較為清晰的看明白論文中的網(wǎng)絡(luò)結(jié)構(gòu)了丑蛤。

3叠聋、QMDP-net

網(wǎng)絡(luò)結(jié)構(gòu)

網(wǎng)絡(luò)結(jié)構(gòu)如上圖所示,ft受裹、fa碌补、fz、fo棉饶、f‘t厦章、fpi均為神經(jīng)網(wǎng)絡(luò),ft和f’t為卷積神經(jīng)網(wǎng)絡(luò)照藻,實質(zhì)擬合的是環(huán)境動力學(xué)袜啃,fa、fo對動作幸缕、觀察進(jìn)行編碼群发,主要為了統(tǒng)一輸入維度。fz擬合的是狀態(tài)-觀察分布发乔,原文使用的是CNN也物。fpi將q值計算結(jié)果轉(zhuǎn)換為策略,使用的并不是決定性策略列疗,所以它是一個分布函數(shù)滑蚯,原文使用softmax函數(shù)。K定義了值迭代的次數(shù)抵栈,過大則增加網(wǎng)絡(luò)的深度告材,但在訓(xùn)練和執(zhí)行時可以使用不同的K。

(a)為貝葉斯濾波器模型古劲,(b)為QMDP規(guī)劃模型斥赋,顯然與前面描述的算法是一致的。

損失使用交叉熵?fù)p失函數(shù)产艾,計算專家的輸出與agent的輸出的交叉熵疤剑。

4滑绒、推薦閱讀

(1)http://dai.fmph.uniba.sk/~petrovic/probrob 的ch15(POMDP)、ch16(近似POMDP)隘膘,這本書不錯疑故。

(2)S?Thrun,W?Burgard,D?Fox“Probabilistic robotics”,chapter 2介紹狀態(tài)的定義,貝葉斯濾波器弯菊,不過這一章關(guān)于貝葉斯濾波器的介紹與論文角度不太一樣纵势。

(3)建議讀一讀源代碼。論文中有鏈接管钳。

轉(zhuǎn)載钦铁,請注明出處,謝謝才漆。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末牛曹,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子醇滥,更是在濱河造成了極大的恐慌躏仇,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,270評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件腺办,死亡現(xiàn)場離奇詭異焰手,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)怀喉,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,489評論 3 395
  • 文/潘曉璐 我一進(jìn)店門书妻,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人躬拢,你說我怎么就攤上這事躲履。” “怎么了聊闯?”我有些...
    開封第一講書人閱讀 165,630評論 0 356
  • 文/不壞的土叔 我叫張陵工猜,是天一觀的道長。 經(jīng)常有香客問我菱蔬,道長篷帅,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,906評論 1 295
  • 正文 為了忘掉前任拴泌,我火速辦了婚禮魏身,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘蚪腐。我一直安慰自己箭昵,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,928評論 6 392
  • 文/花漫 我一把揭開白布回季。 她就那樣靜靜地躺著家制,像睡著了一般正林。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上颤殴,一...
    開封第一講書人閱讀 51,718評論 1 305
  • 那天觅廓,我揣著相機(jī)與錄音,去河邊找鬼诅病。 笑死,一個胖子當(dāng)著我的面吹牛粥烁,可吹牛的內(nèi)容都是我干的贤笆。 我是一名探鬼主播,決...
    沈念sama閱讀 40,442評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼讨阻,長吁一口氣:“原來是場噩夢啊……” “哼芥永!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起钝吮,我...
    開封第一講書人閱讀 39,345評論 0 276
  • 序言:老撾萬榮一對情侶失蹤埋涧,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后奇瘦,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體棘催,經(jīng)...
    沈念sama閱讀 45,802評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,984評論 3 337
  • 正文 我和宋清朗相戀三年耳标,在試婚紗的時候發(fā)現(xiàn)自己被綠了醇坝。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,117評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡次坡,死狀恐怖呼猪,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情砸琅,我是刑警寧澤宋距,帶...
    沈念sama閱讀 35,810評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站症脂,受9級特大地震影響谚赎,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜诱篷,卻給世界環(huán)境...
    茶點故事閱讀 41,462評論 3 331
  • 文/蒙蒙 一沸版、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧兴蒸,春花似錦视粮、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,011評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽笑撞。三九已至,卻和暖如春钓觉,著一層夾襖步出監(jiān)牢的瞬間茴肥,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,139評論 1 272
  • 我被黑心中介騙來泰國打工荡灾, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留瓤狐,地道東北人。 一個月前我還...
    沈念sama閱讀 48,377評論 3 373
  • 正文 我出身青樓批幌,卻偏偏與公主長得像础锐,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子荧缘,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,060評論 2 355