記錄一下自己所看的論文俺抽,后續(xù)會繼續(xù)更新一些model-based的論文閱讀記錄若未,歡迎交流禾怠、討論(emmmmm恩商,我實在才疏學(xué)淺)变逃。
論文:P Karkus,?D Hsu,?WS Lee,” Qmdp-net: Deep learning for planning under partial observability”,NIPS 2017
是一篇Initation Learning的論文(并不是DRL)。
有以下兩個特點:
a怠堪、將貝葉斯濾波器和QMDP算法嵌入到一個RNN中揽乱,解決一個POMDP問題(主要是導(dǎo)航規(guī)劃的問題)
b、是一個end-to-end算法粟矿,預(yù)測專家的輸出
1凰棉、POMDP(部分觀察馬爾可夫決策過程)
與MDP的差異在于agent僅有觀察,而無法獲知完整的狀態(tài)信息(環(huán)境的狀態(tài)無法被直接感知到)。論文中例子如下:
如果不使用GPS陌粹,在導(dǎo)航中撒犀,agent對環(huán)境的認(rèn)識顯然是局部的、部分的掏秩。
一個POMDP模型可以被定義為(S,A,O,T,Z,R):
S:有限的狀態(tài)空間或舞,A:有限的動作空間,O:有限的觀察空間蒙幻。
T:狀態(tài)-動作轉(zhuǎn)移概率映凳,即p(s'|s,a),也稱之為動力學(xué)模型杆煞。Z:條件觀測模型魏宽,p(o|s)。R:狀態(tài)-動作的獎勵决乎,就是獎勵函數(shù)队询。
置信度分布(belief):它表示對環(huán)境狀態(tài)的置信度的分布:b(s)=p(s)。有一種觀點是將POMDP作為一個置信-狀態(tài)的MDP(Belief-State MDP)构诚。
2蚌斩、貝葉斯濾波器和QMDP
POMDP算法是較為復(fù)雜的,QMDP是一種簡單的近似POMDP算法范嘱,算法如下:
b(s)為置信度分布送膳,它的更新策略為貝葉斯濾波器:
結(jié)合這兩個算法,我們就能夠較為清晰的看明白論文中的網(wǎng)絡(luò)結(jié)構(gòu)了丑蛤。
3叠聋、QMDP-net
網(wǎng)絡(luò)結(jié)構(gòu)如上圖所示,ft受裹、fa碌补、fz、fo棉饶、f‘t厦章、fpi均為神經(jīng)網(wǎng)絡(luò),ft和f’t為卷積神經(jīng)網(wǎng)絡(luò)照藻,實質(zhì)擬合的是環(huán)境動力學(xué)袜啃,fa、fo對動作幸缕、觀察進(jìn)行編碼群发,主要為了統(tǒng)一輸入維度。fz擬合的是狀態(tài)-觀察分布发乔,原文使用的是CNN也物。fpi將q值計算結(jié)果轉(zhuǎn)換為策略,使用的并不是決定性策略列疗,所以它是一個分布函數(shù)滑蚯,原文使用softmax函數(shù)。K定義了值迭代的次數(shù)抵栈,過大則增加網(wǎng)絡(luò)的深度告材,但在訓(xùn)練和執(zhí)行時可以使用不同的K。
(a)為貝葉斯濾波器模型古劲,(b)為QMDP規(guī)劃模型斥赋,顯然與前面描述的算法是一致的。
損失使用交叉熵?fù)p失函數(shù)产艾,計算專家的輸出與agent的輸出的交叉熵疤剑。
4滑绒、推薦閱讀
(1)http://dai.fmph.uniba.sk/~petrovic/probrob 的ch15(POMDP)、ch16(近似POMDP)隘膘,這本書不錯疑故。
(2)S?Thrun,W?Burgard,D?Fox“Probabilistic robotics”,chapter 2介紹狀態(tài)的定義,貝葉斯濾波器弯菊,不過這一章關(guān)于貝葉斯濾波器的介紹與論文角度不太一樣纵势。
(3)建議讀一讀源代碼。論文中有鏈接管钳。
轉(zhuǎn)載钦铁,請注明出處,謝謝才漆。