馬爾可夫決策過程

馬爾可夫屬性(The Markov Property)

說到馬爾可夫決策過程例诀,我們先來談談什么是馬爾可夫屬性。馬爾可夫屬性的概念為:下一個狀態(tài)或獎勵僅僅與當前的動作或狀態(tài)有關悔橄,與歷史(過去)的選擇無關荧呐,即,

馬爾可夫屬性

馬爾可夫決策過程

馬爾可夫決策過程即為在滿足馬爾可夫屬性的前提下,進行強化學習的過程。也就是說,在馬爾可夫決策過程中挫鸽,要有強化學習的組成部分(如:policy, action, reward等)。

列1: (垃圾回收機器人)

垃圾回收機器人基于自己電池的含量來決定相應的動作鸥跟。當電量很高的時候丢郊,機器人可以在路上到處尋找垃圾來進行回收盔沫,也可以呆在原地不動,等著人類把垃圾送進自己的肚囊枫匾。如果電量很低的話架诞,機器人可以選擇去充電,也可以選擇呆在原地不動干茉,同時谴忧,仍然可以選擇花費更多的電力去得到垃圾。

機器人在不同的狀態(tài)下采取不同的動作會得到相應的獎勵角虫。如圖所示:

垃圾回收機器人

根據表格可知沾谓,第一列表示的是當前的狀態(tài),第二列表示的是執(zhí)行動作之后的狀態(tài)戳鹅,a表示的是動作搏屑,倒數(shù)第二列代表執(zhí)行相應動作的概率,也就是transition state probability粉楚。最后一列代表采取該行動贏得的獎勵。若當前狀態(tài)為low亮垫,且仍然執(zhí)行search動作導致機器人沒電模软,需要人為充電的話,其reward為-3饮潦。

該馬爾可夫決策過程圖如下所示:

馬爾可夫決策過程

空心的圓點代表回收機器人的電池狀態(tài)(state)燃异,實心圓點代表機器人所做的動作(action)。

值函數(shù)(Value Functions)

上一節(jié)我們已經說過继蜡,值函數(shù)是用來評估Agent做的有多好回俐。其值函數(shù)的評判標準有兩個。第一個是根據所在的狀態(tài)來評判Agent做的好壞(state value)稀并,另外一個則是在給出狀態(tài)和動作的條件下來評判Agent做的好壞(action value)仅颇。

首先,我們先來說一說第一則評判準則(State Value)碘举,其公式為:

State Value Formula

第二則評判準則(Action Value)忘瓦,其公式如下:

Action Value Formula

兩項評判準則的后推圖(Backup,并不是備份的意思引颈,我們可以將其理解為deep learning中的Backpropagation的含義)如下所示:

Backup Diagram

圖中空心圓代表的是狀態(tài)(state)耕皮,實心圓代表的是動作(action),s代表的是當前的狀態(tài)蝙场,s'代表的是采取行動a之后的狀態(tài)凌停,a'的含義雷同。由以上公式可知售滤,我們所求的是在特定狀態(tài)和動作條件下相應的期望(期望大部分用平均值來表示)罚拟。因此,在Backup Diagram中,每一個節(jié)點都存在著多個分叉(即多個可能性)舟舒。

我們先來看State Value Function拉庶,它的注意力主要集中在轉變狀態(tài)之后所得到的回報。State Value Function公式根據Bellman Equation推導秃励,最終得到由三部分組成氏仗,其依次分別為policy公式(表示在s狀態(tài)下采取a行動的概率)、transition-state probability公式(表示在s狀態(tài)下采取a行動之后轉變成s'狀態(tài)并得到回報值r的概率)和回報值(reward)夺鲜。根據公式可以看出皆尔,當前狀態(tài)下的State Value需要通過下一個狀態(tài)s'的State Value來計算得到。因此币励,我們就需要用到后推算法(Backup)來進行更新慷蠕,即如上圖所示。

Action Value Function與此類似食呻,不同之處在于其主要考慮采取行動時得到的回報流炕。同理,Action Value Function也可以通過Bellman Equation來進行推導(下一節(jié)會講到)仅胞,最終得到的公式同樣與下一個動作a'得到的回報有關每辟。

最優(yōu)值函數(shù)(Optimal Value Functions)

上一節(jié)中,我們已經知道了如何去求我們的Value Functions干旧。那得到最優(yōu)值其實也就是去尋找其相應函數(shù)的最大值渠欺,即:

Optimal State Value
Optimal Action Value

Reference

1. Reinforcement Learning An Introduction

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市椎眯,隨后出現(xiàn)的幾起案子挠将,更是在濱河造成了極大的恐慌,老刑警劉巖编整,帶你破解...
    沈念sama閱讀 206,602評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件舔稀,死亡現(xiàn)場離奇詭異,居然都是意外死亡掌测,警方通過查閱死者的電腦和手機镶蹋,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,442評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來赏半,“玉大人贺归,你說我怎么就攤上這事《象铮” “怎么了拂酣?”我有些...
    開封第一講書人閱讀 152,878評論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長仲义。 經常有香客問我婶熬,道長剑勾,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,306評論 1 279
  • 正文 為了忘掉前任赵颅,我火速辦了婚禮虽另,結果婚禮上,老公的妹妹穿的比我還像新娘饺谬。我一直安慰自己捂刺,他們只是感情好,可當我...
    茶點故事閱讀 64,330評論 5 373
  • 文/花漫 我一把揭開白布募寨。 她就那樣靜靜地躺著族展,像睡著了一般。 火紅的嫁衣襯著肌膚如雪拔鹰。 梳的紋絲不亂的頭發(fā)上仪缸,一...
    開封第一講書人閱讀 49,071評論 1 285
  • 那天,我揣著相機與錄音列肢,去河邊找鬼恰画。 笑死,一個胖子當著我的面吹牛瓷马,可吹牛的內容都是我干的拴还。 我是一名探鬼主播,決...
    沈念sama閱讀 38,382評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼决采,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了坟奥?” 一聲冷哼從身側響起树瞭,我...
    開封第一講書人閱讀 37,006評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎爱谁,沒想到半個月后晒喷,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經...
    沈念sama閱讀 43,512評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡访敌,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 35,965評論 2 325
  • 正文 我和宋清朗相戀三年凉敲,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片寺旺。...
    茶點故事閱讀 38,094評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡爷抓,死狀恐怖,靈堂內的尸體忽然破棺而出阻塑,到底是詐尸還是另有隱情蓝撇,我是刑警寧澤,帶...
    沈念sama閱讀 33,732評論 4 323
  • 正文 年R本政府宣布陈莽,位于F島的核電站渤昌,受9級特大地震影響虽抄,放射性物質發(fā)生泄漏。R本人自食惡果不足惜独柑,卻給世界環(huán)境...
    茶點故事閱讀 39,283評論 3 307
  • 文/蒙蒙 一迈窟、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧忌栅,春花似錦车酣、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,286評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至者春,卻和暖如春破衔,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背钱烟。 一陣腳步聲響...
    開封第一講書人閱讀 31,512評論 1 262
  • 我被黑心中介騙來泰國打工晰筛, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人拴袭。 一個月前我還...
    沈念sama閱讀 45,536評論 2 354
  • 正文 我出身青樓读第,卻偏偏與公主長得像,于是被迫代替她去往敵國和親拥刻。 傳聞我的和親對象是個殘疾皇子怜瞒,可洞房花燭夜當晚...
    茶點故事閱讀 42,828評論 2 345

推薦閱讀更多精彩內容