馬爾可夫屬性(The Markov Property)
說到馬爾可夫決策過程例诀,我們先來談談什么是馬爾可夫屬性。馬爾可夫屬性的概念為:下一個狀態(tài)或獎勵僅僅與當前的動作或狀態(tài)有關悔橄,與歷史(過去)的選擇無關荧呐,即,
馬爾可夫決策過程
馬爾可夫決策過程即為在滿足馬爾可夫屬性的前提下,進行強化學習的過程。也就是說,在馬爾可夫決策過程中挫鸽,要有強化學習的組成部分(如:policy, action, reward等)。
列1: (垃圾回收機器人)
垃圾回收機器人基于自己電池的含量來決定相應的動作鸥跟。當電量很高的時候丢郊,機器人可以在路上到處尋找垃圾來進行回收盔沫,也可以呆在原地不動,等著人類把垃圾送進自己的肚囊枫匾。如果電量很低的話架诞,機器人可以選擇去充電,也可以選擇呆在原地不動干茉,同時谴忧,仍然可以選擇花費更多的電力去得到垃圾。
機器人在不同的狀態(tài)下采取不同的動作會得到相應的獎勵角虫。如圖所示:
根據表格可知沾谓,第一列表示的是當前的狀態(tài),第二列表示的是執(zhí)行動作之后的狀態(tài)戳鹅,a表示的是動作搏屑,倒數(shù)第二列代表執(zhí)行相應動作的概率,也就是transition state probability粉楚。最后一列代表采取該行動贏得的獎勵。若當前狀態(tài)為low亮垫,且仍然執(zhí)行search動作導致機器人沒電模软,需要人為充電的話,其reward為-3饮潦。
該馬爾可夫決策過程圖如下所示:
空心的圓點代表回收機器人的電池狀態(tài)(state)燃异,實心圓點代表機器人所做的動作(action)。
值函數(shù)(Value Functions)
上一節(jié)我們已經說過继蜡,值函數(shù)是用來評估Agent做的有多好回俐。其值函數(shù)的評判標準有兩個。第一個是根據所在的狀態(tài)來評判Agent做的好壞(state value)稀并,另外一個則是在給出狀態(tài)和動作的條件下來評判Agent做的好壞(action value)仅颇。
首先,我們先來說一說第一則評判準則(State Value)碘举,其公式為:
第二則評判準則(Action Value)忘瓦,其公式如下:
兩項評判準則的后推圖(Backup,并不是備份的意思引颈,我們可以將其理解為deep learning中的Backpropagation的含義)如下所示:
圖中空心圓代表的是狀態(tài)(state)耕皮,實心圓代表的是動作(action),s代表的是當前的狀態(tài)蝙场,s'代表的是采取行動a之后的狀態(tài)凌停,a'的含義雷同。由以上公式可知售滤,我們所求的是在特定狀態(tài)和動作條件下相應的期望(期望大部分用平均值來表示)罚拟。因此,在Backup Diagram中,每一個節(jié)點都存在著多個分叉(即多個可能性)舟舒。
我們先來看State Value Function拉庶,它的注意力主要集中在轉變狀態(tài)之后所得到的回報。State Value Function公式根據Bellman Equation推導秃励,最終得到由三部分組成氏仗,其依次分別為policy公式(表示在s狀態(tài)下采取a行動的概率)、transition-state probability公式(表示在s狀態(tài)下采取a行動之后轉變成s'狀態(tài)并得到回報值r的概率)和回報值(reward)夺鲜。根據公式可以看出皆尔,當前狀態(tài)下的State Value需要通過下一個狀態(tài)s'的State Value來計算得到。因此币励,我們就需要用到后推算法(Backup)來進行更新慷蠕,即如上圖所示。
Action Value Function與此類似食呻,不同之處在于其主要考慮采取行動時得到的回報流炕。同理,Action Value Function也可以通過Bellman Equation來進行推導(下一節(jié)會講到)仅胞,最終得到的公式同樣與下一個動作a'得到的回報有關每辟。
最優(yōu)值函數(shù)(Optimal Value Functions)
上一節(jié)中,我們已經知道了如何去求我們的Value Functions干旧。那得到最優(yōu)值其實也就是去尋找其相應函數(shù)的最大值渠欺,即:
Reference
1. Reinforcement Learning An Introduction