有限馬爾科夫決策過程

增強學習的方法就是用來解決馬爾科夫決策過程惕澎。馬爾科夫決策過程描述的是agent和environment的交互過程。

image.png

在時間序列0,1,..t,的時候淤袜,agent獲得環(huán)境的狀態(tài)St,然后選擇動作At摘悴,然后會做出反應,環(huán)境返回一個reward持偏,R(t+1)。而agent依據(jù)一個規(guī)則選擇action氨肌,這個規(guī)則就叫做policy鸿秆,記做pi(a|s). agent的目標是最大化一個長期的total reward。定義為Gt:

image.png

在馬爾科夫決策過程中怎囚,時間序列會在某個狀態(tài)中斷卿叽,比如說贏了游戲,走出迷宮桩了。這個序列定義為episode. 有些沒有自然斷開的序列附帽,叫做continuing tasks。在實際的應用中井誉,返回的收益是隨著時間衰減的蕉扮,叫做discounted return:


image.png

而agent在做出action的時候,往往優(yōu)化的是discount return颗圣。

馬爾科夫特性

馬爾科夫過程中喳钟,state表示過去的所有的相關的信息。A state signal that succeeds in retaining all relevant
information is said to be Markov, or to have the Markov property在岂。

馬爾科夫決策過程定義:

A reinforcement learning task that satisfies the Markov property is called a Markov
decision process, or MDP. If the state and action spaces are finite, then it is called a
finite Markov decision process (finite MDP)

value function

all reinforcement learning algorithms involve estimating value functions---functions of states (or of state-action pairs) that estimate how good it is for the agent to be in a given state.

image.png

表示的是在policy pi下奔则,在state s的value值
同理可知,在state s蔽午,policy pi易茬,采取action a的情況下的value值:

image.png

動態(tài)規(guī)劃可知value function的迭代公式:

image.png

圖標看起來更清晰:

image.png

最優(yōu)value function

在所有的策略中,有一個策略在所有的狀態(tài)中及老,value值都大于等于其他策略抽莱,這個策略成為最優(yōu)策略〗径瘢或者一組最優(yōu)策略食铐,最優(yōu)策略都遵循相同的value function

最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市僧鲁,隨后出現(xiàn)的幾起案子虐呻,更是在濱河造成了極大的恐慌,老刑警劉巖寞秃,帶你破解...
    沈念sama閱讀 217,907評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件斟叼,死亡現(xiàn)場離奇詭異,居然都是意外死亡春寿,警方通過查閱死者的電腦和手機犁柜,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,987評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來堂淡,“玉大人馋缅,你說我怎么就攤上這事扒腕。” “怎么了萤悴?”我有些...
    開封第一講書人閱讀 164,298評論 0 354
  • 文/不壞的土叔 我叫張陵瘾腰,是天一觀的道長。 經(jīng)常有香客問我覆履,道長蹋盆,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,586評論 1 293
  • 正文 為了忘掉前任硝全,我火速辦了婚禮栖雾,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘伟众。我一直安慰自己析藕,他們只是感情好,可當我...
    茶點故事閱讀 67,633評論 6 392
  • 文/花漫 我一把揭開白布凳厢。 她就那樣靜靜地躺著账胧,像睡著了一般。 火紅的嫁衣襯著肌膚如雪先紫。 梳的紋絲不亂的頭發(fā)上治泥,一...
    開封第一講書人閱讀 51,488評論 1 302
  • 那天,我揣著相機與錄音遮精,去河邊找鬼居夹。 笑死,一個胖子當著我的面吹牛本冲,可吹牛的內(nèi)容都是我干的准脂。 我是一名探鬼主播,決...
    沈念sama閱讀 40,275評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼眼俊,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了粟关?” 一聲冷哼從身側(cè)響起疮胖,我...
    開封第一講書人閱讀 39,176評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎闷板,沒想到半個月后澎灸,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,619評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡遮晚,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,819評論 3 336
  • 正文 我和宋清朗相戀三年性昭,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片县遣。...
    茶點故事閱讀 39,932評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡糜颠,死狀恐怖汹族,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情其兴,我是刑警寧澤顶瞒,帶...
    沈念sama閱讀 35,655評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站元旬,受9級特大地震影響榴徐,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜匀归,卻給世界環(huán)境...
    茶點故事閱讀 41,265評論 3 329
  • 文/蒙蒙 一坑资、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧穆端,春花似錦袱贮、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,871評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至狡赐,卻和暖如春窑业,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背枕屉。 一陣腳步聲響...
    開封第一講書人閱讀 32,994評論 1 269
  • 我被黑心中介騙來泰國打工常柄, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人搀擂。 一個月前我還...
    沈念sama閱讀 48,095評論 3 370
  • 正文 我出身青樓西潘,卻偏偏與公主長得像,于是被迫代替她去往敵國和親哨颂。 傳聞我的和親對象是個殘疾皇子喷市,可洞房花燭夜當晚...
    茶點故事閱讀 44,884評論 2 354

推薦閱讀更多精彩內(nèi)容

  • 一. 增強學習簡介 1.1 什么是增強學習? 機器學習的算法可以分為三類:監(jiān)督學習威恼,非監(jiān)督學習和增強學習品姓。 增強學...
    阿阿阿阿毛閱讀 31,161評論 0 25
  • 請看原文強化學習讀書筆記 - 03 - 有限馬爾科夫決策過程
    綠巨人Steven閱讀 231評論 0 1
  • 前面的文章主要從理論的角度介紹了自然語言人機對話系統(tǒng)所可能涉及到的多個領域的經(jīng)典模型和基礎知識。這篇文章箫措,甚至之后...
    我偏笑_NSNirvana閱讀 13,909評論 2 64
  • 幾天作業(yè)雖少腹备,但做到九點多才全做完。困死我了斤蔓!今天好想跟爸爸媽媽睡一起植酥,爸爸說要開空調(diào),涼快!
    79977dcb2506閱讀 420評論 0 0
  • 不知道為什么 兩年一直很喪 一直感覺自己好low 太差勁了 做什么都不行 什么都堅持不下來 學習也不努力 等等等等...
    onlyCF閱讀 129評論 0 0