#David Silver Reinforcement Learning # 筆記2-MDP

這節(jié)課同樣講的一些基礎(chǔ)概念远剩,為之后的課程做鋪墊扑浸。

馬爾科夫過(guò)程(Markov Processes)

S是一個(gè)有限的狀態(tài)集合
P是state之間的轉(zhuǎn)移矩陣 Pss‘ = P [St+1 = s’ | St = s]
那么馬爾科夫過(guò)程就是<S,P>

馬爾科夫獎(jiǎng)勵(lì)過(guò)程(Markov Reward Process,MRP)

馬爾科夫獎(jiǎng)勵(lì)過(guò)程就是在馬爾科夫過(guò)程的基礎(chǔ)上添加了獎(jiǎng)勵(lì)機(jī)制屁奏。
同樣:
S是一個(gè)有限的狀態(tài)集合
P是state之間的轉(zhuǎn)移矩陣
R 是一個(gè)reward function, Rs = E [Rt+1 | St = s]
γ 是一個(gè)折扣因子,取值范圍 [0赖条,1]
馬爾科夫獎(jiǎng)勵(lì)過(guò)程就是 <S,P,R,γ>

定義Return Gt:

image.png

當(dāng)前時(shí)刻開(kāi)始失乾,到達(dá)到最終狀態(tài)所得到的所有獎(jiǎng)勵(lì)之和。
那么折扣因子是什么纬乍?為什么需要折扣因子碱茁?
γ 通俗點(diǎn)解釋,表示有多在乎未來(lái)的獎(jiǎng)勵(lì)仿贬。γ 越大表示越在意未來(lái)的獎(jiǎng)勵(lì)纽竣,γ 越小,越在乎當(dāng)下的收益茧泪,比如一些金融的交易蜓氨,更在乎當(dāng)下能有多少收益。
需要折扣因子的原因是1.避免return無(wú)限大队伟。2.數(shù)學(xué)上表示方便穴吹。3.我們對(duì)我們的模型沒(méi)有足夠的信心,我們并不完全相信我們之后的決定 嗜侮。

值函數(shù)(Value Function)

我們?nèi)绾卧u(píng)價(jià)我們的模型當(dāng)前的選擇是否好呢港令?
我們可以用值函數(shù)來(lái)評(píng)估獎(jiǎng)勵(lì),通過(guò)獎(jiǎng)勵(lì)來(lái)評(píng)估選擇的好壞锈颗,人們最終需要達(dá)到的是獎(jiǎng)勵(lì)最大的過(guò)程顷霹。從當(dāng)前狀態(tài)出發(fā),有一個(gè)轉(zhuǎn)移概率轉(zhuǎn)移到下一個(gè)狀態(tài)击吱,那么哪條路比較好呢淋淀?用哪一條路來(lái)作為在當(dāng)前狀態(tài)到最終狀態(tài)的獎(jiǎng)勵(lì)呢?答案是都不行姨拥。我們需要用一個(gè)定量來(lái)評(píng)估绅喉,而這個(gè)定量就是平均值,所有可能的路徑之和叫乌,也就是期望 來(lái)作為評(píng)分函數(shù)柴罐。所以:

image.png

假如路徑已經(jīng)確定,那么不必考慮概率的問(wèn)題憨奸,直接用Reward和折扣因子計(jì)算Return 就可以革屠。

Bellman 方程

image.png

就是一個(gè)動(dòng)態(tài)規(guī)劃的問(wèn)題,將元問(wèn)題解釋為子問(wèn)題一步一步的迭代排宰。
有了Bellman方程似芝,值函數(shù)就可以用矩陣的形式進(jìn)行計(jì)算。
v = R + γPv

image.png

加入方程很小的化板甘,可以直接求出來(lái)v党瓮。v = Inverse(I ? γP)R

馬爾科夫決策過(guò)程(Markov Decision Process,MDP)

同理盐类,馬爾科夫決策過(guò)程是在馬爾科夫獎(jiǎng)勵(lì)過(guò)程的基礎(chǔ)上添加了action集
馬爾科夫決策過(guò)程是<S,A,P,R, γ>

image.png

有了action寞奸,就有了策略policy呛谜。policy是狀態(tài)s下action的分布。


image.png

其實(shí)action和state一樣都可以看作是一個(gè)狀態(tài)枪萄,policy π 就是一個(gè)狀態(tài)轉(zhuǎn)移矩陣
但是因?yàn)閍ction被賦予了不同的物理意義隐岛,所以在通常狀態(tài)下action和state是明顯的兩個(gè)概念。

值函數(shù)

那么有了新的規(guī)約瓷翻,值函數(shù)的意義也發(fā)生變化聚凹,

image.png

表示從狀態(tài)s開(kāi)始,遵循π的情況下的值函數(shù)齐帚。
同樣增加了action-value fnction妒牙。

image.png

同理,兩者的 bellman 方程:

image.png

矩陣形式:

image.png

最后童谒,有了狀態(tài)值函數(shù)和動(dòng)作值函數(shù)单旁,那么最優(yōu)的值函數(shù)就是分?jǐn)?shù)最大的那個(gè)
最優(yōu)的狀態(tài)值函數(shù)就是 在所有的policy中 值最大的那個(gè)。
最優(yōu)的動(dòng)作值函數(shù)就是在所有的policy中值最大的那個(gè)饥伊。
知道了最優(yōu)的值函數(shù)之后象浑,MDP的問(wèn)題就解決了。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末琅豆,一起剝皮案震驚了整個(gè)濱河市愉豺,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌茫因,老刑警劉巖蚪拦,帶你破解...
    沈念sama閱讀 217,084評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異冻押,居然都是意外死亡驰贷,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,623評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門洛巢,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)括袒,“玉大人,你說(shuō)我怎么就攤上這事稿茉∏旅蹋” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 163,450評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵漓库,是天一觀的道長(zhǎng)恃慧。 經(jīng)常有香客問(wèn)我,道長(zhǎng)渺蒿,這世上最難降的妖魔是什么痢士? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,322評(píng)論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮茂装,結(jié)果婚禮上良瞧,老公的妹妹穿的比我還像新娘陪汽。我一直安慰自己训唱,他們只是感情好褥蚯,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,370評(píng)論 6 390
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著况增,像睡著了一般赞庶。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上澳骤,一...
    開(kāi)封第一講書(shū)人閱讀 51,274評(píng)論 1 300
  • 那天歧强,我揣著相機(jī)與錄音,去河邊找鬼为肮。 笑死摊册,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的颊艳。 我是一名探鬼主播茅特,決...
    沈念sama閱讀 40,126評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼棋枕!你這毒婦竟也來(lái)了白修?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 38,980評(píng)論 0 275
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤重斑,失蹤者是張志新(化名)和其女友劉穎兵睛,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體窥浪,經(jīng)...
    沈念sama閱讀 45,414評(píng)論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡祖很,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,599評(píng)論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了漾脂。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片假颇。...
    茶點(diǎn)故事閱讀 39,773評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖符相,靈堂內(nèi)的尸體忽然破棺而出拆融,到底是詐尸還是另有隱情,我是刑警寧澤啊终,帶...
    沈念sama閱讀 35,470評(píng)論 5 344
  • 正文 年R本政府宣布镜豹,位于F島的核電站,受9級(jí)特大地震影響蓝牲,放射性物質(zhì)發(fā)生泄漏趟脂。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,080評(píng)論 3 327
  • 文/蒙蒙 一例衍、第九天 我趴在偏房一處隱蔽的房頂上張望昔期。 院中可真熱鬧已卸,春花似錦、人聲如沸硼一。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,713評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)般贼。三九已至愧哟,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間哼蛆,已是汗流浹背蕊梧。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,852評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留腮介,地道東北人肥矢。 一個(gè)月前我還...
    沈念sama閱讀 47,865評(píng)論 2 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像叠洗,于是被迫代替她去往敵國(guó)和親甘改。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,689評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容