目錄:
- 馬爾科夫過(guò)程
- 馬爾科夫獎(jiǎng)勵(lì)過(guò)程
- 馬爾科夫決策過(guò)程
- MDPs的拓展
1.馬爾科夫過(guò)程
Markov decision processes formally describe an environment for reinforcement learning, where the environment is fully ovservable.
大部分的RL問(wèn)題都能用MDPs來(lái)描述
- 最優(yōu)控制問(wèn)題可以描述成連續(xù)MDPs
- 部分觀測(cè)環(huán)境可以轉(zhuǎn)化成POMDPs
- 賭博機(jī)問(wèn)題是只有一個(gè)狀態(tài)的MDPs
1.1 馬爾科夫性質(zhì)(Markov Property)
"The future is independent of the past given the present".
下個(gè)狀態(tài)只與當(dāng)前狀態(tài)有關(guān),跟更前面的狀態(tài)無(wú)關(guān)。
定義:
如果在
t
時(shí)刻的狀態(tài)滿(mǎn)足如下燈飾泽谨,那么這個(gè)狀態(tài)被稱(chēng)為馬爾科夫狀態(tài),或者說(shuō)該狀態(tài)滿(mǎn)足馬爾科夫性
A state is Markov if and only if
- 狀態(tài)包含了所有歷史相關(guān)信息筒捺,所以無(wú)需再去了解之前的
- 數(shù)學(xué)上可以認(rèn)為坯门,當(dāng)前狀態(tài)是將來(lái)的充分統(tǒng)計(jì)量
所以,這里要求環(huán)境全觀測(cè)
舉例: - 下棋時(shí)颅眶,只用關(guān)心當(dāng)前局面(直接解殘局油讯,不需要)
- 打俄羅斯方塊時(shí)详民,只用關(guān)心當(dāng)前屏幕
有了馬爾科夫狀態(tài)之后延欠,我們可以
- 定義狀態(tài)轉(zhuǎn)移矩陣
- 忽略時(shí)間的影響
PS:馬爾科夫性和狀態(tài)的定義息息相關(guān)
1.2狀態(tài)轉(zhuǎn)移矩陣(State Transition Matrix)
狀態(tài)轉(zhuǎn)移概率只從一個(gè)馬爾科夫狀態(tài)
s
跳轉(zhuǎn)到后繼狀態(tài)s'
的概率
For a Markov states
and successor states'
, the state transition probability is defined by
所有的狀態(tài)組成行,所有的后繼狀態(tài)(successor)組成列阐斜,我們就可以得到狀態(tài)轉(zhuǎn)移矩陣
- n表示狀態(tài)的個(gè)數(shù)
- 每行元素相加等于1
當(dāng)然如果狀態(tài)太多衫冻,或者是無(wú)窮大(連續(xù)狀態(tài))時(shí),更適合用狀態(tài)轉(zhuǎn)移函數(shù)谒出,
此時(shí)隅俘,或
重要的事情說(shuō)三遍:
轉(zhuǎn)移矩陣在MDP中被認(rèn)為是環(huán)境的一部分!s栽为居!
轉(zhuǎn)移矩陣在MDP中被認(rèn)為是環(huán)境的一部分!I苯啤蒙畴!
轉(zhuǎn)移矩陣在MDP中被認(rèn)為是環(huán)境的一部分!N叵蟆膳凝!
1.3 馬爾科夫過(guò)程
A Markov Process(or Markov Chain) is a memoryless random process, i.e. a sequence of random state ,,... with the Markov property
馬爾科夫過(guò)程可以由一個(gè)二元組來(lái)定義
代表了狀態(tài)的集合
描述了狀態(tài)轉(zhuǎn)移矩陣
我們有時(shí)候并一定知道的具體值,但是通常我們假設(shè)存在且穩(wěn)定(即恭陡,從轉(zhuǎn)移到的概率任何時(shí)候都是一樣的)
PS:當(dāng)不穩(wěn)定時(shí)蹬音,不穩(wěn)定環(huán)境,在線(xiàn)學(xué)習(xí)休玩,快速學(xué)習(xí)
- 橢圓:普通狀態(tài)
- 有向線(xiàn):從這個(gè)狀態(tài)跳轉(zhuǎn)到另一個(gè)狀態(tài)的概率
- 方塊:表示終止?fàn)顟B(tài)
1.4 片段(episode)
定義
episode = one a sequence of states, actions and rewards, which ends with terminal state
強(qiáng)化學(xué)習(xí)中著淆,從初始狀態(tài)到最終狀態(tài)的序列過(guò)程,被稱(chēng)為一個(gè)片段(episode)
- 如果一個(gè)任務(wù)總以終止?fàn)顟B(tài)結(jié)束拴疤,那么這個(gè)任務(wù)被稱(chēng)為片段任務(wù)(episodic task).
- 如果一個(gè)任務(wù)沒(méi)有終止?fàn)顟B(tài)永部,會(huì)被無(wú)線(xiàn)執(zhí)行下去,則被稱(chēng)為連續(xù)性任務(wù)(continuing task).
2.馬爾科夫獎(jiǎng)勵(lì)過(guò)程(Markov reward process)
A Markov reward process is a Markov chain with values.
馬爾可夫過(guò)程主要描述的是狀態(tài)之間的轉(zhuǎn)移關(guān)系呐矾,在這個(gè)轉(zhuǎn)移關(guān)系上 賦予不同的獎(jiǎng)勵(lì)值即得到了馬爾可夫獎(jiǎng)勵(lì)過(guò)程苔埋。
馬爾科夫獎(jiǎng)勵(lì)過(guò)程有一個(gè)四元組組成
代表了狀態(tài)的集合
描述了狀態(tài)轉(zhuǎn)移矩陣
表示獎(jiǎng)勵(lì)函數(shù),描述了在狀態(tài)的獎(jiǎng)勵(lì).
敲黑板W殚稀!
注意區(qū)別:
:在t+1時(shí)刻愧薛,所獲得的隨機(jī)變量的值
:一個(gè)函數(shù)
2.1 回報(bào)值
- 獎(jiǎng)勵(lì)值:對(duì)每一個(gè)狀態(tài)的評(píng)價(jià)
- 回報(bào)值:對(duì)每一個(gè)片段的評(píng)價(jià)
定義
回報(bào)值(return )是從時(shí)間處開(kāi)始的累計(jì)衰減獎(jiǎng)勵(lì)
對(duì)于片段任務(wù):
對(duì)于連續(xù)性任務(wù):
2.2 再聊片段
可以這么理解,終止?fàn)顟B(tài)等價(jià)于自身轉(zhuǎn)移概率為1衫画,獎(jiǎng)勵(lì)為0的一個(gè)狀態(tài)毫炉。
因此,我們可以能夠?qū)⑵涡匀蝿?wù)和連續(xù)性任務(wù)進(jìn)行統(tǒng)一表達(dá)
當(dāng)
2.3 再聊衰減值
為什么我們要使用這樣的指數(shù)衰減值费奸?
-
直觀感受
- 影響未來(lái)的因素不僅僅包含當(dāng)前
- 我們對(duì)未來(lái)的把我也是逐漸衰減的
- 一般情況下,我們更關(guān)注短時(shí)間的反饋
-
數(shù)學(xué)便利
- 一個(gè)參數(shù)就描述了整個(gè)衰減過(guò)程进陡,只需要調(diào)節(jié)這一個(gè)參數(shù) γ 即可以調(diào)節(jié)長(zhǎng)時(shí)獎(jiǎng)勵(lì)和短時(shí)獎(jiǎng)勵(lì)的權(quán)衡 (trade-off)
- 指數(shù)衰減形式又很容易進(jìn)行數(shù)學(xué)分析
- 指數(shù)衰減是對(duì)回報(bào)值的有界保證愿阐,避免了循環(huán) MRP 和連續(xù)性 MRP 情況下回報(bào)值變成無(wú)窮
2.4 回報(bào)值vs值函數(shù)
- 回報(bào)值: the discounted sum of rewards in one whole episode(一次片段的結(jié)果, 每次都不同趾疚,存在很大的樣本偏差)
- 值函數(shù): the expected discounted sum of rewards from a certain state/ an expectation over all possible episodes and can start from any state(關(guān)注的是狀態(tài)s)
The state value function of an MRP is the expected return starting from state
回報(bào)值的計(jì)算過(guò)程很簡(jiǎn)單
2.4.1MRP中的貝爾曼方程(Bellman Equation)
值函數(shù)的表達(dá)式可以分解成兩部分:
- 瞬時(shí)獎(jiǎng)勵(lì)(immediate reward)
-
后繼狀態(tài)的值函數(shù)乘上一個(gè)衰減系數(shù)
下面是推導(dǎo)過(guò)程:
體現(xiàn)了與之間的迭代關(guān)系
2.4.2 解貝爾曼方程
矩陣-向量形式表達(dá)貝爾曼方程
假設(shè)狀態(tài)集合為缨历,那么
貝爾曼方程本質(zhì)上是一個(gè)線(xiàn)性方程,可以直接解
- Computational complexity is for n states.
- State Transition Matrix is required.
- Direct solution only possible for small MRPs.
- There are many iterative methods for large MRPs, e.g:
- Dynamic programming
- Monte-Carlo evaluation
- Temporal-Difference learning
3.馬爾科夫決策過(guò)程
我們把動(dòng)作(Action)引入到MRPs中糙麦,就得到了馬爾可夫決策過(guò)程(Markov Decision Processes, MDPs)
一個(gè)馬爾科夫決策過(guò)程(MDPs)由一個(gè)五元組構(gòu)成
代表了狀態(tài)的集合
代表了動(dòng)作的集合
描述了狀態(tài)轉(zhuǎn)移矩陣
表示獎(jiǎng)勵(lì)函數(shù)辛孵,描述了在狀態(tài)s做動(dòng)作a的獎(jiǎng)勵(lì)
3.1 策略(Policy)
A policy is a distribution over actions given states. 在MDPs中赡磅,一個(gè)策略是在給定狀態(tài)下得動(dòng)作的概率分布
- 策略是對(duì)智能體行為的全部描述(智能體能夠控制的是策略)
- MDPs中的策略是基于馬爾科夫狀態(tài)的(而不是基于歷史)
- 策略是時(shí)間穩(wěn)定的魄缚,只與s有關(guān),與時(shí)間t無(wú)關(guān)
- 策略的概率分布輸出都是獨(dú)熱的(one-hot)焚廊,那么成為確定性策略冶匹,否則即為隨機(jī)策略
3.2 MDPs和MRPs之間的關(guān)系
對(duì)于一個(gè)MDP問(wèn)題,如果給定了策略, MDP將會(huì)退化成MRP
此時(shí)咆瘟,
3.3 值函數(shù)
在MDPs問(wèn)題中嚼隘,由于動(dòng)作的引入,值函數(shù)分為了兩種:
- 狀態(tài)值函數(shù)(V函數(shù))
- 狀態(tài)動(dòng)作值函數(shù) (Q函數(shù))
V函數(shù)
MDPs中的狀態(tài)值函數(shù)是從狀態(tài)s開(kāi)始搞疗,使用策略得到的期望回報(bào)值
Q函數(shù)
MDPs中的狀態(tài)動(dòng)作值函數(shù)是從狀態(tài)s開(kāi)始嗓蘑,執(zhí)行動(dòng)作a,然后使用策略得到的期望回報(bào)值
Q函數(shù)中匿乃,之所以強(qiáng)調(diào)“然后”的意思是桩皿, 在狀態(tài)s下,智能體的動(dòng)作a是隨機(jī)選擇的(不一定按策略來(lái))幢炸,之后的動(dòng)作才是按策略來(lái)做選擇泄隔。
MDPs中,任何不說(shuō)明策略的情況下宛徊,討論值函數(shù)都是在耍流氓佛嬉!
3.4 貝爾曼方程
和MRP相似,MDPs中的值函數(shù)也能分解成瞬時(shí)獎(jiǎng)勵(lì)
和后繼狀態(tài)的值函數(shù)
兩部分
狀態(tài)值函數(shù)
狀態(tài)動(dòng)作值函數(shù)
其中空心節(jié)點(diǎn)代表了state闸天,實(shí)心點(diǎn)代表了state-action pair暖呕,從根節(jié)點(diǎn)
3.4.1 V函數(shù)與Q函數(shù)之間的相互轉(zhuǎn)化
這個(gè)本質(zhì)上是全概率
貝爾曼方程矩陣形式
MDPs 下的貝爾曼期望方程和 MRP 的形式相同
同樣地库物,可以直接求解
求解要求:
- 已知策略
- 已知狀態(tài)轉(zhuǎn)移矩陣
3.5 最優(yōu)值函數(shù)
之前值函數(shù)霸旗,以及貝爾曼期望方程針對(duì)的都是給定策略的情況,是一個(gè)評(píng)價(jià)問(wèn)題戚揭。
現(xiàn)在我們來(lái)考慮強(qiáng)化學(xué)習(xí)中的優(yōu)化問(wèn)題(找出最好的策略)
最優(yōu)質(zhì)函數(shù)值得是在所有策略中的值函數(shù)最大值诱告,其中包括最優(yōu)V函數(shù)和最優(yōu)Q函數(shù)
最優(yōu)值函數(shù)值的是一個(gè)MDP中所能達(dá)到的最佳性能
3.6 最優(yōu)策略
為了比較不同策略的好壞,我們首先應(yīng)該定義策略的比較關(guān)系
對(duì)于任何MDPs問(wèn)題
- 總存在一個(gè)策略 要好于或等于其他所有的策略
- 所有的最優(yōu)策略都能夠?qū)崿F(xiàn)最優(yōu)的 V 函數(shù)
- 所有的最優(yōu)策略都能夠?qū)崿F(xiàn)最優(yōu)的 Q 函數(shù)
怎么得到最優(yōu)策略民晒?
- 已知
當(dāng)我們已知了最優(yōu) Q 函數(shù)后精居,我們能夠馬上求出最優(yōu)策略,只要根據(jù) 選擇相應(yīng)的動(dòng)作即可
可以看出對(duì)于任何MDPs問(wèn)題镀虐,總存在一個(gè)確定性的最優(yōu)策略箱蟆。
- 已知
為了求解最優(yōu)策略,只需要做一步搜索就行刮便。也就是在對(duì)于不同的空猜,計(jì)算,獲得最大值對(duì)應(yīng)的a就是我們的最優(yōu)策略
同樣地恨旱,和也存在遞歸的關(guān)系辈毯,也可以相互轉(zhuǎn)換
同樣根據(jù)上面的兩個(gè)圖,我們可以推導(dǎo)出:
- 貝爾曼最優(yōu)方程本質(zhì)上就是利用了的特點(diǎn)搜贤,將其期望的算子轉(zhuǎn)化成了max
- 在貝爾曼期望方程中谆沃, 是已知的,而在貝爾曼最有方程仪芒, 是未知的
- 解貝爾曼期望方程的過(guò)程即對(duì)應(yīng)了評(píng)價(jià)唁影,解貝爾曼最優(yōu)方程的過(guò) 程即對(duì)應(yīng)了優(yōu)化
貝爾曼最優(yōu)方程是非線(xiàn)性的,一般很難有閉式的解(closed-form solution)掂名,可以使用迭代優(yōu)化的方法去解:
- Value Iteration
- Policy Iteration
- Q-learning
- Sarsa
...
4.MDPs的拓展
4.1 無(wú)窮或連續(xù) MDPs
- 動(dòng)作空間或狀態(tài)空間無(wú)限可數(shù)
- 動(dòng)作空間或狀態(tài)空無(wú)限不可數(shù)(連續(xù))
- 時(shí)間連續(xù)
4.2 部分可觀測(cè) MDPs(Partially observable MDPs, POMDPs)
- 此時(shí)觀測(cè)不等于狀態(tài)
- POMDPs由七元組
- \mathcal{Z} 是觀測(cè)函數(shù)
- 觀測(cè)不滿(mǎn)足馬爾可夫性据沈,因此也不滿(mǎn)足貝爾曼方程
- 狀態(tài)未知,隱馬爾科夫過(guò)程
- 又是對(duì)于POMDPs饺蔑,最優(yōu)的策略是隨機(jī)性
4.3 無(wú)衰減 MDPs
- 用于各態(tài)經(jīng)歷(平穩(wěn)隨機(jī)過(guò)程的一種特性)馬爾科夫決策過(guò)程
- 存在獨(dú)立于狀態(tài)的平均獎(jiǎng)上
- 求值函數(shù)時(shí)锌介,需要減去該平均獎(jiǎng)賞,否則有可能獎(jiǎng)賞爆炸
Reference
- David Silver的Reinforcement Learning課件
- 強(qiáng)化學(xué)習(xí)入門(mén)(第二版)讀書(shū)筆記
- 有限馬爾可夫決策過(guò)程——強(qiáng)化學(xué)習(xí)第三章