強(qiáng)化學(xué)習(xí)與馬爾可夫決策

在上一篇文章 強(qiáng)化學(xué)習(xí)的基本概念 中绷柒,用大白話介紹了強(qiáng)化學(xué)習(xí)的一些基本概念淆珊,尤其是強(qiáng)化學(xué)習(xí)的基本過程。在了解了強(qiáng)化學(xué)習(xí)的基本概念之后健芭,在本篇文章中县钥,筆者將介紹一下馬爾可夫決策過程,用馬爾可夫決策過程來形式化的描述強(qiáng)化學(xué)習(xí)吟榴。

強(qiáng)化學(xué)習(xí)與馬爾可夫決策過程

首先回顧一下Agent與Environment交互的過程魁蒜。

在每一個(gè)時(shí)刻t,Agent會(huì)觀察到Environment的狀態(tài)s吩翻。根據(jù)狀態(tài)s兜看,Agent通過決策產(chǎn)生一個(gè)動(dòng)作a,將動(dòng)作a作用在Environment上狭瞎,Environment會(huì)反饋給Agent一個(gè)獎(jiǎng)勵(lì)R_{t+1}细移,并進(jìn)入一個(gè)新的狀態(tài)s_{t+1}。整個(gè)過程不斷重復(fù)熊锭,最終產(chǎn)生一個(gè)交互序列:
S_0,A_0,R_1,S_1,A_1,R_2,...
從序列中可以看出弧轧,下一個(gè)狀態(tài)不但與上一個(gè)狀態(tài)有關(guān),還與上上一個(gè)狀態(tài)有關(guān)碗殷,甚至追溯到初始狀態(tài)精绎。這樣的一個(gè)相關(guān)性特別強(qiáng)的序列,復(fù)雜到根本無法建模锌妻。

因此代乃,有必要采取某些方式來簡(jiǎn)化這個(gè)狀態(tài)轉(zhuǎn)化過程,建立一個(gè)清晰的模型仿粹。于是搁吓,就引入了經(jīng)典的馬爾可夫決策過程原茅。

馬爾可夫假設(shè)

為了用馬爾可夫決策過程對(duì)強(qiáng)化學(xué)習(xí)進(jìn)行建模,對(duì)強(qiáng)化學(xué)習(xí)作了如下三個(gè)假設(shè)堕仔。

假設(shè)一

環(huán)境狀態(tài)的轉(zhuǎn)化的過程中擂橘,下一個(gè)狀態(tài)s',僅僅與上一個(gè)狀態(tài)s有關(guān)摩骨,與之前的狀態(tài)無關(guān)通贞。用公式表示如下:
P(S_{t+1}|S_t)=P(S_{t+1}|S_1,...,S_t)
如此一來,環(huán)境狀態(tài)轉(zhuǎn)化的模型就簡(jiǎn)單多了仿吞,在狀態(tài)s下采取動(dòng)作a滑频,轉(zhuǎn)到下一個(gè)狀態(tài)s'的概率P^a_{ss'},可以表示為下面這個(gè)公式:
P^a_{ss'}=P(S_{t+1}=s'|S_t=s,A_t=a)
假設(shè)二

在狀態(tài)s時(shí)采取動(dòng)作a的概率僅與當(dāng)前狀態(tài)s有關(guān)唤冈,與其他的要素?zé)o關(guān)。用公式表示如下:
\pi(a|s)=P(A_t=a|S_t=s)
這里的\pi指的是一個(gè)全局的策略银伟,針對(duì)的不是某一個(gè)狀態(tài)或者動(dòng)作你虹。

假設(shè)三

狀態(tài)價(jià)值函數(shù)僅僅依賴于當(dāng)前狀態(tài)s,用公式表示如下:
v_{\pi}(s)=E_{\pi}(G_t|S_t=s)=E_{\pi}(R_{t+1}+{\gamma}R_{t+2}+{\gamma}^2R_{t+3}+...|S_t=s)
這里引入了一個(gè)衰減系數(shù)\gamma彤避,這是一個(gè)超參數(shù)傅物,可以自定義。G_t表示收獲琉预,是馬爾可夫中從某一種狀態(tài)S_t開始采樣董饰,直到終止?fàn)顟B(tài)時(shí)所有獎(jiǎng)勵(lì)的有衰減的和。強(qiáng)化學(xué)習(xí)的最終目標(biāo)就是最大化收獲圆米。

價(jià)值函數(shù)

在馬爾可夫決策過程中卒暂,有兩種價(jià)值函數(shù)。

  • 狀態(tài)價(jià)值函數(shù)v_{\pi}(s):表示已知當(dāng)前狀態(tài)s娄帖,按照某種策略行動(dòng)產(chǎn)生的長(zhǎng)期回報(bào)期望也祠。
  • 動(dòng)作價(jià)值函數(shù)q_{\pi}(s,a):表示已知當(dāng)前狀態(tài)s和行動(dòng)a,按照某種策略行動(dòng)產(chǎn)生的長(zhǎng)期回報(bào)近速≌┖伲可以理解為采取動(dòng)作a之后獲得的獎(jiǎng)勵(lì)。

動(dòng)作價(jià)值函數(shù)相對(duì)于狀態(tài)價(jià)值函數(shù)的削葱,它在狀態(tài)價(jià)值函數(shù)的基礎(chǔ)上奖亚,考慮了動(dòng)作a帶來的價(jià)值影響。動(dòng)作價(jià)值函數(shù)q_{\pi}(s,a)表示如下:
q_{\pi}(s,a)=E_{\pi}(G_t|S_t=s,A_t=a)=E_{\pi}(R_{t+1}+{\gamma}R_{t+2}+{\gamma}^2R_{t+3}+...|S_t=s,A_t=a)

貝爾曼方程

基于狀態(tài)價(jià)值函數(shù)進(jìn)一步推導(dǎo)析砸,可以得到如下公式:
\begin{aligned} v_{\pi}(s)&=E_{\pi}(R_{t+1}+{\gamma}R_{t+2}+{\gamma}^2R_{t+3}+...|S_t=s)\\ &=E_{\pi}(R_{t+1}+{\gamma}(R_{t+2}+{\gamma}R_{t+3}+...)|S_t=s)\\ &=E_{\pi}(R_{t+1}+{\gamma}G_{t+1}|S_t=s)\\ &=E_{\pi}(R_{t+1}+{\gamma}v_{\pi}(S_{t+1})|S_t=s)\\ \end{aligned}
這種遞推式就是貝爾曼方程昔字。這個(gè)式子表明一個(gè)狀態(tài)的價(jià)值由當(dāng)前狀態(tài)的獎(jiǎng)勵(lì)和后續(xù)狀態(tài)價(jià)值按一定的衰減比例聯(lián)合組成。

同理干厚,可得到動(dòng)作價(jià)值函數(shù)的貝爾曼方程:
q_{\pi}(s,a)=E_{\pi}(R_{t+1}+{\gamma}q_{\pi}(S_{t+1},A_{t+1})|S_t=s,A_t=a)
這兩個(gè)方程很重要李滴,后續(xù)的很多算法都基于這兩個(gè)方程螃宙。

狀態(tài)價(jià)值函數(shù)與動(dòng)作價(jià)值函數(shù)的關(guān)系

狀態(tài)價(jià)值函數(shù)和動(dòng)作價(jià)值函數(shù)之間是可以相互轉(zhuǎn)化的。狀態(tài)價(jià)值函數(shù)可以理解為在狀態(tài)s的情況下所坯,未采取動(dòng)作之前期望的回報(bào)值谆扎,即所有可能動(dòng)作的獎(jiǎng)勵(lì)之和。如圖所示芹助,白點(diǎn)表示狀態(tài)堂湖,黑點(diǎn)表示動(dòng)作。

image

動(dòng)作價(jià)值函數(shù)可以理解為在狀態(tài)s下状土,采取動(dòng)作a之后无蜂,轉(zhuǎn)變到下一個(gè)狀態(tài)s'產(chǎn)生的獎(jiǎng)勵(lì)與下一個(gè)狀態(tài)的期望獎(jiǎng)勵(lì)v_{\pi}(s')之和。

image

將兩個(gè)公式結(jié)合起來蒙谓,可以得到下面兩個(gè)公式:
v_{\pi}(s)=\sum_{a \epsilon A}\pi(a|s)(R^a_s+\gamma\sum_{s' \epsilon S}P^a_{ss'}v_\pi(s'))
q_\pi(s,a)=R^a_s+\gamma\sum_{s' \epsilon S}P^a_{ss'}\sum_{a' \epsilon A}\pi(a'|s')q_\pi(s',a')

最優(yōu)價(jià)值函數(shù)與最優(yōu)策略

強(qiáng)化學(xué)習(xí)的最終目的是通過不斷的訓(xùn)練斥季,找出一個(gè)最優(yōu)的策略\pi_*,通過這個(gè)\pi_*累驮,讓智能體在目標(biāo)環(huán)境中得到最大的收獲酣倾。那么,如何評(píng)價(jià)一個(gè)策略是否比另一個(gè)策略優(yōu)秀呢谤专?只需要比較不同策略下產(chǎn)生的價(jià)值即可躁锡,最大的價(jià)值所對(duì)應(yīng)的價(jià)值函數(shù)被稱為最優(yōu)價(jià)值函數(shù)。

價(jià)值函數(shù)有兩種置侍,所以對(duì)應(yīng)的最優(yōu)價(jià)值函數(shù)也有兩種映之,即:
v_*(s)=\max_{\pi}v_\pi(s)
q_*(s,a)=\max_{\pi}q_\pi(s,a)
最優(yōu)動(dòng)作價(jià)值函數(shù)對(duì)應(yīng)的最優(yōu)策略可以定義為:
\pi_*(a|s)=\begin{cases} 1 &\text{if } a = \arg\max_{a \epsilon A}q_*(s,a) \\ 0 &\text{else} \end{cases}
由狀態(tài)價(jià)值函數(shù)和動(dòng)作價(jià)值函數(shù)之間的關(guān)系,可以得到:
v_*(s)=\max_aq_*(s,a)
q_*(s,a)=R^a_s+\gamma\sum_{s' \epsilon S}p^a_{ss'}v_*(s')
將上面兩個(gè)式子結(jié)合可以得到下面的式子:
v_*(s)=\max_a(R^a_s+\gamma\sum_{s' \epsilon S}P^a_{ss'}v*(s'))
q_*(s,a)=R^a_s+\gamma\sum_{s' \epsilon S}P^a_{ss'}\max_{a'}q_*(s',a')
這兩個(gè)式子是一個(gè)遞推式蜡坊,一般在實(shí)踐中是通過迭代來求解杠输,具體的算法如Q-learning,Sarsa等算色。通過不斷迭代抬伺,一旦確定了最優(yōu)的價(jià)值函數(shù),對(duì)應(yīng)的最優(yōu)策略也就隨之出現(xiàn)了灾梦。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末峡钓,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子若河,更是在濱河造成了極大的恐慌能岩,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,734評(píng)論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件萧福,死亡現(xiàn)場(chǎng)離奇詭異拉鹃,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,931評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門膏燕,熙熙樓的掌柜王于貴愁眉苦臉地迎上來钥屈,“玉大人,你說我怎么就攤上這事坝辫∨窬停” “怎么了?”我有些...
    開封第一講書人閱讀 164,133評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵近忙,是天一觀的道長(zhǎng)竭业。 經(jīng)常有香客問我,道長(zhǎng)及舍,這世上最難降的妖魔是什么未辆? 我笑而不...
    開封第一講書人閱讀 58,532評(píng)論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮锯玛,結(jié)果婚禮上咐柜,老公的妹妹穿的比我還像新娘。我一直安慰自己攘残,他們只是感情好炕桨,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,585評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著肯腕,像睡著了一般。 火紅的嫁衣襯著肌膚如雪钥平。 梳的紋絲不亂的頭發(fā)上实撒,一...
    開封第一講書人閱讀 51,462評(píng)論 1 302
  • 那天,我揣著相機(jī)與錄音涉瘾,去河邊找鬼知态。 笑死,一個(gè)胖子當(dāng)著我的面吹牛立叛,可吹牛的內(nèi)容都是我干的负敏。 我是一名探鬼主播,決...
    沈念sama閱讀 40,262評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼秘蛇,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼其做!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起赁还,我...
    開封第一講書人閱讀 39,153評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤妖泄,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后艘策,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體蹈胡,經(jīng)...
    沈念sama閱讀 45,587評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,792評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了罚渐。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片却汉。...
    茶點(diǎn)故事閱讀 39,919評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖荷并,靈堂內(nèi)的尸體忽然破棺而出合砂,到底是詐尸還是另有隱情,我是刑警寧澤璧坟,帶...
    沈念sama閱讀 35,635評(píng)論 5 345
  • 正文 年R本政府宣布既穆,位于F島的核電站,受9級(jí)特大地震影響雀鹃,放射性物質(zhì)發(fā)生泄漏幻工。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,237評(píng)論 3 329
  • 文/蒙蒙 一黎茎、第九天 我趴在偏房一處隱蔽的房頂上張望囊颅。 院中可真熱鬧,春花似錦傅瞻、人聲如沸踢代。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,855評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽胳挎。三九已至,卻和暖如春溺森,著一層夾襖步出監(jiān)牢的瞬間慕爬,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,983評(píng)論 1 269
  • 我被黑心中介騙來泰國打工屏积, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留医窿,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,048評(píng)論 3 370
  • 正文 我出身青樓炊林,卻偏偏與公主長(zhǎng)得像姥卢,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子渣聚,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,864評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容