基于Policy的強(qiáng)化學(xué)習(xí)算法

在文章基于Value的強(qiáng)化學(xué)習(xí)算法中痴昧,介紹了Q-learning和SARSA兩種經(jīng)典的強(qiáng)化學(xué)習(xí)算法。在本篇文章中,將介紹一下基于Policy的經(jīng)典強(qiáng)化學(xué)習(xí)算法——Policy Gradient。

Value-based的不足

  1. Value-based強(qiáng)化學(xué)習(xí)算法阳惹,是根據(jù)當(dāng)前狀態(tài)下的Q值來選取動(dòng)作去執(zhí)行。因此眶俩,一旦Q值表收斂莹汤,那么對于某一個(gè)狀態(tài)s,其選擇的動(dòng)作a將是唯一確定的颠印,即確定性的策略纲岭。這就導(dǎo)致其無法解決最優(yōu)策略是隨機(jī)策略的強(qiáng)化學(xué)習(xí)問題抹竹,例如猜拳,每次都出錘子當(dāng)然不是最優(yōu)解荒勇,讓對方猜不出的隨機(jī)策略反而更好一些柒莉。

  2. 在受限狀態(tài)下闻坚,Value-based算法表現(xiàn)的不是很好沽翔。由于觀測手段或者其他一些原因,導(dǎo)致觀測到的兩個(gè)不同的狀態(tài)卻得到了同樣的特征窿凤,導(dǎo)致選擇的策略效果不好仅偎。例如猜拳的時(shí)候,同一對手在t時(shí)刻出了剪刀雳殊,在t+1時(shí)刻也出了剪刀橘沥,如果只考慮對手以及動(dòng)作,那么在tt+1時(shí)刻觀察到的特征是一樣的夯秃。然而座咆,在t+2時(shí)刻對手不一定會出剪刀。

  3. 對于連續(xù)動(dòng)作空間的強(qiáng)化學(xué)習(xí)問題的求解效果不好仓洼。因?yàn)閂alue-based算法的動(dòng)作選擇是在動(dòng)作空間中選擇Q值最大的動(dòng)作介陶,所以需要輸出動(dòng)作空間中每一個(gè)動(dòng)作的Q值。因此色建,對于動(dòng)作空間非常大的連續(xù)動(dòng)作空間來說哺呜,評估每一個(gè)動(dòng)作的Q值的成本是非常大的。例如方向盤轉(zhuǎn)的角度箕戳,隨著轉(zhuǎn)動(dòng)精度的無限提高某残,動(dòng)作空間可以趨近于無窮。

Policy Gradient

Policy-based算法的輸入和Value-based一樣陵吸,但是輸出的是動(dòng)作空間中每一個(gè)動(dòng)作被選擇的概率玻墅,換句話說,輸出的是動(dòng)作空間中動(dòng)作被選擇的概率分布壮虫。這時(shí)策略函數(shù)可以用如下公式表示澳厢,其中\theta是要訓(xùn)練的參數(shù):
\pi_\theta(s,a)=P(a|s,\theta)\approx\pi(a|s)
其優(yōu)化目標(biāo)有以下三種形式:

  1. 初始狀態(tài)收獲的期望:J_1(\theta)=V_{\pi\theta}(s1)=E_{\pi\theta}(G1)
  2. 狀態(tài)收獲的平均價(jià)值:J_{avV(\theta)}(\theta)=\displaystyle\sum_sd_{\pi\theta}V_{\pi\theta}(s),其中d_{\pi\theta(s)}是基于策略\pi_\theta生成的馬爾可夫鏈關(guān)于狀態(tài)的靜態(tài)分布旨指。
  3. 每個(gè)time-step的平均獎(jiǎng)勵(lì):J_{avR(\theta)=\displaystyle\sum_sd_{\pi\theta}(s)\displaystyle\sum_a\pi_\theta(s,a)R_s^a}

無論哪種形式赏酥,根據(jù)策略定理,對\theta求導(dǎo)的梯度為:
\triangledown_\theta J(\theta)=E_{\pi\theta}[\triangledown_\theta \log\pi_\theta(s,a)Q_\pi(s,a)]
其中\triangledown_\theta log\pi_\theta(s,a)稱為分值函數(shù)谆构。

對于\pi_\theta(s,a)裸扶,在離散空間中常使用softmax函數(shù),使用描述狀態(tài)和行為的特征\phi(s,a)與參數(shù)\theta的線性組合來權(quán)衡一個(gè)行為發(fā)生的幾率搬素,即:
\begin{gathered} \pi_\theta(s,a)=\frac{e^{\phi(s,a)^T\theta}}{\displaystyle\sum_be^{\phi(s,b)^T\theta}}\\ \triangledown_\theta \log\pi_\theta(s,a)=\phi(s,a)-E_{\pi\theta}[\phi(s,.)] \end{gathered}
在連續(xù)行為空間常用高斯函數(shù)呵晨,對應(yīng)的行為從高斯分布N(\phi(s)^T\theta,\sigma^2)中產(chǎn)生魏保,求導(dǎo)之后為:
\triangledown_\theta \log\pi_\theta(s,a)=\frac{(a-\phi(s)^T\theta)\phi(s)}{\sigma^2}
對于目標(biāo)函數(shù)的優(yōu)化可以采用蒙特卡洛梯度策略算法,使用隨機(jī)梯度上升法更新參數(shù)摸屠,使用策略梯度法返回v_t作為Q_\pi(s,a)的無偏估計(jì)谓罗。算法如下:

image

首先初始化參數(shù)\theta,之后對于每一個(gè)蒙特卡洛序列季二,做以下兩步:

  1. 用蒙特卡洛計(jì)算序列每個(gè)時(shí)間位置t的狀態(tài)價(jià)值v_t檩咱。

  2. 對序列每個(gè)時(shí)間位置t,使用梯度上升法胯舷,更新策略函數(shù)的參數(shù)\theta
    \theta=\theta+\alpha\triangledown_\theta\log\pi_\theta(s_t,a_t)v_t

最后返回策略函數(shù)的參數(shù)\theta刻蚯,這個(gè)策略函數(shù)可以是softmax,也可以是高斯策略或者其他策略桑嘶。

Policy-based的不足

  1. Policy-based往往收斂于局部最優(yōu)解而不是全局最優(yōu)解炊汹。
  2. 由于其輸出的是動(dòng)作概率分布,需要基于這個(gè)分布對動(dòng)作進(jìn)行采樣逃顶,當(dāng)動(dòng)作空間非常大時(shí)讨便,成本也比較高。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末以政,一起剝皮案震驚了整個(gè)濱河市霸褒,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌妙蔗,老刑警劉巖傲霸,帶你破解...
    沈念sama閱讀 211,123評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異眉反,居然都是意外死亡昙啄,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,031評論 2 384
  • 文/潘曉璐 我一進(jìn)店門寸五,熙熙樓的掌柜王于貴愁眉苦臉地迎上來梳凛,“玉大人,你說我怎么就攤上這事梳杏∪途埽” “怎么了?”我有些...
    開封第一講書人閱讀 156,723評論 0 345
  • 文/不壞的土叔 我叫張陵十性,是天一觀的道長叛溢。 經(jīng)常有香客問我,道長劲适,這世上最難降的妖魔是什么楷掉? 我笑而不...
    開封第一講書人閱讀 56,357評論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮霞势,結(jié)果婚禮上烹植,老公的妹妹穿的比我還像新娘斑鸦。我一直安慰自己,他們只是感情好草雕,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,412評論 5 384
  • 文/花漫 我一把揭開白布巷屿。 她就那樣靜靜地躺著,像睡著了一般墩虹。 火紅的嫁衣襯著肌膚如雪嘱巾。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,760評論 1 289
  • 那天败晴,我揣著相機(jī)與錄音浓冒,去河邊找鬼栽渴。 笑死尖坤,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的闲擦。 我是一名探鬼主播慢味,決...
    沈念sama閱讀 38,904評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼墅冷!你這毒婦竟也來了纯路?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,672評論 0 266
  • 序言:老撾萬榮一對情侶失蹤寞忿,失蹤者是張志新(化名)和其女友劉穎驰唬,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體腔彰,經(jīng)...
    沈念sama閱讀 44,118評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡叫编,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,456評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了霹抛。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片搓逾。...
    茶點(diǎn)故事閱讀 38,599評論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖杯拐,靈堂內(nèi)的尸體忽然破棺而出霞篡,到底是詐尸還是另有隱情,我是刑警寧澤端逼,帶...
    沈念sama閱讀 34,264評論 4 328
  • 正文 年R本政府宣布朗兵,位于F島的核電站,受9級特大地震影響顶滩,放射性物質(zhì)發(fā)生泄漏余掖。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,857評論 3 312
  • 文/蒙蒙 一诲祸、第九天 我趴在偏房一處隱蔽的房頂上張望浊吏。 院中可真熱鬧而昨,春花似錦、人聲如沸找田。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,731評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽墩衙。三九已至务嫡,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間漆改,已是汗流浹背心铃。 一陣腳步聲響...
    開封第一講書人閱讀 31,956評論 1 264
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留挫剑,地道東北人去扣。 一個(gè)月前我還...
    沈念sama閱讀 46,286評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像樊破,于是被迫代替她去往敵國和親愉棱。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,465評論 2 348

推薦閱讀更多精彩內(nèi)容