Actor Critic

一、介紹

Actor-Critic 算法有兩部分組成:actor 和 critic嘱丢。其中 action 就是Policy Gradient 算法薪介,critic 是Q-learning。所以實(shí)際上 actor-critic算法是Q-learning算法和policy gradient算法的結(jié)合屿讽。

  1. Actor Critic 算法能在有限維的輸入和有限維的輸出中起到比較好的效果。
  2. Actor 角色起到的作用是:在當(dāng)前狀態(tài)下決定哪一個(gè)動(dòng)作被執(zhí)行會(huì)達(dá)到最好的效果吠裆;而Critic則是對某一個(gè)狀態(tài)下采取的某個(gè)動(dòng)作做出評價(jià)伐谈。這個(gè)評價(jià)會(huì)影響 actor 今后的選擇。
  3. Actor-Critic 算法所需要的訓(xùn)練時(shí)間要比Policy Gradient 算法短试疙。

二诵棵、回顧 Q-learning

對于Q-learning,有如下特點(diǎn):

  • 基于 value-based
  • 處理離散的動(dòng)作空間
  • 它是一個(gè) model-free 的算法祝旷,使用 Q函數(shù)去找到最理想的策略


    image.png

如上圖的網(wǎng)絡(luò)都是為了近似 Q(s,a)函數(shù)履澳,有了 Q(s,a),我們就可以根據(jù)Q(s,a)的值來作為判斷依據(jù)怀跛,作出恰當(dāng)?shù)男袨椤?/p>

image.png

Q-learning算法最主要的一點(diǎn)是:決策的依據(jù)是Q(s,a)的值距贷。即算法的本質(zhì)是在計(jì)算 當(dāng)前狀態(tài)s, 采取某個(gè)動(dòng)作 a 后會(huì)獲得的未來的獎(jiǎng)勵(lì)的期望,這個(gè)值就是 Q(s,a)。換句話說吻谋,我們可以把這個(gè)算法的核心看成一個(gè)評論家(Critic)忠蝗,而這個(gè)評論家會(huì)對我們在當(dāng)前狀態(tài)s下,采取的動(dòng)作a這個(gè)決策作出一個(gè)評價(jià)漓拾,評價(jià)的結(jié)果就是Q(s,a)的值阁最。

但是,Q-learning 算法卻不怎么適合解決連續(xù)動(dòng)作空間的問題骇两。因?yàn)槿绻麆?dòng)作空間是連續(xù)的速种,那么用Q-learning算法就需要對動(dòng)作空間離散化,而離散化的結(jié)果會(huì)導(dǎo)致動(dòng)作空間的維度非常高低千,這就使得Q-learning 算法在實(shí)際應(yīng)用起來很難求得最優(yōu)值配阵,且計(jì)算速度比較慢。

而Policy Gradient 正好彌補(bǔ)了這個(gè)缺點(diǎn)。

三闸餐、回顧 Policy Gradient

Policy Gradient 算法的核心思想是: 根據(jù)當(dāng)前狀態(tài)饱亮,直接算出下一個(gè)動(dòng)作是什么或下一個(gè)動(dòng)作的概率分布是什么。即它的輸入是當(dāng)前狀態(tài) s, 而輸出是具體的某一個(gè)動(dòng)作或者是動(dòng)作的分布舍沙。

image.png

我們可以想像近上,Policy Gradient 就像一個(gè)演員(Actor),它根據(jù)某一個(gè)狀態(tài)s拂铡,然后作出某一個(gè)動(dòng)作或者給出動(dòng)作的分布壹无,而不像Q-learning 算法那樣輸出動(dòng)作的Q函數(shù)值。

四感帅、Actor Critic

Actor-Critic 是Q-learning 和 Policy Gradient 的結(jié)合斗锭。
為了導(dǎo)出 Actor-Critic 算法,必須先了解Policy Gradient 算法是如何一步步優(yōu)化策略的失球。

image.png

如上圖所示岖是, 最簡單的Policy Gradient 算法要優(yōu)化的函數(shù)如下:
L = \sum log \pi_\theta(s_t, a_t) v_t

其中 v_t 要根據(jù) Monte-Carlo 算法估計(jì),故又可以寫成:
L = \sum log \pi_\theta(s_t, a_t) G_t

但是這個(gè) G_t 方差會(huì)比較大实苞,因?yàn)?img class="math-inline" src="https://math.jianshu.com/math?formula=G_t" alt="G_t" mathimg="1">是由多個(gè)隨機(jī)變量得到的豺撑,因此,我們需要尋找減少方差的辦法黔牵。
一個(gè)方法就是引入一個(gè) baseline 的函數(shù) b聪轿, 這個(gè) b 會(huì)使得 (G_t - b)的期望不變,但是方差會(huì)變小猾浦,常用的 baseline函數(shù)就是 V(s_t)陆错。再來,為了進(jìn)一步降低 G_t的隨機(jī)性金赦,我們用 E(G_t) 替代 G_t音瓷,這樣,源式就變成:
L = \sum log \pi_\theta(s_t, a_t) (E(G_t) - V(s_t))
因?yàn)?E(G_t| s_t, a_t) = Q(s_t, a_t)夹抗,故進(jìn)一步演化成:
L = \sum log \pi_\theta(s_t, a_t) (Q(s_t, a_t) - V(s_t))

照上面的式子看來外莲,我們需要兩個(gè)網(wǎng)絡(luò)去估計(jì) Q(s_t, a_t)V(s_t),但是考慮到貝爾曼方程:
Q(s_t, a_t) = E[r + \gamma V(s_{t+1})]
棄掉期望兔朦, 得:
Q(s_t, a_t) = r + \gamma V(s_{t+1})

即最終的式子為:
L = \sum log \pi_\theta(s_t, a_t) (r+ \gamma V(s_{t+1}) - V(s_t))

這樣只需要一個(gè)網(wǎng)絡(luò)就可以估算出 V 值了偷线,而估算 V 的網(wǎng)絡(luò)正是我們在 Q-learning 中做的,所以我們就把這個(gè)網(wǎng)絡(luò)叫做 Critic沽甥。這樣就在 Policy Gradient 算法的基礎(chǔ)上引進(jìn)了 Q-learning 算法了

image.png

引用

http://www.reibang.com/p/25c09ae3d206
https://www.bilibili.com/video/av24724071/?p=6
http://www.reibang.com/p/277abf64e369

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末声邦,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子摆舟,更是在濱河造成了極大的恐慌亥曹,老刑警劉巖邓了,帶你破解...
    沈念sama閱讀 219,110評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異媳瞪,居然都是意外死亡骗炉,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,443評論 3 395
  • 文/潘曉璐 我一進(jìn)店門蛇受,熙熙樓的掌柜王于貴愁眉苦臉地迎上來句葵,“玉大人,你說我怎么就攤上這事兢仰≌д桑” “怎么了?”我有些...
    開封第一講書人閱讀 165,474評論 0 356
  • 文/不壞的土叔 我叫張陵把将,是天一觀的道長轻专。 經(jīng)常有香客問我,道長察蹲,這世上最難降的妖魔是什么请垛? 我笑而不...
    開封第一講書人閱讀 58,881評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮洽议,結(jié)果婚禮上宗收,老公的妹妹穿的比我還像新娘。我一直安慰自己绞铃,他們只是感情好镜雨,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,902評論 6 392
  • 文/花漫 我一把揭開白布嫂侍。 她就那樣靜靜地躺著儿捧,像睡著了一般。 火紅的嫁衣襯著肌膚如雪挑宠。 梳的紋絲不亂的頭發(fā)上菲盾,一...
    開封第一講書人閱讀 51,698評論 1 305
  • 那天,我揣著相機(jī)與錄音各淀,去河邊找鬼懒鉴。 笑死,一個(gè)胖子當(dāng)著我的面吹牛碎浇,可吹牛的內(nèi)容都是我干的临谱。 我是一名探鬼主播,決...
    沈念sama閱讀 40,418評論 3 419
  • 文/蒼蘭香墨 我猛地睜開眼奴璃,長吁一口氣:“原來是場噩夢啊……” “哼悉默!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起苟穆,我...
    開封第一講書人閱讀 39,332評論 0 276
  • 序言:老撾萬榮一對情侶失蹤抄课,失蹤者是張志新(化名)和其女友劉穎唱星,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體跟磨,經(jīng)...
    沈念sama閱讀 45,796評論 1 316
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡间聊,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,968評論 3 337
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了抵拘。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片哎榴。...
    茶點(diǎn)故事閱讀 40,110評論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖仑濒,靈堂內(nèi)的尸體忽然破棺而出叹话,到底是詐尸還是另有隱情,我是刑警寧澤墩瞳,帶...
    沈念sama閱讀 35,792評論 5 346
  • 正文 年R本政府宣布驼壶,位于F島的核電站,受9級特大地震影響喉酌,放射性物質(zhì)發(fā)生泄漏热凹。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,455評論 3 331
  • 文/蒙蒙 一泪电、第九天 我趴在偏房一處隱蔽的房頂上張望般妙。 院中可真熱鬧,春花似錦相速、人聲如沸碟渺。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,003評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽苫拍。三九已至,卻和暖如春旺隙,著一層夾襖步出監(jiān)牢的瞬間绒极,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,130評論 1 272
  • 我被黑心中介騙來泰國打工蔬捷, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留垄提,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,348評論 3 373
  • 正文 我出身青樓周拐,卻偏偏與公主長得像铡俐,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子妥粟,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,047評論 2 355

推薦閱讀更多精彩內(nèi)容