Actor Critic

一、介紹

Actor-Critic 算法有兩部分組成：actor 和 critic嘱丢。其中 action 就是Policy Gradient 算法薪介，critic 是Q-learning。所以實(shí)際上 actor-critic算法是Q-learning算法和policy gradient算法的結(jié)合屿讽。

Actor Critic 算法能在有限維的輸入和有限維的輸出中起到比較好的效果。
Actor 角色起到的作用是：在當(dāng)前狀態(tài)下決定哪一個(gè)動(dòng)作被執(zhí)行會(huì)達(dá)到最好的效果吠裆；而Critic則是對某一個(gè)狀態(tài)下采取的某個(gè)動(dòng)作做出評價(jià)伐谈。這個(gè)評價(jià)會(huì)影響 actor 今后的選擇。
Actor-Critic 算法所需要的訓(xùn)練時(shí)間要比Policy Gradient 算法短试疙。

二诵棵、回顧 Q-learning

對于Q-learning，有如下特點(diǎn)：

基于 value-based
處理離散的動(dòng)作空間
它是一個(gè) model-free 的算法祝旷，使用 Q函數(shù)去找到最理想的策略

image.png

如上圖的網(wǎng)絡(luò)都是為了近似 Q(s,a)函數(shù)履澳，有了 Q(s,a)，我們就可以根據(jù)Q(s,a)的值來作為判斷依據(jù)怀跛，作出恰當(dāng)?shù)男袨椤?/p>

image.png

Q-learning算法最主要的一點(diǎn)是：決策的依據(jù)是Q(s,a)的值距贷。即算法的本質(zhì)是在計(jì)算當(dāng)前狀態(tài)s, 采取某個(gè)動(dòng)作 a 后會(huì)獲得的未來的獎(jiǎng)勵(lì)的期望,這個(gè)值就是 Q(s,a)。換句話說吻谋，我們可以把這個(gè)算法的核心看成一個(gè)評論家(Critic)忠蝗，而這個(gè)評論家會(huì)對我們在當(dāng)前狀態(tài)s下，采取的動(dòng)作a這個(gè)決策作出一個(gè)評價(jià)漓拾，評價(jià)的結(jié)果就是Q(s,a)的值阁最。

但是，Q-learning 算法卻不怎么適合解決連續(xù)動(dòng)作空間的問題骇两。因?yàn)槿绻麆?dòng)作空間是連續(xù)的速种，那么用Q-learning算法就需要對動(dòng)作空間離散化，而離散化的結(jié)果會(huì)導(dǎo)致動(dòng)作空間的維度非常高低千，這就使得Q-learning 算法在實(shí)際應(yīng)用起來很難求得最優(yōu)值配阵，且計(jì)算速度比較慢。

而Policy Gradient 正好彌補(bǔ)了這個(gè)缺點(diǎn)。

三闸餐、回顧 Policy Gradient

Policy Gradient 算法的核心思想是：根據(jù)當(dāng)前狀態(tài)饱亮，直接算出下一個(gè)動(dòng)作是什么或下一個(gè)動(dòng)作的概率分布是什么。即它的輸入是當(dāng)前狀態(tài) s, 而輸出是具體的某一個(gè)動(dòng)作或者是動(dòng)作的分布舍沙。

image.png

我們可以想像近上，Policy Gradient 就像一個(gè)演員（Actor），它根據(jù)某一個(gè)狀態(tài)s拂铡，然后作出某一個(gè)動(dòng)作或者給出動(dòng)作的分布壹无，而不像Q-learning 算法那樣輸出動(dòng)作的Q函數(shù)值。

四感帅、Actor Critic

Actor-Critic 是Q-learning 和 Policy Gradient 的結(jié)合斗锭。
為了導(dǎo)出 Actor-Critic 算法，必須先了解Policy Gradient 算法是如何一步步優(yōu)化策略的失球。

image.png

如上圖所示岖是，最簡單的Policy Gradient 算法要優(yōu)化的函數(shù)如下：
$L = \sum log \pi_\theta(s_t, a_t) v_t$

其中 $v_t$ 要根據(jù) Monte-Carlo 算法估計(jì)，故又可以寫成：
$L = \sum log \pi_\theta(s_t, a_t) G_t$

但是這個(gè) $G_t$ 方差會(huì)比較大实苞，因?yàn)?img class="math-inline" src="https://math.jianshu.com/math?formula=G_t" alt="G_t" mathimg="1">是由多個(gè)隨機(jī)變量得到的豺撑，因此，我們需要尋找減少方差的辦法黔牵。
一個(gè)方法就是引入一個(gè) baseline 的函數(shù) b聪轿，這個(gè) b 會(huì)使得 $(G_t - b)$ 的期望不變，但是方差會(huì)變小猾浦，常用的 baseline函數(shù)就是 $V(s_t)$ 陆错。再來，為了進(jìn)一步降低 $G_t$ 的隨機(jī)性金赦，我們用 $E(G_t)$ 替代 $G_t$ 音瓷，這樣，源式就變成：
$L = \sum log \pi_\theta(s_t, a_t) (E(G_t) - V(s_t))$
因?yàn)? $E(G_t| s_t, a_t) = Q(s_t, a_t)$ 夹抗，故進(jìn)一步演化成：
$L = \sum log \pi_\theta(s_t, a_t) (Q(s_t, a_t) - V(s_t))$

照上面的式子看來外莲，我們需要兩個(gè)網(wǎng)絡(luò)去估計(jì) $Q(s_t, a_t)$ 和 $V(s_t)$ ，但是考慮到貝爾曼方程：
$Q(s_t, a_t) = E[r + \gamma V(s_{t+1})]$
棄掉期望兔朦，得：
$Q(s_t, a_t) = r + \gamma V(s_{t+1})$

即最終的式子為：
$L = \sum log \pi_\theta(s_t, a_t) (r+ \gamma V(s_{t+1}) - V(s_t))$

這樣只需要一個(gè)網(wǎng)絡(luò)就可以估算出 $V$ 值了偷线，而估算 $V$ 的網(wǎng)絡(luò)正是我們在 Q-learning 中做的，所以我們就把這個(gè)網(wǎng)絡(luò)叫做 Critic沽甥。這樣就在 Policy Gradient 算法的基礎(chǔ)上引進(jìn)了 Q-learning 算法了

image.png

引用

http://www.reibang.com/p/25c09ae3d206
https://www.bilibili.com/video/av24724071/?p=6
http://www.reibang.com/p/277abf64e369

最后編輯于：2018.11.07 20:23:39

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末声邦，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子摆舟，更是在濱河造成了極大的恐慌亥曹，老刑警劉巖邓了，帶你破解...
沈念sama閱讀 219,110評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異媳瞪，居然都是意外死亡骗炉，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,443評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門蛇受，熙熙樓的掌柜王于貴愁眉苦臉地迎上來句葵，“玉大人，你說我怎么就攤上這事兢仰≌д桑” “怎么了？”我有些...
開封第一講書人閱讀 165,474評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵把将，是天一觀的道長轻专。經(jīng)常有香客問我，道長察蹲，這世上最難降的妖魔是什么请垛？我笑而不...
開封第一講書人閱讀 58,881評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮洽议，結(jié)果婚禮上宗收，老公的妹妹穿的比我還像新娘。我一直安慰自己绞铃，他們只是感情好镜雨，可當(dāng)我...
茶點(diǎn)故事閱讀 67,902評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布嫂侍。她就那樣靜靜地躺著儿捧，像睡著了一般。火紅的嫁衣襯著肌膚如雪挑宠。梳的紋絲不亂的頭發(fā)上菲盾，一...
開封第一講書人閱讀 51,698評論 1贊 305
城市分裂傳說
那天，我揣著相機(jī)與錄音各淀，去河邊找鬼懒鉴。笑死，一個(gè)胖子當(dāng)著我的面吹牛碎浇，可吹牛的內(nèi)容都是我干的临谱。我是一名探鬼主播，決...
沈念sama閱讀 40,418評論 3贊 419
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼奴璃，長吁一口氣：“原來是場噩夢啊……” “哼悉默！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起苟穆，我...
開封第一講書人閱讀 39,332評論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤抄课，失蹤者是張志新（化名）和其女友劉穎唱星，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體跟磨，經(jīng)...
沈念sama閱讀 45,796評論 1贊 316
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡间聊，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,968評論 3贊 337
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了抵拘。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片哎榴。...
茶點(diǎn)故事閱讀 40,110評論 1贊 351
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖仑濒，靈堂內(nèi)的尸體忽然破棺而出叹话，到底是詐尸還是另有隱情，我是刑警寧澤墩瞳，帶...
沈念sama閱讀 35,792評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布驼壶，位于F島的核電站，受9級特大地震影響喉酌，放射性物質(zhì)發(fā)生泄漏热凹。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,455評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一泪电、第九天我趴在偏房一處隱蔽的房頂上張望般妙。院中可真熱鬧，春花似錦相速、人聲如沸碟渺。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,003評論 0贊 22
一樁弒父案突诬，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽苫拍。三九已至，卻和暖如春旺隙，著一層夾襖步出監(jiān)牢的瞬間绒极，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,130評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工蔬捷，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留垄提，地道東北人。一個(gè)月前我還...
沈念sama閱讀 48,348評論 3贊 373
代替公主和親
正文我出身青樓周拐，卻偏偏與公主長得像铡俐，于是被迫代替她去往敵國和親。傳聞我的和親對象是個(gè)殘疾皇子妥粟，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,047評論 2贊 355

Actor Critic

一、介紹

二诵棵、回顧 Q-learning

三闸餐、回顧 Policy Gradient

四感帅、Actor Critic

引用

推薦閱讀更多精彩內(nèi)容