關(guān)于Policy Gradient的理解

雖然前段時間稍微了解過Policy Gradient，但后來發(fā)現(xiàn)自己對其原理的理解還有諸多模糊之處，于是希望重新梳理一番。
Policy Gradient的基礎(chǔ)是強化學(xué)習(xí)理論咙崎，同時我也發(fā)現(xiàn)优幸，由于強化學(xué)習(xí)的術(shù)語眾多吨拍，雜亂的符號容易讓我迷失方向，所以對我自己而言网杆，很有必要重新確立一套統(tǒng)一的符號使用習(xí)慣羹饰。UCL的David Silver可謂是強化學(xué)習(xí)領(lǐng)域數(shù)一數(shù)二的專家（AlphaGo首席研究員）伊滋，他的課程在網(wǎng)上也大受歡迎，因此我接下來用于討論問題的符號體系就以他的課件為準(zhǔn)队秩。

Markov Decision Process (MDP)

在概率論和統(tǒng)計學(xué)中笑旺，Markov Decision Processes (MDP) 提供了一個數(shù)學(xué)架構(gòu)模型，刻畫的是“如何在部分隨機馍资，部分可由決策者控制的狀態(tài)下進行決策”的過程筒主。強化學(xué)習(xí)的體系正是構(gòu)建在MDP之上的。

MDP的定義

有了這樣的定義鸟蟹，自然引申出policy和return的概念：

policy的定義

return的定義

Value function

Value function也是MDP中一個非常重要的概念乌妙，衡量的是從某個狀態(tài)開始計算的return期望值，但容易令初學(xué)者混淆的是建钥，value function一般有兩種定義方式藤韵。
一種叫state-value function：

另一種叫action-value function，會顯式地將當(dāng)前采取的動作納入考量之中：

從定義上看熊经，兩者顯然可以互相轉(zhuǎn)換：

另外泽艘，如果仔細(xì)觀察return的定義

，
會發(fā)現(xiàn)這兩種value function其實都可以寫成遞歸的形式：

這又被稱為Bellman Equation镐依，把value function分解成了immediate reward加上后續(xù)狀態(tài)的discounted value匹涮。

Policy Gradient

強化學(xué)習(xí)的一類求解算法是直接優(yōu)化policy，而Policy Gradient就是其中的典型代表槐壳。
首先需要討論一下policy的目標(biāo)函數(shù)焕盟。一般而言，policy的目標(biāo)函數(shù)主要有三種形式：

在episodic環(huán)境（有終止?fàn)顟B(tài)宏粤，從起始到終止的模擬過程稱為一個episode脚翘，系統(tǒng)通過一次次地模擬episode進行學(xué)習(xí)）中，衡量從起始狀態(tài)開始計算的value：
在continuing環(huán)境（沒有終止?fàn)顟B(tài)绍哎，是一個無限的過程）中来农，衡量value均值：
不管在哪個環(huán)境中，只關(guān)注immediate reward崇堰，衡量的是每個時刻的平均reward：

以上的

是指狀態(tài)的概率分布沃于，與policy有關(guān)，并且是stationary distribution of Markov chain海诲，意思是這個概率分布不會隨著MDP的時間推進而變化繁莹。

雖然這三種目標(biāo)函數(shù)形式不同，但最后分析得到的梯度表達(dá)式都是一樣的特幔。

對目標(biāo)函數(shù)求梯度會用到一個很重要的trick咨演，叫likelihood ratios：

對目標(biāo)函數(shù)求梯度最終都是要轉(zhuǎn)化為對policy求梯度，而這個轉(zhuǎn)化的作用是為了湊出

項蚯斯，便于后續(xù)化簡出期望項薄风。

一個簡單的例子是考慮最基本的情況——單步的MDP饵较，在執(zhí)行了一個時間單位之后就終止，所得的reward就等于這個時刻的immediate reward遭赂，記為

目標(biāo)函數(shù)就采用上述第三種的形式：

利用likelihood ratios推導(dǎo)出梯度是：

有個叫Policy Gradient Theorem的理論表明循诉，無論采用上述哪種目標(biāo)函數(shù)，在多步的MDP下撇他，都有：

在實際的優(yōu)化中茄猫，采用stochastic gradient ascent算法，對

進行無偏采樣困肩，記為

募疮，因此可以把期望項去掉，參數(shù)更新的公式為：

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末僻弹，一起剝皮案震驚了整個濱河市阿浓，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌蹋绽，老刑警劉巖芭毙，帶你破解...
沈念sama閱讀 219,110評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異卸耘，居然都是意外死亡退敦，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,443評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門蚣抗，熙熙樓的掌柜王于貴愁眉苦臉地迎上來侈百，“玉大人，你說我怎么就攤上這事翰铡《塾颍” “怎么了？”我有些...
開封第一講書人閱讀 165,474評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵锭魔，是天一觀的道長例证。經(jīng)常有香客問我，道長迷捧，這世上最難降的妖魔是什么织咧？我笑而不...
開封第一講書人閱讀 58,881評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮漠秋，結(jié)果婚禮上笙蒙，老公的妹妹穿的比我還像新娘。我一直安慰自己庆锦，他們只是感情好捅位，可當(dāng)我...
茶點故事閱讀 67,902評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般绿渣。火紅的嫁衣襯著肌膚如雪朝群。梳的紋絲不亂的頭發(fā)上燕耿，一...
開封第一講書人閱讀 51,698評論 1贊 305
城市分裂傳說
那天中符，我揣著相機與錄音，去河邊找鬼誉帅。笑死淀散，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的蚜锨。我是一名探鬼主播档插，決...
沈念sama閱讀 40,418評論 3贊 419
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼亚再！你這毒婦竟也來了郭膛？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,332評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤氛悬，失蹤者是張志新（化名）和其女友劉穎则剃，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體如捅，經(jīng)...
沈念sama閱讀 45,796評論 1贊 316
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡棍现，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,968評論 3贊 337
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了镜遣。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片己肮。...
茶點故事閱讀 40,110評論 1贊 351
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖悲关，靈堂內(nèi)的尸體忽然破棺而出谎僻，到底是詐尸還是另有隱情，我是刑警寧澤寓辱，帶...
沈念sama閱讀 35,792評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布戈稿，位于F島的核電站，受9級特大地震影響讶舰，放射性物質(zhì)發(fā)生泄漏鞍盗。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,455評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一跳昼、第九天我趴在偏房一處隱蔽的房頂上張望般甲。院中可真熱鬧，春花似錦鹅颊、人聲如沸敷存。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,003評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽锚烦。三九已至觅闽，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間涮俄，已是汗流浹背蛉拙。一陣腳步聲響...
開封第一講書人閱讀 33,130評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留彻亲，地道東北人孕锄。一個月前我還...
沈念sama閱讀 48,348評論 3贊 373
代替公主和親
正文我出身青樓，卻偏偏與公主長得像苞尝，于是被迫代替她去往敵國和親畸肆。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 45,047評論 2贊 355

關(guān)于Policy Gradient的理解

Markov Decision Process (MDP)

Value function

Policy Gradient

推薦閱讀更多精彩內(nèi)容