雖然前段時間稍微了解過Policy Gradient,但后來發(fā)現(xiàn)自己對其原理的理解還有諸多模糊之處,于是希望重新梳理一番。
Policy Gradient的基礎(chǔ)是強化學(xué)習(xí)理論咙崎,同時我也發(fā)現(xiàn)优幸,由于強化學(xué)習(xí)的術(shù)語眾多吨拍,雜亂的符號容易讓我迷失方向,所以對我自己而言网杆,很有必要重新確立一套統(tǒng)一的符號使用習(xí)慣羹饰。UCL的David Silver可謂是強化學(xué)習(xí)領(lǐng)域數(shù)一數(shù)二的專家(AlphaGo首席研究員)伊滋,他的課程在網(wǎng)上也大受歡迎,因此我接下來用于討論問題的符號體系就以他的課件為準(zhǔn)队秩。
Markov Decision Process (MDP)
在概率論和統(tǒng)計學(xué)中笑旺,Markov Decision Processes (MDP) 提供了一個數(shù)學(xué)架構(gòu)模型,刻畫的是“如何在部分隨機馍资,部分可由決策者控制的狀態(tài)下進行決策”的過程筒主。強化學(xué)習(xí)的體系正是構(gòu)建在MDP之上的。
有了這樣的定義鸟蟹,自然引申出policy和return的概念:
Value function
Value function也是MDP中一個非常重要的概念乌妙,衡量的是從某個狀態(tài)開始計算的return期望值,但容易令初學(xué)者混淆的是建钥,value function一般有兩種定義方式藤韵。
一種叫state-value function:
另一種叫action-value function,會顯式地將當(dāng)前采取的動作納入考量之中:
從定義上看熊经,兩者顯然可以互相轉(zhuǎn)換:
另外泽艘,如果仔細(xì)觀察return的定義
,
會發(fā)現(xiàn)這兩種value function其實都可以寫成遞歸的形式:
這又被稱為Bellman Equation镐依,把value function分解成了immediate reward加上后續(xù)狀態(tài)的discounted value匹涮。
Policy Gradient
強化學(xué)習(xí)的一類求解算法是直接優(yōu)化policy,而Policy Gradient就是其中的典型代表槐壳。
首先需要討論一下policy的目標(biāo)函數(shù)焕盟。一般而言,policy的目標(biāo)函數(shù)主要有三種形式:
-
在episodic環(huán)境(有終止?fàn)顟B(tài)宏粤,從起始到終止的模擬過程稱為一個episode脚翘,系統(tǒng)通過一次次地模擬episode進行學(xué)習(xí))中,衡量從起始狀態(tài)開始計算的value:
-
在continuing環(huán)境(沒有終止?fàn)顟B(tài)绍哎,是一個無限的過程)中来农,衡量value均值:
-
不管在哪個環(huán)境中,只關(guān)注immediate reward崇堰,衡量的是每個時刻的平均reward:
以上的
是指狀態(tài)的概率分布沃于,與policy有關(guān),并且是stationary distribution of Markov chain海诲,意思是這個概率分布不會隨著MDP的時間推進而變化繁莹。
雖然這三種目標(biāo)函數(shù)形式不同,但最后分析得到的梯度表達(dá)式都是一樣的特幔。
對目標(biāo)函數(shù)求梯度會用到一個很重要的trick咨演,叫likelihood ratios:
對目標(biāo)函數(shù)求梯度最終都是要轉(zhuǎn)化為對policy求梯度,而這個轉(zhuǎn)化的作用是為了湊出
目標(biāo)函數(shù)就采用上述第三種的形式:
利用likelihood ratios推導(dǎo)出梯度是:
有個叫Policy Gradient Theorem的理論表明循诉,無論采用上述哪種目標(biāo)函數(shù),在多步的MDP下撇他,都有:
進行無偏采樣困肩,記為
募疮,因此可以把期望項去掉,參數(shù)更新的公式為: