強化學(xué)習(xí)MPD之LQR和DDP之間千絲萬縷的聯(lián)系

在郭憲和方勇純老師編著的《深入淺出強化學(xué)習(xí) 原理入門》一書第十章關(guān)于引導(dǎo)性策略搜索一文中鸠删,在關(guān)于軌跡優(yōu)化部分贼陶,提到了LQR和DDP的優(yōu)化算法,在查閱了很多的資料后碉怔,現(xiàn)總結(jié)如下:
本文參考資料如下:

  1. Apollo控制算法之LQR
  2. 什么是二次型最優(yōu)控制
  3. 機器學(xué)習(xí)筆記17: 線性二次型調(diào)節(jié)控制
  4. 機器學(xué)習(xí)筆記18: 微分動態(tài)規(guī)劃
  5. 強化學(xué)習(xí)入門 第二講 基于模型的動態(tài)規(guī)劃方法
  6. 微分動態(tài)規(guī)劃
    其中,一二三是講解LQR的庙楚,四五六講解DDP。

在原始的LQR問題中馒闷,我們的目標是求損失J最小,即J=\sum_{\tau=0}^{N-1}(x_\tau^TQx_\tau + u_\tau^TRu_\tau)+x_N^TQ_fx_N纳账。該公式的含義是說捺疼,所有時間步內(nèi)總的損失等于前N-1個時間步加上最后一個時間步的損失。LQR相關(guān)的知識可參考前3個鏈接。對LQR的總結(jié):

  • 在原有MDP的基礎(chǔ)上引入了時間邊界的概念呢袱,這類問題被稱為有限邊界的MDP,在這種設(shè)定下策略和價值函數(shù)都是不穩(wěn)定的羞福,也就是說它們是隨著時間變化的。
  • 線性二次型調(diào)節(jié)控制(LQR)是一個特殊的有限邊界MDP模型治专,該模型廣泛應(yīng)用于機器人學(xué)中遭顶。
  • LQR的目標就是找到一組控制量u0,u1,...使
    x0,x1...足夠小,即系統(tǒng)達到穩(wěn)定狀態(tài)棒旗;
    u0,u1,...足夠小,即花費較小的控制代價铣揉。

注意:在原始的LQR問題中,我們的目標是J最小老速,而對于在強化學(xué)習(xí)時,我們的目標是reward最大橘券,因此,在reward的定義中旁舰,增加了一個負號。即
\begin {cases} s_{t+1}=A_ts_t+B_ta_t \\[4ex] R^{(t)}(s_t,a_t)=-s_t^TU_t s_t - a_t^TW_ta_t \end {cases}
至于噪聲w_t毯焕,可加可不加,加了相當(dāng)是確定的纳猫,不加則是隨機的意思竹捉。
即由s_ta_ts_{t+1}的過程是線性的,目標函數(shù)是二次的块差,且要迭代的公式V_k = min_w {z^TQz+w^TRw+V_{k+1}(Az+Bw)}是由目標函數(shù)生成的

下面進入DDP部分倔丈。
參考鏈接5鏈接6中状蜗,關(guān)于微分動態(tài)規(guī)劃的推導(dǎo)中,都有公式
\begin {cases} V_k = min_w {l(x_k,u_k)+V_{k+1}(x_{k+1})} \\[4ex] x_{k+1} = f(x_k,u_k) \end {cases}
與LQR不同的地方在于宏邮,要迭代的\bf V中,\cal l函數(shù)以及由x_k,u_k生成x_{k+1}2處不同蜀铲。因此边琉,將這2處地方變成與原始LQR問題類似的形式變可以用LQR來解決問題了,如果變化呢?采用泰勒展開式來代替原始函數(shù)族扰。
s_{t+1}的變化:
s_{t+1} \approx F(s_t^\star , a_t^\star)+\nabla_s F(s_t^\star, a_t^\star)(s_t- s_t^\star)+\nabla_a F(s_t^\star ,a_t^\star )(a_t-a_t^\star )
上文提到,常數(shù)可加可不加渔呵。
對于\cal l函數(shù)來說砍鸠,同樣,我們?nèi)《A泰勒展開式爷辱,如下:
\begin {eqnarray} l(s_t,a_t) & \approx & l(s_t^\star,a_t^\star) + \nabla_sl(s_t^\star, a_t^\star)(s_t- s_t^\star)+\nabla_a l(s_t^\star ,a_t^\star )(a_t-a_t^\star )\\ && + \frac 1 2 (s_t-s_t^\star)^TH_{ss}(s_t-s_t^\star)+(s_t-s_t^\star)H_{sa}(a_t-a_t^\star)+\frac 1 2 (a_t-a_t^\star)^TH_{aa}(a_t-a_t^\star) \end {eqnarray}
由于是近似,我們只取二階部分饭弓,即R_t(s_t,a_t)=-s_t^TU_ts_t-a_t^TW_ta_t轉(zhuǎn)換之后,就是LQR問題咏花,然后用LQR來解決問題即可。
總結(jié):

  • LQR只適用于狀態(tài)轉(zhuǎn)換函數(shù)是線性的場景昏翰,當(dāng)狀態(tài)轉(zhuǎn)換函數(shù)是非線性時,我們可以使用泰勒展開的方法做線性近似
  • 當(dāng)大部分狀態(tài)和行動在某個小的局部范圍內(nèi)棚菊,我們可以選擇局部中心做線性近似
  • 當(dāng)狀態(tài)轉(zhuǎn)換函數(shù)遵循某條軌跡時,可以使用微分動態(tài)規(guī)劃(DDP)算法窍株,其思想是在狀態(tài)轉(zhuǎn)換函數(shù)的多個點上依次做線性近似
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市球订,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌冒滩,老刑警劉巖,帶你破解...
    沈念sama閱讀 207,248評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件开睡,死亡現(xiàn)場離奇詭異,居然都是意外死亡篇恒,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,681評論 2 381
  • 文/潘曉璐 我一進店門款筑,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人奈梳,你說我怎么就攤上這事∪列耄” “怎么了?”我有些...
    開封第一講書人閱讀 153,443評論 0 344
  • 文/不壞的土叔 我叫張陵于宙,是天一觀的道長艰匙。 經(jīng)常有香客問我,道長员凝,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,475評論 1 279
  • 正文 為了忘掉前任健霹,我火速辦了婚禮,結(jié)果婚禮上糖埋,老公的妹妹穿的比我還像新娘。我一直安慰自己瞳别,他們只是感情好杭攻,可當(dāng)我...
    茶點故事閱讀 64,458評論 5 374
  • 文/花漫 我一把揭開白布疤坝。 她就那樣靜靜地躺著,像睡著了一般跑揉。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上历谍,一...
    開封第一講書人閱讀 49,185評論 1 284
  • 那天,我揣著相機與錄音望侈,去河邊找鬼。 笑死甜无,一個胖子當(dāng)著我的面吹牛哥遮,可吹牛的內(nèi)容都是我干的岂丘。 我是一名探鬼主播眠饮,決...
    沈念sama閱讀 38,451評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼寨蹋!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起已旧,我...
    開封第一講書人閱讀 37,112評論 0 261
  • 序言:老撾萬榮一對情侶失蹤召娜,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后玖瘸,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,609評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡雅倒,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,083評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了蔑匣。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片棕诵。...
    茶點故事閱讀 38,163評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡凿将,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出丸相,到底是詐尸還是另有隱情,我是刑警寧澤灭忠,帶...
    沈念sama閱讀 33,803評論 4 323
  • 正文 年R本政府宣布,位于F島的核電站弛作,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏映琳。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,357評論 3 307
  • 文/蒙蒙 一萨西、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧谎脯,春花似錦、人聲如沸源梭。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,357評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至烛愧,卻和暖如春油宜,著一層夾襖步出監(jiān)牢的瞬間屑彻,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,590評論 1 261
  • 我被黑心中介騙來泰國打工粪薛, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人违寿。 一個月前我還...
    沈念sama閱讀 45,636評論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像搞莺,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子掂咒,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,925評論 2 344