深度強(qiáng)化學(xué)習(xí)-DDPG算法原理和實現(xiàn)

在之前的幾篇文章中醋闭,我們介紹了基于價值Value的強(qiáng)化學(xué)習(xí)算法Deep Q Network渠羞。有關(guān)DQN算法以及各種改進(jìn)算法的原理和實現(xiàn)赏廓,可以參考之前的文章:

實戰(zhàn)深度強(qiáng)化學(xué)習(xí)DQN-理論和實踐:http://www.reibang.com/p/10930c371cac
DQN三大改進(jìn)(一)-Double DQN:http://www.reibang.com/p/fae51b5fe000
DQN三大改進(jìn)(二)-Prioritised replay:http://www.reibang.com/p/db14fdc67d2c
DQN三大改進(jìn)(三)-Dueling Network:http://www.reibang.com/p/b421c85796a2

基于值的強(qiáng)化學(xué)習(xí)算法的基本思想是根據(jù)當(dāng)前的狀態(tài),計算采取每個動作的價值志于,然后根據(jù)價值貪心的選擇動作突勇。如果我們省略中間的步驟装盯,即直接根據(jù)當(dāng)前的狀態(tài)來選擇動作〖撞觯基于這種思想我們就引出了強(qiáng)化學(xué)習(xí)中另一類很重要的算法验夯,即策略梯度(Policy Gradient)。之前我們已經(jīng)介紹過策略梯度的基本思想和實現(xiàn)了摔刁,大家可以有選擇的進(jìn)行預(yù)習(xí)和復(fù)習(xí):

深度強(qiáng)化學(xué)習(xí)-Policy Gradient基本實現(xiàn):http://www.reibang.com/p/2ccbab48414b

當(dāng)基于值的強(qiáng)化學(xué)習(xí)方法和基于策略梯度的強(qiáng)化學(xué)習(xí)方法相結(jié)合,我們就產(chǎn)生了Actor-Critic方法海蔽,關(guān)于這個方法的介紹共屈,可以參考文章:

深度強(qiáng)化學(xué)習(xí)-Actor-Critic算法原理和實現(xiàn):http://www.reibang.com/p/25c09ae3d206

但是對于Actor-Critic算法來說,模型涉及到了兩個神經(jīng)網(wǎng)絡(luò), 而且每次都是在連續(xù)狀態(tài)中更新參數(shù), 每次參數(shù)更新前后都存在相關(guān)性, 即模型的訓(xùn)練數(shù)據(jù)不再是獨立同分布党窜,這導(dǎo)致神經(jīng)網(wǎng)絡(luò)只能片面的看待問題, 甚至導(dǎo)致神經(jīng)網(wǎng)絡(luò)學(xué)不到東西拗引。想想我們之前介紹的DQN是如何解決的這個問題的?就是建立了兩個網(wǎng)絡(luò)幌衣,一個target網(wǎng)絡(luò)矾削,一個eval網(wǎng)絡(luò),同時使用了經(jīng)驗回放機(jī)制豁护!那么如果在Actor-Critic網(wǎng)絡(luò)結(jié)構(gòu)中加入這兩個機(jī)制哼凯,就得到了一種新的強(qiáng)化學(xué)習(xí)模型:Deep Deterministic Policy Gradient,簡稱DDPG楚里!可以說Actor-Critic + DQN = DDPG断部,今天,我們就來一探DDPG的究竟班缎!

1蝴光、DDPG原理

什么是DDPG呢

什么是DDPG呢她渴?前面我們介紹過了,它是Actor-Critic 和 DQN 算法的結(jié)合體蔑祟。

DDPG的全稱是Deep Deterministic Policy Gradient趁耗。

我們首先來看Deep,正如Q-learning加上一個Deep就變成了DQN一樣疆虚,這里的Deep即同樣使用DQN中的經(jīng)驗池和雙網(wǎng)絡(luò)結(jié)構(gòu)來促進(jìn)神經(jīng)網(wǎng)絡(luò)能夠有效學(xué)習(xí)苛败。

再來看Deterministic,即我們的Actor不再輸出每個動作的概率装蓬,而是一個具體的動作著拭,這更有助于我們連續(xù)動作空間中進(jìn)行學(xué)習(xí)。之前不太理解這個連續(xù)動作空間是什么意思牍帚,既然policy gradient和dqn都是輸出每個動作的概率和q值儡遮,那么我們?yōu)槭裁催€要用policy gradient呢?這個連續(xù)動作空間的例子可以舉一個么暗赶?既然已經(jīng)誠心誠意的發(fā)問了鄙币,那么我就班門弄斧回答一下。假如想要通過強(qiáng)化學(xué)習(xí)得到一個詞的32維詞向量蹂随,哇十嘿,這個詞向量的動作空間可是無限大的呀,[1,0....0]是一個動作岳锁,[0,1...0]是一個動作绩衷,如果加上小數(shù),那更是數(shù)不過來啦激率,這時候我們根本不可能去計算每個動作的概率或者q值咳燕,我們只能給定狀態(tài)即一個單詞,直接輸出一個合適的詞向量乒躺。類似于這種情況招盲,DDPG就可以大顯神威了。

DDPG的網(wǎng)絡(luò)結(jié)構(gòu)
盜用莫煩老師的一張圖片來形象的表示DDPG的網(wǎng)絡(luò)結(jié)構(gòu)嘉冒,同圖片里一樣曹货,我們稱Actor里面的兩個網(wǎng)絡(luò)分別是動作估計網(wǎng)絡(luò)和動作現(xiàn)實網(wǎng)絡(luò),我們稱Critic中的兩個網(wǎng)絡(luò)分別是狀態(tài)現(xiàn)實網(wǎng)絡(luò)和狀態(tài)估計網(wǎng)絡(luò):

我們采用了類似DQN的雙網(wǎng)絡(luò)結(jié)構(gòu)讳推,而且Actor和Critic都有target-net和eval-net顶籽。我們需要強(qiáng)調(diào)一點的事,我們只需要訓(xùn)練動作估計網(wǎng)絡(luò)和狀態(tài)估計網(wǎng)絡(luò)的參數(shù)银觅,而動作現(xiàn)實網(wǎng)絡(luò)和狀態(tài)現(xiàn)實網(wǎng)絡(luò)的參數(shù)是由前面兩個網(wǎng)絡(luò)每隔一定的時間復(fù)制過去的蜕衡。

我們先來說說Critic這邊,Critic這邊的學(xué)習(xí)過程跟DQN類似,我們都知道DQN根據(jù)下面的損失函數(shù)來進(jìn)行網(wǎng)絡(luò)學(xué)習(xí)慨仿,即現(xiàn)實的Q值和估計的Q值的平方損失:

上面式子中Q(S,A)是根據(jù)狀態(tài)估計網(wǎng)絡(luò)得到的久脯,A是動作估計網(wǎng)絡(luò)傳過來的動作。而前面部分R + gamma * maxQ(S',A')是現(xiàn)實的Q值镰吆,這里不一樣的是帘撰,我們計算現(xiàn)實的Q值,不在使用貪心算法万皿,來選擇動作A',而是動作現(xiàn)實網(wǎng)絡(luò)得到這里的A'摧找。總的來說牢硅,Critic的狀態(tài)估計網(wǎng)絡(luò)的訓(xùn)練還是基于現(xiàn)實的Q值和估計的Q值的平方損失蹬耘,估計的Q值根據(jù)當(dāng)前的狀態(tài)S和動作估計網(wǎng)絡(luò)輸出的動作A輸入狀態(tài)估計網(wǎng)絡(luò)得到,而現(xiàn)實的Q值根據(jù)現(xiàn)實的獎勵R减余,以及將下一時刻的狀態(tài)S'和動作現(xiàn)實網(wǎng)絡(luò)得到的動作A' 輸入到狀態(tài)現(xiàn)實網(wǎng)絡(luò) 而得到的Q值的折現(xiàn)值加和得到(這里運用的是貝爾曼方程)综苔。

我們再來說一下Actor這邊,論文中位岔,我們基于下面的式子進(jìn)行動作估計網(wǎng)絡(luò)的參數(shù):

這個式子看上去很嚇人如筛,但是其實理解起來很簡單。假如對同一個狀態(tài)抒抬,我們輸出了兩個不同的動作a1和a2杨刨,從狀態(tài)估計網(wǎng)絡(luò)得到了兩個反饋的Q值,分別是Q1和Q2擦剑,假設(shè)Q1>Q2,即采取動作1可以得到更多的獎勵妖胀,那么Policy gradient的思想是什么呢,就是增加a1的概率惠勒,降低a2的概率做粤,也就是說,Actor想要盡可能的得到更大的Q值捉撮。所以我們的Actor的損失可以簡單的理解為得到的反饋Q值越大損失越小,得到的反饋Q值越小損失越大妇垢,因此只要對狀態(tài)估計網(wǎng)絡(luò)返回的Q值取個負(fù)號就好啦巾遭。是不是很簡單。

DDPG學(xué)習(xí)中的小trick

與傳統(tǒng)的DQN不同的是闯估,傳統(tǒng)的DQN采用的是一種被稱為'hard'模式的target-net網(wǎng)絡(luò)參數(shù)更新灼舍,即每隔一定的步數(shù)就將eval-net中的網(wǎng)絡(luò)參數(shù)賦值過去,而在DDPG中涨薪,采用的是一種'soft'模式的target-net網(wǎng)絡(luò)參數(shù)更新骑素,即每一步都對target-net網(wǎng)絡(luò)中的參數(shù)更新一點點,這種參數(shù)更新方式經(jīng)過試驗表明可以大大的提高學(xué)習(xí)的穩(wěn)定性刚夺。'soft'模式到底是如何更新網(wǎng)絡(luò)的献丑?我們可以通過代碼更好的理解末捣。

論文中提到的另一個小trick是對采取的動作增加一定的噪聲:

DDPG的完整流程

介紹了這么多,我們也就能順利理解原文中的DDPG算法的流程:

2创橄、DDPG算法實現(xiàn)

好了箩做,原理介紹的差不多了,我們來看一下代碼的實現(xiàn)妥畏。本文的代碼仍然參考的是莫煩老師的代碼邦邦。

本文代碼的github地址為:https://github.com/princewen/tensorflow_practice/blob/master/Basic-DDPG/DDPG-update.py

定義超參數(shù)
我們首先定義網(wǎng)絡(luò)中的超參數(shù),比如經(jīng)驗池的大小醉蚁,兩個網(wǎng)絡(luò)的學(xué)習(xí)率等等:

MAX_EPISODES = 200
MAX_EP_STEPS = 200
LR_A = 0.001    # learning rate for actor
LR_C = 0.002    # learning rate for critic
GAMMA = 0.9     # reward discount
TAU = 0.01      # soft replacement
MEMORY_CAPACITY = 10000
BATCH_SIZE = 32

RENDER = False
ENV_NAME = 'Pendulum-v0'

定義網(wǎng)絡(luò)輸入
我們需要定義的placeholder包括當(dāng)前的狀態(tài)S燃辖,下一時刻的狀態(tài)S',以及對應(yīng)的獎勵R,而動作A由Actor得到网棍,因此不需要再定義:

self.S = tf.placeholder(tf.float32, [None, s_dim], 's')
self.S_ = tf.placeholder(tf.float32, [None, s_dim], 's_')
self.R = tf.placeholder(tf.float32, [None, 1], 'r')

構(gòu)建兩個網(wǎng)絡(luò)
兩個網(wǎng)絡(luò)都是兩層全鏈接的神經(jīng)網(wǎng)絡(luò)黔龟,Actor輸出一個具體的動作,而Critic網(wǎng)絡(luò)輸出一個具體的Q值

def _build_a(self, s, scope, trainable):
    with tf.variable_scope(scope):
        net = tf.layers.dense(s, 30, activation=tf.nn.relu, name='l1', trainable=trainable)
        a = tf.layers.dense(net, self.a_dim, activation=tf.nn.tanh, name='a', trainable=trainable)
        return tf.multiply(a, self.a_bound, name='scaled_a')

def _build_c(self, s, a, scope, trainable):
    with tf.variable_scope(scope):
        n_l1 = 30
        w1_s = tf.get_variable('w1_s', [self.s_dim, n_l1], trainable=trainable)
        w1_a = tf.get_variable('w1_a', [self.a_dim, n_l1], trainable=trainable)
        b1 = tf.get_variable('b1', [1, n_l1], trainable=trainable)
        net = tf.nn.relu(tf.matmul(s, w1_s) + tf.matmul(a, w1_a) + b1)
        return tf.layers.dense(net, 1, trainable=trainable)  # Q(s,a)

soft模式參數(shù)更新
可以看到确沸,我們這里進(jìn)行的是soft模式的參數(shù)更新捌锭,每次在原來target-net參數(shù)的基礎(chǔ)上,改變一丟丟罗捎,增加一點點eval-net的參數(shù)信息观谦。

# networks parameters
self.ae_params = tf.get_collection(tf.GraphKeys.GLOBAL_VARIABLES, scope='Actor/eval')
self.at_params = tf.get_collection(tf.GraphKeys.GLOBAL_VARIABLES, scope='Actor/target')
self.ce_params = tf.get_collection(tf.GraphKeys.GLOBAL_VARIABLES, scope='Critic/eval')
self.ct_params = tf.get_collection(tf.GraphKeys.GLOBAL_VARIABLES, scope='Critic/target')

# target net replacement
self.soft_replace = [[tf.assign(ta, (1 - TAU) * ta + TAU * ea), tf.assign(tc, (1 - TAU) * tc + TAU * ec)]
                     for ta, ea, tc, ec in zip(self.at_params, self.ae_params, self.ct_params, self.ce_params)]

定義兩個網(wǎng)絡(luò)的損失
關(guān)于兩個網(wǎng)絡(luò)的損失,我們之前已經(jīng)詳細(xì)介紹過了桨菜,這里只是對剛才思路的一個代碼實現(xiàn)豁状。

q_target = self.R + GAMMA * q_
# in the feed_dic for the td_error, the self.a should change to actions in memory
td_error = tf.losses.mean_squared_error(labels=q_target, predictions=q)
self.ctrain = tf.train.AdamOptimizer(LR_C).minimize(td_error, var_list=self.ce_params)

a_loss = - tf.reduce_mean(q)    # maximize the q
self.atrain = tf.train.AdamOptimizer(LR_A).minimize(a_loss, var_list=self.ae_params)

學(xué)習(xí)
我們首先要從經(jīng)驗池中取出一個batch的數(shù)據(jù),然后訓(xùn)練我們的Actor和Critic

def learn(self):
    # soft target replacement
    self.sess.run(self.soft_replace)

    indices = np.random.choice(MEMORY_CAPACITY, size=BATCH_SIZE)
    bt = self.memory[indices, :]
    bs = bt[:, :self.s_dim]
    ba = bt[:, self.s_dim: self.s_dim + self.a_dim]
    br = bt[:, -self.s_dim - 1: -self.s_dim]
    bs_ = bt[:, -self.s_dim:]

    self.sess.run(self.atrain, {self.S: bs})
    self.sess.run(self.ctrain, {self.S: bs, self.a: ba, self.R: br, self.S_: bs_})

存儲經(jīng)驗

def store_transition(self, s, a, r, s_):
    transition = np.hstack((s, a, [r], s_))
    index = self.pointer % MEMORY_CAPACITY  # replace the old memory with new memory
    self.memory[index, :] = transition
    self.pointer += 1

好啦倒得,我們這里就簡單介紹一下代碼中的核心部分泻红,其余的代碼大家可以參照github進(jìn)行學(xué)習(xí),祝大家清明節(jié)快樂霞掺,玩得開心谊路,學(xué)得開心!

參考文獻(xiàn):

1菩彬、https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/6-2-A-DDPG/
2缠劝、論文:https://arxiv.org/abs/1509.02971

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市骗灶,隨后出現(xiàn)的幾起案子惨恭,更是在濱河造成了極大的恐慌,老刑警劉巖耙旦,帶你破解...
    沈念sama閱讀 222,729評論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件脱羡,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)锉罐,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,226評論 3 399
  • 文/潘曉璐 我一進(jìn)店門帆竹,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人氓鄙,你說我怎么就攤上這事馆揉。” “怎么了抖拦?”我有些...
    開封第一講書人閱讀 169,461評論 0 362
  • 文/不壞的土叔 我叫張陵升酣,是天一觀的道長。 經(jīng)常有香客問我态罪,道長噩茄,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 60,135評論 1 300
  • 正文 為了忘掉前任复颈,我火速辦了婚禮绩聘,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘耗啦。我一直安慰自己凿菩,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 69,130評論 6 398
  • 文/花漫 我一把揭開白布帜讲。 她就那樣靜靜地躺著衅谷,像睡著了一般。 火紅的嫁衣襯著肌膚如雪似将。 梳的紋絲不亂的頭發(fā)上获黔,一...
    開封第一講書人閱讀 52,736評論 1 312
  • 那天,我揣著相機(jī)與錄音在验,去河邊找鬼玷氏。 笑死,一個胖子當(dāng)著我的面吹牛腋舌,可吹牛的內(nèi)容都是我干的米丘。 我是一名探鬼主播钱烟,決...
    沈念sama閱讀 41,179評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼结澄,長吁一口氣:“原來是場噩夢啊……” “哼劲阎!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起刨沦,我...
    開封第一講書人閱讀 40,124評論 0 277
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎膘怕,沒想到半個月后想诅,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,657評論 1 320
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,723評論 3 342
  • 正文 我和宋清朗相戀三年来破,在試婚紗的時候發(fā)現(xiàn)自己被綠了篮灼。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,872評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡徘禁,死狀恐怖诅诱,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情送朱,我是刑警寧澤娘荡,帶...
    沈念sama閱讀 36,533評論 5 351
  • 正文 年R本政府宣布,位于F島的核電站驶沼,受9級特大地震影響炮沐,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜回怜,卻給世界環(huán)境...
    茶點故事閱讀 42,213評論 3 336
  • 文/蒙蒙 一大年、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧玉雾,春花似錦翔试、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,700評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至赢底,卻和暖如春失都,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背幸冻。 一陣腳步聲響...
    開封第一講書人閱讀 33,819評論 1 274
  • 我被黑心中介騙來泰國打工粹庞, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人洽损。 一個月前我還...
    沈念sama閱讀 49,304評論 3 379
  • 正文 我出身青樓庞溜,卻偏偏與公主長得像,于是被迫代替她去往敵國和親碑定。 傳聞我的和親對象是個殘疾皇子流码,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,876評論 2 361

推薦閱讀更多精彩內(nèi)容