深度強(qiáng)化學(xué)習(xí)-DDPG算法原理和實現(xiàn)

在之前的幾篇文章中醋闭，我們介紹了基于價值Value的強(qiáng)化學(xué)習(xí)算法Deep Q Network渠羞。有關(guān)DQN算法以及各種改進(jìn)算法的原理和實現(xiàn)赏廓，可以參考之前的文章：

實戰(zhàn)深度強(qiáng)化學(xué)習(xí)DQN-理論和實踐：http://www.reibang.com/p/10930c371cac
DQN三大改進(jìn)(一)-Double DQN：http://www.reibang.com/p/fae51b5fe000
DQN三大改進(jìn)(二)-Prioritised replay：http://www.reibang.com/p/db14fdc67d2c
DQN三大改進(jìn)(三)-Dueling Network：http://www.reibang.com/p/b421c85796a2

基于值的強(qiáng)化學(xué)習(xí)算法的基本思想是根據(jù)當(dāng)前的狀態(tài)，計算采取每個動作的價值志于，然后根據(jù)價值貪心的選擇動作突勇。如果我們省略中間的步驟装盯，即直接根據(jù)當(dāng)前的狀態(tài)來選擇動作〖撞觯基于這種思想我們就引出了強(qiáng)化學(xué)習(xí)中另一類很重要的算法验夯，即策略梯度(Policy Gradient)。之前我們已經(jīng)介紹過策略梯度的基本思想和實現(xiàn)了摔刁，大家可以有選擇的進(jìn)行預(yù)習(xí)和復(fù)習(xí)：

深度強(qiáng)化學(xué)習(xí)-Policy Gradient基本實現(xiàn):http://www.reibang.com/p/2ccbab48414b

當(dāng)基于值的強(qiáng)化學(xué)習(xí)方法和基于策略梯度的強(qiáng)化學(xué)習(xí)方法相結(jié)合，我們就產(chǎn)生了Actor-Critic方法海蔽，關(guān)于這個方法的介紹共屈，可以參考文章：

深度強(qiáng)化學(xué)習(xí)-Actor-Critic算法原理和實現(xiàn)：http://www.reibang.com/p/25c09ae3d206

但是對于Actor-Critic算法來說，模型涉及到了兩個神經(jīng)網(wǎng)絡(luò), 而且每次都是在連續(xù)狀態(tài)中更新參數(shù), 每次參數(shù)更新前后都存在相關(guān)性, 即模型的訓(xùn)練數(shù)據(jù)不再是獨立同分布党窜，這導(dǎo)致神經(jīng)網(wǎng)絡(luò)只能片面的看待問題, 甚至導(dǎo)致神經(jīng)網(wǎng)絡(luò)學(xué)不到東西拗引。想想我們之前介紹的DQN是如何解決的這個問題的？就是建立了兩個網(wǎng)絡(luò)幌衣，一個target網(wǎng)絡(luò)矾削，一個eval網(wǎng)絡(luò)，同時使用了經(jīng)驗回放機(jī)制豁护！那么如果在Actor-Critic網(wǎng)絡(luò)結(jié)構(gòu)中加入這兩個機(jī)制哼凯，就得到了一種新的強(qiáng)化學(xué)習(xí)模型：Deep Deterministic Policy Gradient，簡稱DDPG楚里！可以說Actor-Critic + DQN = DDPG断部，今天，我們就來一探DDPG的究竟班缎！

1蝴光、DDPG原理

什么是DDPG呢

什么是DDPG呢她渴？前面我們介紹過了，它是Actor-Critic 和 DQN 算法的結(jié)合體蔑祟。

DDPG的全稱是Deep Deterministic Policy Gradient趁耗。

我們首先來看Deep，正如Q-learning加上一個Deep就變成了DQN一樣疆虚，這里的Deep即同樣使用DQN中的經(jīng)驗池和雙網(wǎng)絡(luò)結(jié)構(gòu)來促進(jìn)神經(jīng)網(wǎng)絡(luò)能夠有效學(xué)習(xí)苛败。

再來看Deterministic，即我們的Actor不再輸出每個動作的概率装蓬，而是一個具體的動作著拭，這更有助于我們連續(xù)動作空間中進(jìn)行學(xué)習(xí)。之前不太理解這個連續(xù)動作空間是什么意思牍帚，既然policy gradient和dqn都是輸出每個動作的概率和q值儡遮，那么我們?yōu)槭裁催€要用policy gradient呢？這個連續(xù)動作空間的例子可以舉一個么暗赶？既然已經(jīng)誠心誠意的發(fā)問了鄙币，那么我就班門弄斧回答一下。假如想要通過強(qiáng)化學(xué)習(xí)得到一個詞的32維詞向量蹂随，哇十嘿，這個詞向量的動作空間可是無限大的呀，[1,0....0]是一個動作岳锁，[0,1...0]是一個動作绩衷，如果加上小數(shù)，那更是數(shù)不過來啦激率，這時候我們根本不可能去計算每個動作的概率或者q值咳燕，我們只能給定狀態(tài)即一個單詞，直接輸出一個合適的詞向量乒躺。類似于這種情況招盲，DDPG就可以大顯神威了。

DDPG的網(wǎng)絡(luò)結(jié)構(gòu)
盜用莫煩老師的一張圖片來形象的表示DDPG的網(wǎng)絡(luò)結(jié)構(gòu)嘉冒，同圖片里一樣曹货，我們稱Actor里面的兩個網(wǎng)絡(luò)分別是動作估計網(wǎng)絡(luò)和動作現(xiàn)實網(wǎng)絡(luò)，我們稱Critic中的兩個網(wǎng)絡(luò)分別是狀態(tài)現(xiàn)實網(wǎng)絡(luò)和狀態(tài)估計網(wǎng)絡(luò)：

我們采用了類似DQN的雙網(wǎng)絡(luò)結(jié)構(gòu)讳推，而且Actor和Critic都有target-net和eval-net顶籽。我們需要強(qiáng)調(diào)一點的事，我們只需要訓(xùn)練動作估計網(wǎng)絡(luò)和狀態(tài)估計網(wǎng)絡(luò)的參數(shù)银觅，而動作現(xiàn)實網(wǎng)絡(luò)和狀態(tài)現(xiàn)實網(wǎng)絡(luò)的參數(shù)是由前面兩個網(wǎng)絡(luò)每隔一定的時間復(fù)制過去的蜕衡。

我們先來說說Critic這邊，Critic這邊的學(xué)習(xí)過程跟DQN類似，我們都知道DQN根據(jù)下面的損失函數(shù)來進(jìn)行網(wǎng)絡(luò)學(xué)習(xí)慨仿，即現(xiàn)實的Q值和估計的Q值的平方損失：

上面式子中Q(S,A)是根據(jù)狀態(tài)估計網(wǎng)絡(luò)得到的久脯，A是動作估計網(wǎng)絡(luò)傳過來的動作。而前面部分R + gamma * maxQ(S',A')是現(xiàn)實的Q值镰吆，這里不一樣的是帘撰，我們計算現(xiàn)實的Q值，不在使用貪心算法万皿，來選擇動作A',而是動作現(xiàn)實網(wǎng)絡(luò)得到這里的A'摧找。總的來說牢硅，Critic的狀態(tài)估計網(wǎng)絡(luò)的訓(xùn)練還是基于現(xiàn)實的Q值和估計的Q值的平方損失蹬耘，估計的Q值根據(jù)當(dāng)前的狀態(tài)S和動作估計網(wǎng)絡(luò)輸出的動作A輸入狀態(tài)估計網(wǎng)絡(luò)得到，而現(xiàn)實的Q值根據(jù)現(xiàn)實的獎勵R减余，以及將下一時刻的狀態(tài)S'和動作現(xiàn)實網(wǎng)絡(luò)得到的動作A' 輸入到狀態(tài)現(xiàn)實網(wǎng)絡(luò) 而得到的Q值的折現(xiàn)值加和得到(這里運用的是貝爾曼方程)综苔。

我們再來說一下Actor這邊，論文中位岔，我們基于下面的式子進(jìn)行動作估計網(wǎng)絡(luò)的參數(shù)：

這個式子看上去很嚇人如筛，但是其實理解起來很簡單。假如對同一個狀態(tài)抒抬，我們輸出了兩個不同的動作a1和a2杨刨，從狀態(tài)估計網(wǎng)絡(luò)得到了兩個反饋的Q值，分別是Q1和Q2擦剑，假設(shè)Q1>Q2,即采取動作1可以得到更多的獎勵妖胀，那么Policy gradient的思想是什么呢，就是增加a1的概率惠勒，降低a2的概率做粤，也就是說，Actor想要盡可能的得到更大的Q值捉撮。所以我們的Actor的損失可以簡單的理解為得到的反饋Q值越大損失越小，得到的反饋Q值越小損失越大妇垢，因此只要對狀態(tài)估計網(wǎng)絡(luò)返回的Q值取個負(fù)號就好啦巾遭。是不是很簡單。

DDPG學(xué)習(xí)中的小trick

與傳統(tǒng)的DQN不同的是闯估，傳統(tǒng)的DQN采用的是一種被稱為'hard'模式的target-net網(wǎng)絡(luò)參數(shù)更新灼舍，即每隔一定的步數(shù)就將eval-net中的網(wǎng)絡(luò)參數(shù)賦值過去，而在DDPG中涨薪，采用的是一種'soft'模式的target-net網(wǎng)絡(luò)參數(shù)更新骑素，即每一步都對target-net網(wǎng)絡(luò)中的參數(shù)更新一點點，這種參數(shù)更新方式經(jīng)過試驗表明可以大大的提高學(xué)習(xí)的穩(wěn)定性刚夺。'soft'模式到底是如何更新網(wǎng)絡(luò)的献丑？我們可以通過代碼更好的理解末捣。

論文中提到的另一個小trick是對采取的動作增加一定的噪聲：

DDPG的完整流程

介紹了這么多，我們也就能順利理解原文中的DDPG算法的流程：

2创橄、DDPG算法實現(xiàn)

好了箩做，原理介紹的差不多了，我們來看一下代碼的實現(xiàn)妥畏。本文的代碼仍然參考的是莫煩老師的代碼邦邦。

本文代碼的github地址為：https://github.com/princewen/tensorflow_practice/blob/master/Basic-DDPG/DDPG-update.py

定義超參數(shù)
我們首先定義網(wǎng)絡(luò)中的超參數(shù)，比如經(jīng)驗池的大小醉蚁，兩個網(wǎng)絡(luò)的學(xué)習(xí)率等等:

MAX_EPISODES = 200
MAX_EP_STEPS = 200
LR_A = 0.001    # learning rate for actor
LR_C = 0.002    # learning rate for critic
GAMMA = 0.9     # reward discount
TAU = 0.01      # soft replacement
MEMORY_CAPACITY = 10000
BATCH_SIZE = 32

RENDER = False
ENV_NAME = 'Pendulum-v0'

定義網(wǎng)絡(luò)輸入
我們需要定義的placeholder包括當(dāng)前的狀態(tài)S燃辖，下一時刻的狀態(tài)S',以及對應(yīng)的獎勵R，而動作A由Actor得到网棍，因此不需要再定義：

self.S = tf.placeholder(tf.float32, [None, s_dim], 's')
self.S_ = tf.placeholder(tf.float32, [None, s_dim], 's_')
self.R = tf.placeholder(tf.float32, [None, 1], 'r')

構(gòu)建兩個網(wǎng)絡(luò)
兩個網(wǎng)絡(luò)都是兩層全鏈接的神經(jīng)網(wǎng)絡(luò)黔龟，Actor輸出一個具體的動作，而Critic網(wǎng)絡(luò)輸出一個具體的Q值

def _build_a(self, s, scope, trainable):
    with tf.variable_scope(scope):
        net = tf.layers.dense(s, 30, activation=tf.nn.relu, name='l1', trainable=trainable)
        a = tf.layers.dense(net, self.a_dim, activation=tf.nn.tanh, name='a', trainable=trainable)
        return tf.multiply(a, self.a_bound, name='scaled_a')

def _build_c(self, s, a, scope, trainable):
    with tf.variable_scope(scope):
        n_l1 = 30
        w1_s = tf.get_variable('w1_s', [self.s_dim, n_l1], trainable=trainable)
        w1_a = tf.get_variable('w1_a', [self.a_dim, n_l1], trainable=trainable)
        b1 = tf.get_variable('b1', [1, n_l1], trainable=trainable)
        net = tf.nn.relu(tf.matmul(s, w1_s) + tf.matmul(a, w1_a) + b1)
        return tf.layers.dense(net, 1, trainable=trainable)  # Q(s,a)

soft模式參數(shù)更新
可以看到确沸，我們這里進(jìn)行的是soft模式的參數(shù)更新捌锭，每次在原來target-net參數(shù)的基礎(chǔ)上，改變一丟丟罗捎，增加一點點eval-net的參數(shù)信息观谦。

# networks parameters
self.ae_params = tf.get_collection(tf.GraphKeys.GLOBAL_VARIABLES, scope='Actor/eval')
self.at_params = tf.get_collection(tf.GraphKeys.GLOBAL_VARIABLES, scope='Actor/target')
self.ce_params = tf.get_collection(tf.GraphKeys.GLOBAL_VARIABLES, scope='Critic/eval')
self.ct_params = tf.get_collection(tf.GraphKeys.GLOBAL_VARIABLES, scope='Critic/target')

# target net replacement
self.soft_replace = [[tf.assign(ta, (1 - TAU) * ta + TAU * ea), tf.assign(tc, (1 - TAU) * tc + TAU * ec)]
                     for ta, ea, tc, ec in zip(self.at_params, self.ae_params, self.ct_params, self.ce_params)]

定義兩個網(wǎng)絡(luò)的損失
關(guān)于兩個網(wǎng)絡(luò)的損失，我們之前已經(jīng)詳細(xì)介紹過了桨菜，這里只是對剛才思路的一個代碼實現(xiàn)豁状。

q_target = self.R + GAMMA * q_
# in the feed_dic for the td_error, the self.a should change to actions in memory
td_error = tf.losses.mean_squared_error(labels=q_target, predictions=q)
self.ctrain = tf.train.AdamOptimizer(LR_C).minimize(td_error, var_list=self.ce_params)

a_loss = - tf.reduce_mean(q)    # maximize the q
self.atrain = tf.train.AdamOptimizer(LR_A).minimize(a_loss, var_list=self.ae_params)

學(xué)習(xí)
我們首先要從經(jīng)驗池中取出一個batch的數(shù)據(jù)，然后訓(xùn)練我們的Actor和Critic

def learn(self):
    # soft target replacement
    self.sess.run(self.soft_replace)

    indices = np.random.choice(MEMORY_CAPACITY, size=BATCH_SIZE)
    bt = self.memory[indices, :]
    bs = bt[:, :self.s_dim]
    ba = bt[:, self.s_dim: self.s_dim + self.a_dim]
    br = bt[:, -self.s_dim - 1: -self.s_dim]
    bs_ = bt[:, -self.s_dim:]

    self.sess.run(self.atrain, {self.S: bs})
    self.sess.run(self.ctrain, {self.S: bs, self.a: ba, self.R: br, self.S_: bs_})

存儲經(jīng)驗

def store_transition(self, s, a, r, s_):
    transition = np.hstack((s, a, [r], s_))
    index = self.pointer % MEMORY_CAPACITY  # replace the old memory with new memory
    self.memory[index, :] = transition
    self.pointer += 1

好啦倒得，我們這里就簡單介紹一下代碼中的核心部分泻红，其余的代碼大家可以參照github進(jìn)行學(xué)習(xí)，祝大家清明節(jié)快樂霞掺，玩得開心谊路，學(xué)得開心！

參考文獻(xiàn)：

1菩彬、https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/6-2-A-DDPG/
2缠劝、論文：https://arxiv.org/abs/1509.02971

最后編輯于：2018.04.05 20:28:25

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市骗灶，隨后出現(xiàn)的幾起案子惨恭，更是在濱河造成了極大的恐慌，老刑警劉巖耙旦，帶你破解...
沈念sama閱讀 222,729評論 6贊 517
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件脱羡，死亡現(xiàn)場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)锉罐，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 95,226評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門帆竹，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人氓鄙，你說我怎么就攤上這事馆揉。” “怎么了抖拦？”我有些...
開封第一講書人閱讀 169,461評論 0贊 362
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵升酣，是天一觀的道長。經(jīng)常有香客問我态罪，道長噩茄，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 60,135評論 1贊 300
?港島之戀（遺憾婚禮）
正文為了忘掉前任复颈，我火速辦了婚禮绩聘，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘耗啦。我一直安慰自己凿菩，他們只是感情好，可當(dāng)我...
茶點故事閱讀 69,130評論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布帜讲。她就那樣靜靜地躺著衅谷，像睡著了一般。火紅的嫁衣襯著肌膚如雪似将。梳的紋絲不亂的頭發(fā)上获黔，一...
開封第一講書人閱讀 52,736評論 1贊 312
城市分裂傳說
那天，我揣著相機(jī)與錄音在验，去河邊找鬼玷氏。笑死，一個胖子當(dāng)著我的面吹牛腋舌，可吹牛的內(nèi)容都是我干的米丘。我是一名探鬼主播钱烟，決...
沈念sama閱讀 41,179評論 3贊 422
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼结澄，長吁一口氣：“原來是場噩夢啊……” “哼劲阎！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起刨沦，我...
開封第一講書人閱讀 40,124評論 0贊 277
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎膘怕，沒想到半個月后想诅，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 46,657評論 1贊 320
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,723評論 3贊 342
?白月光啟示錄
正文我和宋清朗相戀三年来破，在試婚紗的時候發(fā)現(xiàn)自己被綠了篮灼。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 40,872評論 1贊 353
活死人
序言：一個原本活蹦亂跳的男人離奇死亡徘禁，死狀恐怖诅诱，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情送朱，我是刑警寧澤娘荡，帶...
沈念sama閱讀 36,533評論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站驶沼，受9級特大地震影響炮沐，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜回怜，卻給世界環(huán)境...
茶點故事閱讀 42,213評論 3贊 336
男人毒藥：我在死后第九天來索命
文/蒙蒙一大年、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧玉雾，春花似錦翔试、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,700評論 0贊 25
一樁弒父案垦缅，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至赢底，卻和暖如春失都，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背幸冻。一陣腳步聲響...
開封第一講書人閱讀 33,819評論 1贊 274
情欲美人皮
我被黑心中介騙來泰國打工粹庞，沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人洽损。一個月前我還...
沈念sama閱讀 49,304評論 3贊 379
代替公主和親
正文我出身青樓庞溜，卻偏偏與公主長得像，于是被迫代替她去往敵國和親碑定。傳聞我的和親對象是個殘疾皇子流码，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 45,876評論 2贊 361

深度強(qiáng)化學(xué)習(xí)-DDPG算法原理和實現(xiàn)

1蝴光、DDPG原理

2创橄、DDPG算法實現(xiàn)

參考文獻(xiàn)：

推薦閱讀更多精彩內(nèi)容