在之前的幾篇文章中醋闭,我們介紹了基于價值Value的強(qiáng)化學(xué)習(xí)算法Deep Q Network渠羞。有關(guān)DQN算法以及各種改進(jìn)算法的原理和實現(xiàn)赏廓,可以參考之前的文章:
實戰(zhàn)深度強(qiáng)化學(xué)習(xí)DQN-理論和實踐:http://www.reibang.com/p/10930c371cac
DQN三大改進(jìn)(一)-Double DQN:http://www.reibang.com/p/fae51b5fe000
DQN三大改進(jìn)(二)-Prioritised replay:http://www.reibang.com/p/db14fdc67d2c
DQN三大改進(jìn)(三)-Dueling Network:http://www.reibang.com/p/b421c85796a2
基于值的強(qiáng)化學(xué)習(xí)算法的基本思想是根據(jù)當(dāng)前的狀態(tài),計算采取每個動作的價值志于,然后根據(jù)價值貪心的選擇動作突勇。如果我們省略中間的步驟装盯,即直接根據(jù)當(dāng)前的狀態(tài)來選擇動作〖撞觯基于這種思想我們就引出了強(qiáng)化學(xué)習(xí)中另一類很重要的算法验夯,即策略梯度(Policy Gradient)。之前我們已經(jīng)介紹過策略梯度的基本思想和實現(xiàn)了摔刁,大家可以有選擇的進(jìn)行預(yù)習(xí)和復(fù)習(xí):
深度強(qiáng)化學(xué)習(xí)-Policy Gradient基本實現(xiàn):http://www.reibang.com/p/2ccbab48414b
當(dāng)基于值的強(qiáng)化學(xué)習(xí)方法和基于策略梯度的強(qiáng)化學(xué)習(xí)方法相結(jié)合,我們就產(chǎn)生了Actor-Critic方法海蔽,關(guān)于這個方法的介紹共屈,可以參考文章:
深度強(qiáng)化學(xué)習(xí)-Actor-Critic算法原理和實現(xiàn):http://www.reibang.com/p/25c09ae3d206
但是對于Actor-Critic算法來說,模型涉及到了兩個神經(jīng)網(wǎng)絡(luò), 而且每次都是在連續(xù)狀態(tài)中更新參數(shù), 每次參數(shù)更新前后都存在相關(guān)性, 即模型的訓(xùn)練數(shù)據(jù)不再是獨立同分布党窜,這導(dǎo)致神經(jīng)網(wǎng)絡(luò)只能片面的看待問題, 甚至導(dǎo)致神經(jīng)網(wǎng)絡(luò)學(xué)不到東西拗引。想想我們之前介紹的DQN是如何解決的這個問題的?就是建立了兩個網(wǎng)絡(luò)幌衣,一個target網(wǎng)絡(luò)矾削,一個eval網(wǎng)絡(luò),同時使用了經(jīng)驗回放機(jī)制豁护!那么如果在Actor-Critic網(wǎng)絡(luò)結(jié)構(gòu)中加入這兩個機(jī)制哼凯,就得到了一種新的強(qiáng)化學(xué)習(xí)模型:Deep Deterministic Policy Gradient,簡稱DDPG楚里!可以說Actor-Critic + DQN = DDPG断部,今天,我們就來一探DDPG的究竟班缎!
1蝴光、DDPG原理
什么是DDPG呢
什么是DDPG呢她渴?前面我們介紹過了,它是Actor-Critic 和 DQN 算法的結(jié)合體蔑祟。
DDPG的全稱是Deep Deterministic Policy Gradient趁耗。
我們首先來看Deep,正如Q-learning加上一個Deep就變成了DQN一樣疆虚,這里的Deep即同樣使用DQN中的經(jīng)驗池和雙網(wǎng)絡(luò)結(jié)構(gòu)來促進(jìn)神經(jīng)網(wǎng)絡(luò)能夠有效學(xué)習(xí)苛败。
再來看Deterministic,即我們的Actor不再輸出每個動作的概率装蓬,而是一個具體的動作著拭,這更有助于我們連續(xù)動作空間中進(jìn)行學(xué)習(xí)。之前不太理解這個連續(xù)動作空間是什么意思牍帚,既然policy gradient和dqn都是輸出每個動作的概率和q值儡遮,那么我們?yōu)槭裁催€要用policy gradient呢?這個連續(xù)動作空間的例子可以舉一個么暗赶?既然已經(jīng)誠心誠意的發(fā)問了鄙币,那么我就班門弄斧回答一下。假如想要通過強(qiáng)化學(xué)習(xí)得到一個詞的32維詞向量蹂随,哇十嘿,這個詞向量的動作空間可是無限大的呀,[1,0....0]是一個動作岳锁,[0,1...0]是一個動作绩衷,如果加上小數(shù),那更是數(shù)不過來啦激率,這時候我們根本不可能去計算每個動作的概率或者q值咳燕,我們只能給定狀態(tài)即一個單詞,直接輸出一個合適的詞向量乒躺。類似于這種情況招盲,DDPG就可以大顯神威了。
DDPG的網(wǎng)絡(luò)結(jié)構(gòu)
盜用莫煩老師的一張圖片來形象的表示DDPG的網(wǎng)絡(luò)結(jié)構(gòu)嘉冒,同圖片里一樣曹货,我們稱Actor里面的兩個網(wǎng)絡(luò)分別是動作估計網(wǎng)絡(luò)和動作現(xiàn)實網(wǎng)絡(luò),我們稱Critic中的兩個網(wǎng)絡(luò)分別是狀態(tài)現(xiàn)實網(wǎng)絡(luò)和狀態(tài)估計網(wǎng)絡(luò):
我們采用了類似DQN的雙網(wǎng)絡(luò)結(jié)構(gòu)讳推,而且Actor和Critic都有target-net和eval-net顶籽。我們需要強(qiáng)調(diào)一點的事,我們只需要訓(xùn)練動作估計網(wǎng)絡(luò)和狀態(tài)估計網(wǎng)絡(luò)的參數(shù)银觅,而動作現(xiàn)實網(wǎng)絡(luò)和狀態(tài)現(xiàn)實網(wǎng)絡(luò)的參數(shù)是由前面兩個網(wǎng)絡(luò)每隔一定的時間復(fù)制過去的蜕衡。
我們先來說說Critic這邊,Critic這邊的學(xué)習(xí)過程跟DQN類似,我們都知道DQN根據(jù)下面的損失函數(shù)來進(jìn)行網(wǎng)絡(luò)學(xué)習(xí)慨仿,即現(xiàn)實的Q值和估計的Q值的平方損失:
上面式子中Q(S,A)是根據(jù)狀態(tài)估計網(wǎng)絡(luò)得到的久脯,A是動作估計網(wǎng)絡(luò)傳過來的動作。而前面部分R + gamma * maxQ(S',A')是現(xiàn)實的Q值镰吆,這里不一樣的是帘撰,我們計算現(xiàn)實的Q值,不在使用貪心算法万皿,來選擇動作A',而是動作現(xiàn)實網(wǎng)絡(luò)得到這里的A'摧找。總的來說牢硅,Critic的狀態(tài)估計網(wǎng)絡(luò)的訓(xùn)練還是基于現(xiàn)實的Q值和估計的Q值的平方損失蹬耘,估計的Q值根據(jù)當(dāng)前的狀態(tài)S和動作估計網(wǎng)絡(luò)輸出的動作A輸入狀態(tài)估計網(wǎng)絡(luò)得到,而現(xiàn)實的Q值根據(jù)現(xiàn)實的獎勵R减余,以及將下一時刻的狀態(tài)S'和動作現(xiàn)實網(wǎng)絡(luò)得到的動作A' 輸入到狀態(tài)現(xiàn)實網(wǎng)絡(luò) 而得到的Q值的折現(xiàn)值加和得到(這里運用的是貝爾曼方程)综苔。
我們再來說一下Actor這邊,論文中位岔,我們基于下面的式子進(jìn)行動作估計網(wǎng)絡(luò)的參數(shù):
這個式子看上去很嚇人如筛,但是其實理解起來很簡單。假如對同一個狀態(tài)抒抬,我們輸出了兩個不同的動作a1和a2杨刨,從狀態(tài)估計網(wǎng)絡(luò)得到了兩個反饋的Q值,分別是Q1和Q2擦剑,假設(shè)Q1>Q2,即采取動作1可以得到更多的獎勵妖胀,那么Policy gradient的思想是什么呢,就是增加a1的概率惠勒,降低a2的概率做粤,也就是說,Actor想要盡可能的得到更大的Q值捉撮。所以我們的Actor的損失可以簡單的理解為得到的反饋Q值越大損失越小,得到的反饋Q值越小損失越大妇垢,因此只要對狀態(tài)估計網(wǎng)絡(luò)返回的Q值取個負(fù)號就好啦巾遭。是不是很簡單。
DDPG學(xué)習(xí)中的小trick
與傳統(tǒng)的DQN不同的是闯估,傳統(tǒng)的DQN采用的是一種被稱為'hard'模式的target-net網(wǎng)絡(luò)參數(shù)更新灼舍,即每隔一定的步數(shù)就將eval-net中的網(wǎng)絡(luò)參數(shù)賦值過去,而在DDPG中涨薪,采用的是一種'soft'模式的target-net網(wǎng)絡(luò)參數(shù)更新骑素,即每一步都對target-net網(wǎng)絡(luò)中的參數(shù)更新一點點,這種參數(shù)更新方式經(jīng)過試驗表明可以大大的提高學(xué)習(xí)的穩(wěn)定性刚夺。'soft'模式到底是如何更新網(wǎng)絡(luò)的献丑?我們可以通過代碼更好的理解末捣。
論文中提到的另一個小trick是對采取的動作增加一定的噪聲:
DDPG的完整流程
介紹了這么多,我們也就能順利理解原文中的DDPG算法的流程:
2创橄、DDPG算法實現(xiàn)
好了箩做,原理介紹的差不多了,我們來看一下代碼的實現(xiàn)妥畏。本文的代碼仍然參考的是莫煩老師的代碼邦邦。
本文代碼的github地址為:https://github.com/princewen/tensorflow_practice/blob/master/Basic-DDPG/DDPG-update.py
定義超參數(shù)
我們首先定義網(wǎng)絡(luò)中的超參數(shù),比如經(jīng)驗池的大小醉蚁,兩個網(wǎng)絡(luò)的學(xué)習(xí)率等等:
MAX_EPISODES = 200
MAX_EP_STEPS = 200
LR_A = 0.001 # learning rate for actor
LR_C = 0.002 # learning rate for critic
GAMMA = 0.9 # reward discount
TAU = 0.01 # soft replacement
MEMORY_CAPACITY = 10000
BATCH_SIZE = 32
RENDER = False
ENV_NAME = 'Pendulum-v0'
定義網(wǎng)絡(luò)輸入
我們需要定義的placeholder包括當(dāng)前的狀態(tài)S燃辖,下一時刻的狀態(tài)S',以及對應(yīng)的獎勵R,而動作A由Actor得到网棍,因此不需要再定義:
self.S = tf.placeholder(tf.float32, [None, s_dim], 's')
self.S_ = tf.placeholder(tf.float32, [None, s_dim], 's_')
self.R = tf.placeholder(tf.float32, [None, 1], 'r')
構(gòu)建兩個網(wǎng)絡(luò)
兩個網(wǎng)絡(luò)都是兩層全鏈接的神經(jīng)網(wǎng)絡(luò)黔龟,Actor輸出一個具體的動作,而Critic網(wǎng)絡(luò)輸出一個具體的Q值
def _build_a(self, s, scope, trainable):
with tf.variable_scope(scope):
net = tf.layers.dense(s, 30, activation=tf.nn.relu, name='l1', trainable=trainable)
a = tf.layers.dense(net, self.a_dim, activation=tf.nn.tanh, name='a', trainable=trainable)
return tf.multiply(a, self.a_bound, name='scaled_a')
def _build_c(self, s, a, scope, trainable):
with tf.variable_scope(scope):
n_l1 = 30
w1_s = tf.get_variable('w1_s', [self.s_dim, n_l1], trainable=trainable)
w1_a = tf.get_variable('w1_a', [self.a_dim, n_l1], trainable=trainable)
b1 = tf.get_variable('b1', [1, n_l1], trainable=trainable)
net = tf.nn.relu(tf.matmul(s, w1_s) + tf.matmul(a, w1_a) + b1)
return tf.layers.dense(net, 1, trainable=trainable) # Q(s,a)
soft模式參數(shù)更新
可以看到确沸,我們這里進(jìn)行的是soft模式的參數(shù)更新捌锭,每次在原來target-net參數(shù)的基礎(chǔ)上,改變一丟丟罗捎,增加一點點eval-net的參數(shù)信息观谦。
# networks parameters
self.ae_params = tf.get_collection(tf.GraphKeys.GLOBAL_VARIABLES, scope='Actor/eval')
self.at_params = tf.get_collection(tf.GraphKeys.GLOBAL_VARIABLES, scope='Actor/target')
self.ce_params = tf.get_collection(tf.GraphKeys.GLOBAL_VARIABLES, scope='Critic/eval')
self.ct_params = tf.get_collection(tf.GraphKeys.GLOBAL_VARIABLES, scope='Critic/target')
# target net replacement
self.soft_replace = [[tf.assign(ta, (1 - TAU) * ta + TAU * ea), tf.assign(tc, (1 - TAU) * tc + TAU * ec)]
for ta, ea, tc, ec in zip(self.at_params, self.ae_params, self.ct_params, self.ce_params)]
定義兩個網(wǎng)絡(luò)的損失
關(guān)于兩個網(wǎng)絡(luò)的損失,我們之前已經(jīng)詳細(xì)介紹過了桨菜,這里只是對剛才思路的一個代碼實現(xiàn)豁状。
q_target = self.R + GAMMA * q_
# in the feed_dic for the td_error, the self.a should change to actions in memory
td_error = tf.losses.mean_squared_error(labels=q_target, predictions=q)
self.ctrain = tf.train.AdamOptimizer(LR_C).minimize(td_error, var_list=self.ce_params)
a_loss = - tf.reduce_mean(q) # maximize the q
self.atrain = tf.train.AdamOptimizer(LR_A).minimize(a_loss, var_list=self.ae_params)
學(xué)習(xí)
我們首先要從經(jīng)驗池中取出一個batch的數(shù)據(jù),然后訓(xùn)練我們的Actor和Critic
def learn(self):
# soft target replacement
self.sess.run(self.soft_replace)
indices = np.random.choice(MEMORY_CAPACITY, size=BATCH_SIZE)
bt = self.memory[indices, :]
bs = bt[:, :self.s_dim]
ba = bt[:, self.s_dim: self.s_dim + self.a_dim]
br = bt[:, -self.s_dim - 1: -self.s_dim]
bs_ = bt[:, -self.s_dim:]
self.sess.run(self.atrain, {self.S: bs})
self.sess.run(self.ctrain, {self.S: bs, self.a: ba, self.R: br, self.S_: bs_})
存儲經(jīng)驗
def store_transition(self, s, a, r, s_):
transition = np.hstack((s, a, [r], s_))
index = self.pointer % MEMORY_CAPACITY # replace the old memory with new memory
self.memory[index, :] = transition
self.pointer += 1
好啦倒得,我們這里就簡單介紹一下代碼中的核心部分泻红,其余的代碼大家可以參照github進(jìn)行學(xué)習(xí),祝大家清明節(jié)快樂霞掺,玩得開心谊路,學(xué)得開心!
參考文獻(xiàn):
1菩彬、https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/6-2-A-DDPG/
2缠劝、論文:https://arxiv.org/abs/1509.02971