關(guān)于強(qiáng)化學(xué)習(xí)(2)

根據(jù) Simple statistical gradient-following algorithms for connectionist reinforcement learning

5. 段落式(Episodic)的REINFORCE算法

該部分主要是將我們已有的算法進(jìn)行擴(kuò)展, 擴(kuò)展到擁有temporal credit-assignment component的問題上.

特別地, 我們假設(shè)一個網(wǎng)絡(luò) $N$ , 基于一段一段這樣來訓(xùn)練, 每一段都包含 $k$ 個時間步, 每一個時間步, 許多單元會重新計算它們的輸出, 整個環(huán)境可能會改變其非強(qiáng)化的輸入, 在每一段的結(jié)束的時候, 一個強(qiáng)化值 $r$ 將會被傳遞到網(wǎng)絡(luò) $N$ .

該算法的引出是基于使用按時間展開(unfolding-in-time)進(jìn)行映射, 即當(dāng)任意的一個網(wǎng)絡(luò) $N$ 在一個時間周期中進(jìn)行操作, 另一個網(wǎng)絡(luò) $N^*$ 沒有周期但是展現(xiàn)對應(yīng)的行為. 展開的網(wǎng)絡(luò) $N^*$ 通過在每一個時間步對 $N$ 進(jìn)行復(fù)制來獲得.

形式化來說, 這相當(dāng)于和每一個在 $N$ 中的時間依賴的變量 $v$ 聯(lián)系起來, 對應(yīng)的 $N^*$ 以時間為索引的集合 $\{v^t\}$ , 其中 $N^*$ 中的變量并不依賴于時間, 在 $N$ 中的 $w_{ij}$ 就對應(yīng) $N^*$ 中的 $\{w_{ij}^t\}$ .

給出參數(shù) $w_{ij}$ 的增量形式:
$\Delta w_{ij}=\alpha_{ij}(r-b_{ij})\sum_{t=1}^k{e_{ij}(t)}$

上述形式和我們之前給的形式有點類似, 唯一出現(xiàn)改動的地方就是 $e_{ij}$ 變?yōu)?img class="math-inline" src="https://math.jianshu.com/math?formula=%5Csum_%7Bt%3D1%7D%5Ek%7Be_%7Bij%7D(t)%7D" alt="\sum_{t=1}^k{e_{ij}(t)}" mathimg="1">
這個對應(yīng)于非周期的網(wǎng)絡(luò) $N^*$ , 即 $e_{ij}(t)=e_{ij}^t$

我們舉個例子吧, 一個內(nèi)部全連接的遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network), 使用伯努利-邏輯斯蒂單元, 有
$e_{ij}(t)=(y_i(t)-p_i(t))x_j(t-1)$
需要注意的是baseline是獨立于其他變量和輸出的, 我們稱具有以上格式的算法為段落式的REINFORCE算法
給出完整的權(quán)值修改公式:
$\Delta w_{ij}=\alpha_{ij}(r-b_{ij})\sum_{t=1}^k{(y_i(t)-p_i(t))x_j(t-1)}$

定理2:

對于任意的段落式REINFORCE算法, $E\{\Delta W| W\}$ 和 $\nabla_W E\{r|W\}$ 的內(nèi)積是非負(fù)的, 更進(jìn)一步, 如果 $\alpha_{ij}>0$ , 那么當(dāng)僅當(dāng) $\nabla_WE\{r|W\}=0$ , 內(nèi)積才為0, 如果 $\alpha_{ij}$ 是和 $i,j$ 獨立的話, 有 $E\{\Delta W|W\}=\alpha\nabla_WE\{r|W\}$ ,

在段落式的REINFORCE算法中, 性能度量應(yīng)該改為 $E\{\sum_{t=1}^{k}{r(t)|W}\}$

6. 多參數(shù)分布的REINFORCE

REINFORCE框架的一個有趣的應(yīng)用就是對于單元的學(xué)習(xí)算法的發(fā)展決定了它們的隨機(jī)標(biāo)量輸出, 輸出來自于多參數(shù)分布而不是使用半線性隨機(jī)單元的單參數(shù)分布. 舉個例子, 試想一個這樣的單元, 首先得到確定性的計算結(jié)果, 基于權(quán)值和輸入, 來獲得所有參數(shù)來控制的隨機(jī)數(shù)值生成過程的值, 接著將符合一個合適的分布的輸出隨機(jī)輸出. 特別地, 正態(tài)分布具有兩個參數(shù), 均值 $\mu$ 和標(biāo)準(zhǔn)差 $\sigma$ , 一個單元根據(jù)這樣的一個分布來進(jìn)行輸出, 那么將要首先計算出 $\mu$ 和 $\sigma$ 的值, 然后根據(jù)該正態(tài)分布隨機(jī)進(jìn)行輸出, 保證均值和標(biāo)準(zhǔn)差.

一種高斯單元(Gaussian Unit)的可能的有用特征是它輸出的均值和變化是單獨地可控的, 只要分離的權(quán)值(或者可能是輸入)被用來確定這兩個參數(shù), 有趣的點是控制標(biāo)準(zhǔn)差 $\sigma$ 就相當(dāng)于控制單元的搜索行為. 通俗來講, 使用多參數(shù)分布的隨機(jī)單元就有可能控制探索行為的等級, 并且和在哪里進(jìn)行探索無關(guān), 這就與使用單參數(shù)分布的單元不一樣.

這里我們注意到對于任意單元的REINFORCE算法是易于推導(dǎo)出來, 我們用高斯單元來作為一個例子. 為了保證確定這種單元輸出的均值和標(biāo)準(zhǔn)差的特定方法, 而不是它的輸入和它的權(quán)重, 我們將會簡單地將單元的均值和標(biāo)準(zhǔn)差它們看作是單元的自適應(yīng)的參數(shù). 在實際的自適應(yīng)參數(shù)和輸入上這些參數(shù)的任何更多的通用的函數(shù)依賴需要鏈?zhǔn)椒▌t, Gullapalli提出來一個計算這些參數(shù)的方法是, 使用通過輸入行的共同集合的分離的權(quán)值的和(并且使用一些不同的學(xué)習(xí)規(guī)則), 為了簡化這種方法, 我們關(guān)注于單一的單元并且自始至終忽略單元索引的下標(biāo).

給出這樣的密度函數(shù) $g$ :
$g(y, \mu, \sigma)=\frac{1}{(2\pi)^{\frac{1}{2}}\sigma}{e^{-\frac{(y-\mu)^2}{2\sigma}}}$

進(jìn)而
$e_\mu = \frac{\partial ln g}{\partial \mu}=[e^{\frac{(y-\mu)^2}{2\sigma}}]\frac{1}{(2\pi)^{\frac{1}{2}}\sigma}\frac{\partial}{\partial \mu}(e^{-\frac{(y-\mu)^2}{2\sigma}})=\frac{y-\mu}{\sigma^2}$
$e_\sigma=\frac{\partial ln g}{\partial \sigma}=-\frac{\partial ln(\sqrt{(2\pi)}\sigma)}{\partial \sigma}-\frac{\partial (\frac{(y-\mu)^2}{2\sigma})}{\partial \sigma}=\frac{(y-\mu)^2-\sigma^2}{\sigma^3}$

我們可以得到一個更新的表達(dá)式
$\Delta \mu = \alpha_\mu(r-b_\mu)\frac{y-\mu}{\sigma^2}$
$\Delta \sigma = \alpha_\sigma(r-b_{\sigma})\frac{(y-\mu)^2-\sigma^2}{\sigma^3}$

我們令 $\alpha_\mu=\alpha_\sigma=\alpha \sigma^2, b_\mu=b_\sigma$ 可以得到簡化的版本

推廣到指數(shù)分布簇上
$g(y,\mu, \theta_2,...,\theta_k)=exp[Q(\mu, \theta_2,...,\theta_k)y+D(\mu, \theta_2,...,\theta_k)+S(y)]$
對于均值, 仍然有
$e_\mu = \frac{\partial ln g}{\partial \mu}=\frac{y-\mu}{\sigma^2}$

7. 和反向傳播的兼容性

當(dāng)我們使用強(qiáng)化算法的時候, 會忽略掉所有單元之間連接的信息, 作為有監(jiān)督學(xué)習(xí)的算法, 反向傳播就完全利用了這樣的信息, 注意到我們的強(qiáng)化學(xué)習(xí)是針對目標(biāo)函數(shù)和環(huán)境的, 所以不像有監(jiān)督的學(xué)習(xí)那樣, 但是我們可以將反向傳播和我們的強(qiáng)化學(xué)習(xí)結(jié)合起來.

7.1 使用確定性的隱藏單元的網(wǎng)絡(luò)

考慮一個前饋的網(wǎng)絡(luò), 擁有確定的隱藏單元, 使用隨機(jī)的輸出單元, 使用這樣的一個網(wǎng)絡(luò)對于強(qiáng)化學(xué)習(xí)系統(tǒng)是有意義的, 因為對于輸出單元有隨機(jī)性的限制使得發(fā)生必要的探索.

記 $x$ 是網(wǎng)絡(luò)的輸入向量, $y$ 是輸出向量, 我們可以定義 $g(\xi, W, x)=Pr(y=\xi|W, x)$ 為概率質(zhì)量函數(shù), 描述了網(wǎng)絡(luò)的輸入和輸出.
只不過整個網(wǎng)絡(luò)的輸出是一個向量而不是標(biāo)量, 對于網(wǎng)絡(luò)里面的任意一個權(quán)值 $w_{ij}$ , 有 $\partial E\{r|W\}/ \partial w_{ij}$ 的無偏估計是 $(r-b_{ij})\partial lng/\partial w_{ij}$

記 $O$ 是輸出單元的索引集合, 因為所有的隨機(jī)性都在輸出單元上, 并且輸出單元的隨機(jī)性是獨立的. 我們有
$Pr(y=\xi|W, x)=\prod_{k\in O}{Pr(y_k=\xi_k|W,x)}=\prod_{k\in O}{Pr(y_k=\xi_k|w^k,x^k)}$

$x_k$ 是由于將模式 $x$ 呈現(xiàn)給網(wǎng)絡(luò)而出現(xiàn)在第 $k$ 個單元的輸入處的模式
有
$lng(\xi, W, x)=ln\prod_{k\in O}{g_k(\xi_k, w^k, x^k)}=\sum_{k\in O}{lng_k(\xi_k, w^k, x^k)}$
故, 可以得到
$\frac{\partial lng(\xi, W, x)}{\partial w_{ij}}=\sum_{k\in O}{\frac{\partial g_k(\xi_k, w^k, x^k)}{\partial w_{ij}}}$
以上的求和可能可以使用反向傳播來計算出來, 特別地, 如果是伯努利非線性單元, 我們可以直接使用參數(shù) $p_k$ 作為中間變量, 故有:
$\frac{\partial ln g}{\partial w_{ij}}=\sum_{k\in O}{\frac{\partial lng_k}{\partial p_k}\frac{\partial p_k}{\partial w_{ij} }}$
我們可以直接計算得到
$\frac{\partial ln g_k}{\partial p_k}=\frac{y_k-p_k}{p_k(1-p_k)}$

我們只需要將無偏估計進(jìn)行反向傳播即可

7.2 通過隨機(jī)數(shù)字生成器的反向傳播

考慮一個隨機(jī)的半線性單元, 并且假設(shè)有這么一個函數(shù) $J$ , $J$ 對輸出 $y_i$ 有一定的確定性的依賴, 這種條件下, 我們假設(shè)這個單元是輸出單元并且 $J=E\{r|W\}$ , 我們可以利用 $\frac{\partial J}{\partial y_i}$ 來計算 $\frac{\partial J}{\partial p_i}$

我們還可以推出 $E\{\partial J/\partial y_i|p_i\}$ 決定了 $\partial E\{J|p_i\}/\partial p_i$

不幸的是, 這種性質(zhì)并不是通用的. 如果 $J$ 是 $y_i$ 的非線性函數(shù)的話. 然而, 如果輸出是一個隨機(jī)數(shù)生成器, 可以被寫成一個參數(shù)可微的函數(shù), 那么我們就可以利用確定性的計算.

考慮一個正態(tài)隨機(jī)數(shù)生成器, 比如高斯單元, 輸出 $y$ 根據(jù) $\mu$ 和 $\sigma$ 隨機(jī)生成
$y=\mu+\sigma z$
其中 $z$ 是標(biāo)準(zhǔn)正態(tài)離差(standard normal deviate), 注意到
$\frac{\partial y}{\partial \mu}=1$
以及
$\frac{\partial y}{\partial \sigma}=z=\frac{y-\mu}{\sigma}$
因此, 我們可以將高斯隱藏單元和REINFORCE結(jié)合起來

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市淋肾，隨后出現(xiàn)的幾起案子唾戚，更是在濱河造成了極大的恐慌序厉，老刑警劉巖种远，帶你破解...
沈念sama閱讀 217,826評論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)羊始，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,968評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來匠襟，“玉大人，你說我怎么就攤上這事浩姥〉Ｃ停” “怎么了？”我有些...
開封第一講書人閱讀 164,234評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵丢氢，是天一觀的道長傅联。經(jīng)常有香客問我，道長疚察，這世上最難降的妖魔是什么蒸走？我笑而不...
開封第一講書人閱讀 58,562評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮貌嫡，結(jié)果婚禮上比驻，老公的妹妹穿的比我還像新娘。我一直安慰自己岛抄，他們只是感情好别惦，可當(dāng)我...
茶點故事閱讀 67,611評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著夫椭，像睡著了一般掸掸。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上蹭秋，一...
開封第一講書人閱讀 51,482評論 1贊 302
城市分裂傳說
那天扰付，我揣著相機(jī)與錄音，去河邊找鬼仁讨。笑死羽莺，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的洞豁。我是一名探鬼主播禽翼，決...
沈念sama閱讀 40,271評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼屠橄，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了闰挡？” 一聲冷哼從身側(cè)響起锐墙，我...
開封第一講書人閱讀 39,166評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎长酗，沒想到半個月后溪北，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,608評論 1贊 314
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡夺脾，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,814評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年之拨，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片咧叭。...
茶點故事閱讀 39,926評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡蚀乔，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出菲茬，到底是詐尸還是另有隱情吉挣，我是刑警寧澤，帶...
沈念sama閱讀 35,644評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布婉弹，位于F島的核電站睬魂，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏镀赌。R本人自食惡果不足惜氯哮，卻給世界環(huán)境...
茶點故事閱讀 41,249評論 3贊 329
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望商佛。院中可真熱鬧喉钢，春花似錦、人聲如沸良姆。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,866評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽歇盼。三九已至舔痕，卻和暖如春评抚，著一層夾襖步出監(jiān)牢的瞬間豹缀，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,991評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工慨代，沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留邢笙，地道東北人。一個月前我還...
沈念sama閱讀 48,063評論 3贊 370
代替公主和親
正文我出身青樓侍匙，卻偏偏與公主長得像氮惯，于是被迫代替她去往敵國和親叮雳。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 44,871評論 2贊 354