關(guān)于強(qiáng)化學(xué)習(xí)(2)

根據(jù) Simple statistical gradient-following algorithms for connectionist reinforcement learning

5. 段落式(Episodic)的REINFORCE算法

該部分主要是將我們已有的算法進(jìn)行擴(kuò)展, 擴(kuò)展到擁有temporal credit-assignment component的問題上.

特別地, 我們假設(shè)一個網(wǎng)絡(luò)N, 基于一段一段這樣來訓(xùn)練, 每一段都包含k個時間步, 每一個時間步, 許多單元會重新計算它們的輸出, 整個環(huán)境可能會改變其非強(qiáng)化的輸入, 在每一段的結(jié)束的時候, 一個強(qiáng)化值r將會被傳遞到網(wǎng)絡(luò)N.

該算法的引出是基于使用按時間展開(unfolding-in-time)進(jìn)行映射, 即當(dāng)任意的一個網(wǎng)絡(luò)N在一個時間周期中進(jìn)行操作, 另一個網(wǎng)絡(luò)N^*沒有周期但是展現(xiàn)對應(yīng)的行為. 展開的網(wǎng)絡(luò)N^*通過在每一個時間步對N進(jìn)行復(fù)制來獲得.

形式化來說, 這相當(dāng)于和每一個在N中的時間依賴的變量v聯(lián)系起來, 對應(yīng)的N^*以時間為索引的集合\{v^t\}, 其中N^*中的變量并不依賴于時間, 在N中的w_{ij}就對應(yīng)N^*中的\{w_{ij}^t\}.

給出參數(shù)w_{ij}的增量形式:
\Delta w_{ij}=\alpha_{ij}(r-b_{ij})\sum_{t=1}^k{e_{ij}(t)}

上述形式和我們之前給的形式有點類似, 唯一出現(xiàn)改動的地方就是e_{ij}變?yōu)?img class="math-inline" src="https://math.jianshu.com/math?formula=%5Csum_%7Bt%3D1%7D%5Ek%7Be_%7Bij%7D(t)%7D" alt="\sum_{t=1}^k{e_{ij}(t)}" mathimg="1">
這個對應(yīng)于非周期的網(wǎng)絡(luò)N^*, 即e_{ij}(t)=e_{ij}^t

我們舉個例子吧, 一個內(nèi)部全連接的遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network), 使用伯努利-邏輯斯蒂單元, 有
e_{ij}(t)=(y_i(t)-p_i(t))x_j(t-1)
需要注意的是baseline是獨立于其他變量和輸出的, 我們稱具有以上格式的算法為段落式的REINFORCE算法
給出完整的權(quán)值修改公式:
\Delta w_{ij}=\alpha_{ij}(r-b_{ij})\sum_{t=1}^k{(y_i(t)-p_i(t))x_j(t-1)}

定理2:

對于任意的段落式REINFORCE算法, E\{\Delta W| W\}\nabla_W E\{r|W\}的內(nèi)積是非負(fù)的, 更進(jìn)一步, 如果\alpha_{ij}>0, 那么當(dāng)僅當(dāng)\nabla_WE\{r|W\}=0, 內(nèi)積才為0, 如果\alpha_{ij}是和i,j獨立的話, 有E\{\Delta W|W\}=\alpha\nabla_WE\{r|W\},

在段落式的REINFORCE算法中, 性能度量應(yīng)該改為E\{\sum_{t=1}^{k}{r(t)|W}\}

6. 多參數(shù)分布的REINFORCE

REINFORCE框架的一個有趣的應(yīng)用就是對于單元的學(xué)習(xí)算法的發(fā)展決定了它們的隨機(jī)標(biāo)量輸出, 輸出來自于多參數(shù)分布而不是使用半線性隨機(jī)單元的單參數(shù)分布. 舉個例子, 試想一個這樣的單元, 首先得到確定性的計算結(jié)果, 基于權(quán)值和輸入, 來獲得所有參數(shù)來控制的隨機(jī)數(shù)值生成過程的值, 接著將符合一個合適的分布的輸出隨機(jī)輸出. 特別地, 正態(tài)分布具有兩個參數(shù), 均值\mu和標(biāo)準(zhǔn)差\sigma, 一個單元根據(jù)這樣的一個分布來進(jìn)行輸出, 那么將要首先計算出\mu\sigma的值, 然后根據(jù)該正態(tài)分布隨機(jī)進(jìn)行輸出, 保證均值和標(biāo)準(zhǔn)差.

一種高斯單元(Gaussian Unit)的可能的有用特征是它輸出的均值和變化是單獨地可控的, 只要分離的權(quán)值(或者可能是輸入)被用來確定這兩個參數(shù), 有趣的點是控制標(biāo)準(zhǔn)差\sigma就相當(dāng)于控制單元的搜索行為. 通俗來講, 使用多參數(shù)分布的隨機(jī)單元就有可能控制探索行為的等級, 并且和在哪里進(jìn)行探索無關(guān), 這就與使用單參數(shù)分布的單元不一樣.

這里我們注意到對于任意單元的REINFORCE算法是易于推導(dǎo)出來, 我們用高斯單元來作為一個例子. 為了保證確定這種單元輸出的均值和標(biāo)準(zhǔn)差的特定方法, 而不是它的輸入和它的權(quán)重, 我們將會簡單地將單元的均值和標(biāo)準(zhǔn)差它們看作是單元的自適應(yīng)的參數(shù). 在實際的自適應(yīng)參數(shù)和輸入上這些參數(shù)的任何更多的通用的函數(shù)依賴需要鏈?zhǔn)椒▌t, Gullapalli提出來一個計算這些參數(shù)的方法是, 使用通過輸入行的共同集合的分離的權(quán)值的和(并且使用一些不同的學(xué)習(xí)規(guī)則), 為了簡化這種方法, 我們關(guān)注于單一的單元并且自始至終忽略單元索引的下標(biāo).

給出這樣的密度函數(shù)g:
g(y, \mu, \sigma)=\frac{1}{(2\pi)^{\frac{1}{2}}\sigma}{e^{-\frac{(y-\mu)^2}{2\sigma}}}

進(jìn)而
e_\mu = \frac{\partial ln g}{\partial \mu}=[e^{\frac{(y-\mu)^2}{2\sigma}}]\frac{1}{(2\pi)^{\frac{1}{2}}\sigma}\frac{\partial}{\partial \mu}(e^{-\frac{(y-\mu)^2}{2\sigma}})=\frac{y-\mu}{\sigma^2}
e_\sigma=\frac{\partial ln g}{\partial \sigma}=-\frac{\partial ln(\sqrt{(2\pi)}\sigma)}{\partial \sigma}-\frac{\partial (\frac{(y-\mu)^2}{2\sigma})}{\partial \sigma}=\frac{(y-\mu)^2-\sigma^2}{\sigma^3}

我們可以得到一個更新的表達(dá)式
\Delta \mu = \alpha_\mu(r-b_\mu)\frac{y-\mu}{\sigma^2}
\Delta \sigma = \alpha_\sigma(r-b_{\sigma})\frac{(y-\mu)^2-\sigma^2}{\sigma^3}

我們令\alpha_\mu=\alpha_\sigma=\alpha \sigma^2, b_\mu=b_\sigma可以得到簡化的版本

推廣到指數(shù)分布簇上
g(y,\mu, \theta_2,...,\theta_k)=exp[Q(\mu, \theta_2,...,\theta_k)y+D(\mu, \theta_2,...,\theta_k)+S(y)]
對于均值, 仍然有
e_\mu = \frac{\partial ln g}{\partial \mu}=\frac{y-\mu}{\sigma^2}

7. 和反向傳播的兼容性

當(dāng)我們使用強(qiáng)化算法的時候, 會忽略掉所有單元之間連接的信息, 作為有監(jiān)督學(xué)習(xí)的算法, 反向傳播就完全利用了這樣的信息, 注意到我們的強(qiáng)化學(xué)習(xí)是針對目標(biāo)函數(shù)和環(huán)境的, 所以不像有監(jiān)督的學(xué)習(xí)那樣, 但是我們可以將反向傳播和我們的強(qiáng)化學(xué)習(xí)結(jié)合起來.

7.1 使用確定性的隱藏單元的網(wǎng)絡(luò)

考慮一個前饋的網(wǎng)絡(luò), 擁有確定的隱藏單元, 使用隨機(jī)的輸出單元, 使用這樣的一個網(wǎng)絡(luò)對于強(qiáng)化學(xué)習(xí)系統(tǒng)是有意義的, 因為對于輸出單元有隨機(jī)性的限制使得發(fā)生必要的探索.

x是網(wǎng)絡(luò)的輸入向量, y是輸出向量, 我們可以定義g(\xi, W, x)=Pr(y=\xi|W, x)為概率質(zhì)量函數(shù), 描述了網(wǎng)絡(luò)的輸入和輸出.
只不過整個網(wǎng)絡(luò)的輸出是一個向量而不是標(biāo)量, 對于網(wǎng)絡(luò)里面的任意一個權(quán)值w_{ij}, 有\partial E\{r|W\}/ \partial w_{ij}的無偏估計是(r-b_{ij})\partial lng/\partial w_{ij}

O是輸出單元的索引集合, 因為所有的隨機(jī)性都在輸出單元上, 并且輸出單元的隨機(jī)性是獨立的. 我們有
Pr(y=\xi|W, x)=\prod_{k\in O}{Pr(y_k=\xi_k|W,x)}=\prod_{k\in O}{Pr(y_k=\xi_k|w^k,x^k)}

x_k是由于將模式x呈現(xiàn)給網(wǎng)絡(luò)而出現(xiàn)在第k個單元的輸入處的模式

lng(\xi, W, x)=ln\prod_{k\in O}{g_k(\xi_k, w^k, x^k)}=\sum_{k\in O}{lng_k(\xi_k, w^k, x^k)}
故, 可以得到
\frac{\partial lng(\xi, W, x)}{\partial w_{ij}}=\sum_{k\in O}{\frac{\partial g_k(\xi_k, w^k, x^k)}{\partial w_{ij}}}
以上的求和可能可以使用反向傳播來計算出來, 特別地, 如果是伯努利非線性單元, 我們可以直接使用參數(shù)p_k作為中間變量, 故有:
\frac{\partial ln g}{\partial w_{ij}}=\sum_{k\in O}{\frac{\partial lng_k}{\partial p_k}\frac{\partial p_k}{\partial w_{ij} }}
我們可以直接計算得到
\frac{\partial ln g_k}{\partial p_k}=\frac{y_k-p_k}{p_k(1-p_k)}

我們只需要將無偏估計進(jìn)行反向傳播即可

7.2 通過隨機(jī)數(shù)字生成器的反向傳播

考慮一個隨機(jī)的半線性單元, 并且假設(shè)有這么一個函數(shù)J, J對輸出y_i有一定的確定性的依賴, 這種條件下, 我們假設(shè)這個單元是輸出單元并且J=E\{r|W\}, 我們可以利用\frac{\partial J}{\partial y_i}來計算\frac{\partial J}{\partial p_i}

我們還可以推出E\{\partial J/\partial y_i|p_i\}決定了\partial E\{J|p_i\}/\partial p_i

不幸的是, 這種性質(zhì)并不是通用的. 如果Jy_i的非線性函數(shù)的話. 然而, 如果輸出是一個隨機(jī)數(shù)生成器, 可以被寫成一個參數(shù)可微的函數(shù), 那么我們就可以利用確定性的計算.

考慮一個正態(tài)隨機(jī)數(shù)生成器, 比如高斯單元, 輸出y根據(jù)\mu\sigma隨機(jī)生成
y=\mu+\sigma z
其中z標(biāo)準(zhǔn)正態(tài)離差(standard normal deviate), 注意到
\frac{\partial y}{\partial \mu}=1
以及
\frac{\partial y}{\partial \sigma}=z=\frac{y-\mu}{\sigma}
因此, 我們可以將高斯隱藏單元和REINFORCE結(jié)合起來

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市淋肾,隨后出現(xiàn)的幾起案子唾戚,更是在濱河造成了極大的恐慌序厉,老刑警劉巖种远,帶你破解...
    沈念sama閱讀 217,826評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)羊始,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,968評論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來匠襟,“玉大人,你說我怎么就攤上這事浩姥〉C停” “怎么了?”我有些...
    開封第一講書人閱讀 164,234評論 0 354
  • 文/不壞的土叔 我叫張陵丢氢,是天一觀的道長傅联。 經(jīng)常有香客問我,道長疚察,這世上最難降的妖魔是什么蒸走? 我笑而不...
    開封第一講書人閱讀 58,562評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮貌嫡,結(jié)果婚禮上比驻,老公的妹妹穿的比我還像新娘。我一直安慰自己岛抄,他們只是感情好别惦,可當(dāng)我...
    茶點故事閱讀 67,611評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著夫椭,像睡著了一般掸掸。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上蹭秋,一...
    開封第一講書人閱讀 51,482評論 1 302
  • 那天扰付,我揣著相機(jī)與錄音,去河邊找鬼仁讨。 笑死羽莺,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的洞豁。 我是一名探鬼主播禽翼,決...
    沈念sama閱讀 40,271評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼屠橄,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了闰挡?” 一聲冷哼從身側(cè)響起锐墙,我...
    開封第一講書人閱讀 39,166評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎长酗,沒想到半個月后溪北,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,608評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡夺脾,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,814評論 3 336
  • 正文 我和宋清朗相戀三年之拨,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片咧叭。...
    茶點故事閱讀 39,926評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡蚀乔,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出菲茬,到底是詐尸還是另有隱情吉挣,我是刑警寧澤,帶...
    沈念sama閱讀 35,644評論 5 346
  • 正文 年R本政府宣布婉弹,位于F島的核電站睬魂,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏镀赌。R本人自食惡果不足惜氯哮,卻給世界環(huán)境...
    茶點故事閱讀 41,249評論 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望商佛。 院中可真熱鬧喉钢,春花似錦、人聲如沸良姆。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,866評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽歇盼。三九已至舔痕,卻和暖如春评抚,著一層夾襖步出監(jiān)牢的瞬間豹缀,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,991評論 1 269
  • 我被黑心中介騙來泰國打工慨代, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留邢笙,地道東北人。 一個月前我還...
    沈念sama閱讀 48,063評論 3 370
  • 正文 我出身青樓侍匙,卻偏偏與公主長得像氮惯,于是被迫代替她去往敵國和親叮雳。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,871評論 2 354

推薦閱讀更多精彩內(nèi)容

  • 文章主要分為:一妇汗、深度學(xué)習(xí)概念帘不;二、國內(nèi)外研究現(xiàn)狀杨箭;三寞焙、深度學(xué)習(xí)模型結(jié)構(gòu);四互婿、深度學(xué)習(xí)訓(xùn)練算法捣郊;五、深度學(xué)習(xí)的優(yōu)點...
    艾剪疏閱讀 21,834評論 0 58
  • 親愛的寶貝,今天是你降臨在這個世界的第365天驮配,你所感知的每一天都是如此的新鮮娘扩。 還記得21個月之前,媽媽...
    dada仰望天空閱讀 418評論 2 0
  • 6:30 起床 晾衣服燒水 6:55 出門 打車班車點 7:10 錯過班車僧凤,步行十分鐘趕到等待點 7:21 出發(fā)上...
    Min_Xu閱讀 325評論 0 0
  • 夢想已經(jīng)飛翔了好久畜侦、也在空中盤旋了好久,為了抓住它越走越遠(yuǎn)躯保、遠(yuǎn)到忘記自己還要走多久旋膳。 人總有一個歸屬地就是你出發(fā)...
    天下廬閱讀 554評論 0 3
  • View.onSaveStateInstance被調(diào)用的條件 View有唯一的ID View的初始化時要調(diào)用set...
    yuansip閱讀 375評論 0 0