解讀二PREFRONTAL CORTEX AS A META-REINFORCEMENT LEARNING SYSTEM

關(guān)于多巴胺和前額皮質(zhì)的故事:

觀察人的大腦稼锅,有兩個重要部分:

1. ? 基底神經(jīng)節(jié)(或蜥蜴腦)吼具,其中包含VTA和黑質(zhì),其中產(chǎn)生多巴胺矩距。

這一塊會被激活拗盒,在得到的獎勵比預(yù)估的更多時;

這一塊會保持在基準線锥债,在得到的獎勵就是預(yù)估的情況時陡蝇;

這一塊被會抑制痊臭,當?shù)玫降莫剟畋阮A(yù)測的獎勵少時。于是這種機制就被成為獎勵預(yù)測誤差(Dopamine reward prediction error )登夫。

由這個機制建模的算法就是無模型強化學(xué)習广匙,其中對應(yīng)于獎勵預(yù)測誤差的就是一個算法就是A2C。

they are activated by more reward than predicted (positive prediction error),

remain at baseline activity for fully predicted rewards,

and show depressed activity with less reward than predicted (negative prediction error).”

- Wolfram Schultz, Dopamine reward prediction error coding

2.前額皮質(zhì)(大腦皮層的一部分)恼策,對比多巴胺鸦致,它是“理性決策者試圖讓你做你的工作”。

這種新的學(xué)習算法獨立于原始算法戏蔑,并且在適合任務(wù)環(huán)境的方式上有所不同蹋凝。

這種學(xué)習的主要作用是通過多巴胺的驅(qū)使去調(diào)整其循環(huán)連接來塑造前額網(wǎng)絡(luò)的動態(tài)鲁纠,使它有了記憶和推理能力总棵。

前期大量訓(xùn)練,逐漸網(wǎng)絡(luò)從探索轉(zhuǎn)向開發(fā)改含,在更困難的問題中使這種轉(zhuǎn)變更加緩慢情龄。

通過兩個部分的合作,完成的功效捍壤,就使我們明白了所謂model base 算法骤视,從另一個維度或者另一種眼光去看待它,不過就是由多巴胺機制的無模型算法去調(diào)控前額皮質(zhì)功能的元學(xué)習鹃觉。

銜接之前介紹的第四個實驗:two step task.

這個任務(wù)本質(zhì)上:設(shè)計了一種在結(jié)構(gòu)相同的兩個不同任務(wù)中隨機切換的任務(wù)情況专酗,它想通過論文中架構(gòu),用多巴胺和前額皮質(zhì)的關(guān)系的眼光去看待它盗扇,于是通過這種元學(xué)習的方式祷肯,使model

free的算法框架有了model based

功效。無模型算法只關(guān)心與環(huán)境交互得到的獎勵大小疗隶,而通過論文中算法它可以學(xué)到這個得到的獎勵來自于common還是uncommon的transition.

該算法的學(xué)習速率比控制基于DA的RL算法的學(xué)習速率大一個數(shù)量級佑笋,該算法在訓(xùn)練期間調(diào)整了前額網(wǎng)絡(luò)的權(quán)重(設(shè)定為0.00005)。因此斑鼻,結(jié)果提供了具體說明蒋纬,即由meta-RL產(chǎn)生的學(xué)習算法可以與最初的產(chǎn)生它的算法不同。

結(jié)果還使我們能夠強調(diào)這一原理的一個重要推論坚弱,即meta-RL產(chǎn)生適用于任務(wù)環(huán)境的前額學(xué)習算法蜀备。在在本案例中,這種適應(yīng)表現(xiàn)在學(xué)習率對任務(wù)波動的響應(yīng)方式荒叶。以前的研究已經(jīng)提出了解釋學(xué)習率動態(tài)變化的專用機制

率碾阁。Meta-RL將這些轉(zhuǎn)變解釋為一種涌現(xiàn)效應(yīng),源于一系列非常普遍的條件停撞。此外瓷蛙,動態(tài)學(xué)習率只是一種可能的專業(yè)化形式悼瓮。當元RL出現(xiàn)在具有不同結(jié)構(gòu)的環(huán)境中時,將出現(xiàn)本質(zhì)上不同的學(xué)習規(guī)則艰猬。

重點 下面開始講第5個實驗:Harlow task

由這個心理學(xué)實驗改裝而來:

1一個猩猩横堡,左右兩個遮蓋的物體

2猩猩選一個,一個物體有食物冠桃,另一物體沒有命贴,這成為一個trial.

3接下來重復(fù)6次選擇,即6個trial食听,稱為一個episode.在這個episode的每個trial胸蛛,物體都會左右隨機交換位置,但是物理對應(yīng)有沒有食物不變的樱报。

4.經(jīng)歷大概幾百個episode后葬项,猩猩學(xué)會了在一個episode開始的時候隨便選一個,即使沒選對迹蛤,下一個trial它就能選對民珍,因為猩猩已經(jīng)學(xué)到這個更高級的模式,并且把食物與物體本身聯(lián)系到一起盗飒,而不左右位置嚷量。

其實算法架構(gòu)與two step task基本一樣,就一個地方有區(qū)別逆趣,這正是其神奇的地方:同樣都是一個RNN結(jié)構(gòu)蝶溶,或者同樣都是某個數(shù)學(xué)公式,從不同的觀點或眼光去看待它宣渗,可以映射到許多的不同是事物中抖所,于是可以解決或者描述看似完全無關(guān)的事物,給出一個架構(gòu)落包,它們的內(nèi)涵可以是無限的部蛇,black box is magic 。

架構(gòu)如上圖:

1 我們用40個圖片換來換去作為物體咐蝇,也是用1到40能代表這40個object 涯鲁。 于是輸入的observation改為 o_t=[id_object1, id_object2]

2???? 上一個trial我們選了action=1(向右)有序,得到reward 5.

3 ?有了這些輸入抹腿,循環(huán)網(wǎng)絡(luò)訓(xùn)練好的權(quán)重,因為在這個trial旭寿。我們的模型估計出最好的動作還是1警绩,因為這個有獎勵的object還是在右邊。

通過此實驗的領(lǐng)悟:

1 與傳統(tǒng)的機器學(xué)習算法不同盅称,使用元增強學(xué)習肩祥,算法在前8-12k集中保持0%的性能后室。因此,您可能花費無數(shù)小時(CPU上的兩步任務(wù)> 4小時)停留在0%性能混狠,而不知道模型是否正在學(xué)習岸霹。

我的建議:a)問問自己“我的實驗是否出錯,我的錯誤是什么将饺?”b)盡可能準確地記錄實驗的詳細信息(日期贡避,時間,目標予弧,原因可能不是 工作刮吧,估計的培訓(xùn)時間等)

2 就像小孩學(xué)東西一樣,要嘛不懂掖蛤,要嘛就懂了杀捻。很貼合意識產(chǎn)生的過程,一種無意識到意識的涌現(xiàn)坠七,而且是基于平常的條件水醋。

3 調(diào)整超參數(shù)旗笔。只使用一個線程彪置,一個48單位LSTM和一個非常簡單的輸入進行實驗。最終蝇恶,我們獲得的平均獎勵達到了約10(約為最高性能的一半拳魁,參見“結(jié)果”)。我們最好的猜測是48個單位不足以學(xué)習任務(wù)撮弧,但也許它是我們的代碼中的單線程或其他東西潘懊。簡而言之,總是一次改變一個超參數(shù)贿衍,否則你最終根本不知道為什么你的模型不是在學(xué)習授舟。

另外:論文里還提到了對LSTM的理解,我覺得不錯:

在標準的非門控遞歸神經(jīng)網(wǎng)絡(luò)中贸辈,時間步驟t的狀態(tài)是時間步驟t-1的狀態(tài)的線性投影释树,然后是非線性。這種“香草”RNN可能對于具有遠程時間依賴性的有困難擎淤,因為它必須學(xué)習非常精確的映射奢啥,只是為了將信息從一個時間狀態(tài)復(fù)制到下一個時間狀態(tài)。另一方面嘴拢,LSTM的工作原理是

將其內(nèi)部狀態(tài)(稱為“單元狀態(tài)”)從每個時間步驟復(fù)制到下一個時間步驟桩盲。它不是必須學(xué)習如何記住,而是默認記得席吴。但是赌结,它也可以選擇忘記捞蛋,使用“忘記”(或維護)門,并使用“輸入”選擇允許新信息進入門”柬姚。因為它可能不想在每個時間步輸出其整個存儲器內(nèi)容襟交,所以也存在

一個“輸出門”來控制輸出什么。這些門中的每一個都由學(xué)習函數(shù)調(diào)制網(wǎng)絡(luò)的狀態(tài)伤靠。

到此結(jié)束捣域,歡迎提問題交流,wechat : Leslie27ch

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末宴合,一起剝皮案震驚了整個濱河市焕梅,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌卦洽,老刑警劉巖贞言,帶你破解...
    沈念sama閱讀 218,607評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異阀蒂,居然都是意外死亡该窗,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,239評論 3 395
  • 文/潘曉璐 我一進店門蚤霞,熙熙樓的掌柜王于貴愁眉苦臉地迎上來酗失,“玉大人,你說我怎么就攤上這事昧绣」骐龋” “怎么了?”我有些...
    開封第一講書人閱讀 164,960評論 0 355
  • 文/不壞的土叔 我叫張陵夜畴,是天一觀的道長拖刃。 經(jīng)常有香客問我,道長贪绘,這世上最難降的妖魔是什么兑牡? 我笑而不...
    開封第一講書人閱讀 58,750評論 1 294
  • 正文 為了忘掉前任,我火速辦了婚禮税灌,結(jié)果婚禮上均函,老公的妹妹穿的比我還像新娘。我一直安慰自己垄琐,他們只是感情好边酒,可當我...
    茶點故事閱讀 67,764評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著狸窘,像睡著了一般墩朦。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上翻擒,一...
    開封第一講書人閱讀 51,604評論 1 305
  • 那天氓涣,我揣著相機與錄音牛哺,去河邊找鬼。 笑死劳吠,一個胖子當著我的面吹牛引润,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播痒玩,決...
    沈念sama閱讀 40,347評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼淳附,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了蠢古?” 一聲冷哼從身側(cè)響起奴曙,我...
    開封第一講書人閱讀 39,253評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎草讶,沒想到半個月后洽糟,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,702評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡堕战,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,893評論 3 336
  • 正文 我和宋清朗相戀三年坤溃,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片嘱丢。...
    茶點故事閱讀 40,015評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡薪介,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出屿讽,到底是詐尸還是另有隱情昭灵,我是刑警寧澤,帶...
    沈念sama閱讀 35,734評論 5 346
  • 正文 年R本政府宣布伐谈,位于F島的核電站,受9級特大地震影響试疙,放射性物質(zhì)發(fā)生泄漏诵棵。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,352評論 3 330
  • 文/蒙蒙 一祝旷、第九天 我趴在偏房一處隱蔽的房頂上張望履澳。 院中可真熱鬧,春花似錦怀跛、人聲如沸距贷。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,934評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽忠蝗。三九已至,卻和暖如春漓拾,著一層夾襖步出監(jiān)牢的瞬間阁最,已是汗流浹背戒祠。 一陣腳步聲響...
    開封第一講書人閱讀 33,052評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留速种,地道東北人姜盈。 一個月前我還...
    沈念sama閱讀 48,216評論 3 371
  • 正文 我出身青樓,卻偏偏與公主長得像配阵,于是被迫代替她去往敵國和親馏颂。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,969評論 2 355

推薦閱讀更多精彩內(nèi)容