之前強化學(xué)習(xí)理論給予了神經(jīng)科學(xué)以靈感和啟發(fā): 最近在理解獎勵驅(qū)動學(xué)習(xí)所涉及的機制方面取得了令人振奮的進展浮庐。這一進展部分是通過輸入強化學(xué)習(xí)領(lǐng)域(R...
MONet: Unsupervised Scene Decomposition and Representation 1 .總的來說句灌,這邊論文講...
最近在研究的線路就是:metal learning + episodic memory. 我覺得agent 需要能學(xué)習(xí)各種任務(wù),也需要有記憶把學(xué)...
關(guān)于多巴胺和前額皮質(zhì)的故事: 觀察人的大腦柱恤,有兩個重要部分: 1. 基底神經(jīng)節(jié)(或蜥蜴腦),其中包含VTA和黑質(zhì)找爱,其中產(chǎn)生多巴胺梗顺。 這一塊會被...
先說為什么要加? SAC 算法本質(zhì)是經(jīng)過熵強化的回報值最大化算法车摄。在我們單獨跑的其他實驗中寺谤,包括SAC + RNN表現(xiàn)出很好的性能,1.repl...
代碼已經(jīng)在正常跑實驗了吮播。以下描述的是变屁,經(jīng)過我?guī)状螄L試后改動最小的那個方案: 為planet增加SAC功能,之前寫了詳細思路請先參考: 詳解PLA...
我們以數(shù)據(jù)流向為主線索意狠,講講論文代碼做了些什么事情粟关。 跑算法就是先收集數(shù)據(jù),然后把它feed到構(gòu)建好的模型中去訓(xùn)練环戈。這個代碼還多了一步plann...