特芬奇斯拉星人

IP屬地：上海

解讀一PREFRONTAL CORTEX AS A META-REINFORCEMENT LEARNING SYSTEM
之前強化學(xué)習(xí)理論給予了神經(jīng)科學(xué)以靈感和啟發(fā)：最近在理解獎勵驅(qū)動學(xué)習(xí)所涉及的機制方面取得了令人振奮的進展浮庐。這一進展部分是通過輸入強化學(xué)習(xí)領(lǐng)域（R...

454 0 0
revelation of MONet
MONet: Unsupervised Scene Decomposition and Representation 1 .總的來說句灌，這邊論文講...

713 0 0

解讀Been There, Done That: Meta-Learning with Episodic Recall
最近在研究的線路就是：metal learning + episodic memory. 我覺得agent 需要能學(xué)習(xí)各種任務(wù)，也需要有記憶把學(xué)...

453 0 0
解讀二PREFRONTAL CORTEX AS A META-REINFORCEMENT LEARNING SYSTEM
關(guān)于多巴胺和前額皮質(zhì)的故事：觀察人的大腦柱恤，有兩個重要部分：１. 基底神經(jīng)節(jié)（或蜥蜴腦），其中包含VTA和黑質(zhì)找爱，其中產(chǎn)生多巴胺梗顺。這一塊會被...

959 0 0
詳解PLANET代碼(tensorflow)如何加入SAC功能
先說為什么要加？ SAC 算法本質(zhì)是經(jīng)過熵強化的回報值最大化算法车摄。在我們單獨跑的其他實驗中寺谤，包括SAC + RNN表現(xiàn)出很好的性能，１．repl...

379 0 0
PLANET+SAC代碼實現(xiàn)與解讀
代碼已經(jīng)在正常跑實驗了吮播。以下描述的是变屁，經(jīng)過我?guī)状螄L試后改動最小的那個方案：為planet增加SAC功能，之前寫了詳細思路請先參考：詳解PLA...

890 0 0
代碼解析《Learning Latent Dynamics for Planning from Pixels》
我們以數(shù)據(jù)流向為主線索意狠，講講論文代碼做了些什么事情粟关。跑算法就是先收集數(shù)據(jù)，然后把它feed到構(gòu)建好的模型中去訓(xùn)練环戈。這個代碼還多了一步plann...

583 0 0