1.4 強化學習算法分類及發(fā)展趨勢
一 分類
1.根據(jù)強化學習算法是否依賴模型 可分為:
基于模型的強化學習算法? ? 、 ?模型的強化學習算法
共同點:通過與環(huán)境交互獲得數(shù)據(jù)
不同點:利?數(shù)據(jù)的?式不同脖旱。
基于模型的強化學習算法利?與環(huán)境交互得到的數(shù)據(jù)學習系統(tǒng)或者環(huán)境模型篇梭,再基于模型進?序貫決策。
?模型的強化學習算法則是直接利?與環(huán)境交互獲得的數(shù)據(jù)改善??的?為萌庆。
比較:
?般來講基于模型的強化學習算法效率要比無模型的強化學習算法效率更?缭黔;
?模型的強化學習算法不需要建模,所以和基于模型的強化學習算法相?丹锹,更具有通?性稀颁。
2.根據(jù)策略的更新和學習?法 可分為:
基于值函數(shù)的強化學習算法队他、基于直接策略搜索的強化學習算法、AC的?法
基于值函數(shù)的強化學習?法:指學習值函數(shù)峻村,最終的策略根據(jù)值函數(shù)貪婪得到麸折。也就是說,任意狀態(tài)下粘昨,值函數(shù)最?的動作為當前最優(yōu)策略
基于直接策略搜索的強化學習算法:?般是將策略參數(shù)化垢啼,學習實現(xiàn)?標的最優(yōu)參數(shù)
基于AC的?法:聯(lián)合使?值函數(shù)和直接策略搜索
3.根據(jù)環(huán)境返回的回報函數(shù)是否已知 可分為:
正向強化學習、逆向強化學習
正向強化學習:回報函數(shù)是?為指定的
逆向強化學習:回報?法?為指定
4.其他強化學習算法
分層強化學習张肾、元強化學習芭析、多智能體強化學習、關(guān)系強化學習和遷移強化學習等
二 趨勢
強化學習的發(fā)展趨勢
第?吞瞪,強化學習算法與深度學習的結(jié)合會更加緊密
第?馁启,強化學習算法與專業(yè)知識結(jié)合得將更加緊密
? ??把專業(yè)領(lǐng)域中的知識加?到強化學習算法中,沒有統(tǒng)?的?法芍秆,?是根據(jù)每個專業(yè)的內(nèi)容?變化惯疙。通常來說可以重塑回報函數(shù),或修改?絡(luò)結(jié)構(gòu)
論文 :值迭代?絡(luò)(Value Iteration Networks)??NIPS2016
第三妖啥,強化學習算法理論分析會更強霉颠,算法會更穩(wěn)定和?效
第四,強化學習算法與腦科學荆虱、認知神經(jīng)科學蒿偎、記憶的聯(lián)系會更緊密
? ??這個流派應(yīng)該是以DeepMind 和倫敦?學學院為?