第一節(jié)上
1.什么是強(qiáng)化學(xué)習(xí)
2.強(qiáng)化學(xué)習(xí)和監(jiān)督學(xué)習(xí)對(duì)比伦连?
強(qiáng)化學(xué)習(xí)是序列數(shù)據(jù)间驮,不是獨(dú)立iid的
Agent的行為會(huì)影響接受到的數(shù)據(jù)
需要一個(gè)權(quán)衡漱病,需要探索
沒(méi)有一個(gè)監(jiān)督者浊洞,不能立刻得到反饋惜姐。延遲獎(jiǎng)勵(lì)
3.舉例強(qiáng)化學(xué)習(xí)犁跪。
Pong。
4.深度學(xué)習(xí)+強(qiáng)化學(xué)習(xí)
5.為什么RL works歹袁?
計(jì)算力坷衍;端到端的訓(xùn)練
第一節(jié)下
1.Agent和環(huán)境交互
2.獎(jiǎng)勵(lì)
3.序列決策
4.RL agent組成部分
決策;價(jià)值函數(shù)条舔;模型
決策分為兩種:1.隨機(jī)決策枫耳,輸出概率2.決定好的決策,輸出最大概率
價(jià)值函數(shù)
模型
5.馬爾科夫決策過(guò)程
6.Exploration and exploitation
tradeoff
聽(tīng)不懂啊- -