1.1 這是一本什么書
1.2 強(qiáng)化學(xué)習(xí)可以解決什么問題
一?強(qiáng)化學(xué)習(xí)所能解決的問題
強(qiáng)化學(xué)習(xí)所能解決的問題:智能決策問題強(qiáng)化
更準(zhǔn)確的說是:序貫決策問題
何為序貫決策問題:需要連續(xù)不斷地做出決策巡验,才能實現(xiàn)最終?標(biāo)的問題
1.3 強(qiáng)化學(xué)習(xí)如何解決問題
一? 如何解決序貫決策問題
1.監(jiān)督學(xué)習(xí)
解決的問題:智能感知的問題。
例?:數(shù)字?寫體識別
首先冲簿,監(jiān)督學(xué)習(xí)要先感知輸入的模樣(特征);然后,智能體對其進(jìn)行分類(標(biāo)簽)。
因此,智能感知的前提:需要 海量迂烁、有差異的輸入 + 輸入相關(guān)的標(biāo)簽。
小結(jié):監(jiān)督學(xué)習(xí)解決問題的方法:輸入大量有標(biāo)簽的數(shù)據(jù)递鹉,讓智能體從中習(xí)得輸入的特征并可對其分類盟步。
2.強(qiáng)化學(xué)習(xí)
不同與監(jiān)督學(xué)習(xí)
強(qiáng)化學(xué)習(xí)不關(guān)心輸入的模樣,只關(guān)心在當(dāng)前輸入的情況下要采取什么動作來實現(xiàn)最終目的梳虽。
采取何種動作的出發(fā)點:使整個任務(wù)序列達(dá)到最優(yōu)(這就需要智能體不斷地與環(huán)境交互址芯,不斷嘗試。因為此時智能體也沒有上帝視角窜觉,完全不知哪個動作最有利于實現(xiàn)目標(biāo))
2.1 強(qiáng)化學(xué)習(xí)解決問題的框架
智能體通過動作與環(huán)境進(jìn)?交互時,環(huán)境會返給智能體?個當(dāng)前的回報北专,智能體則根據(jù)當(dāng)前的回報評估所采取的動作:有利于實現(xiàn)?標(biāo)的動作被保留禀挫,不利于實現(xiàn)?標(biāo)的動作被衰減。
強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)的共同點:二者都需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練
強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)的不同點:監(jiān)督學(xué)習(xí)需要的是多樣化的標(biāo)簽數(shù)據(jù)拓颓,強(qiáng)化學(xué)習(xí)需要的是帶有回報的交互數(shù)據(jù)语婴。即數(shù)據(jù)類型不同。
3.強(qiáng)化學(xué)習(xí)發(fā)展史
1998,Richard S.Sutton《強(qiáng)化學(xué)習(xí)導(dǎo)論第?版》砰左,即Reinforcement Learning:An Introduction
2013匿醒,DeepMind提出DQN(Deep Q Network),將深度?絡(luò)與強(qiáng)化學(xué)習(xí)算法結(jié)合形成深度強(qiáng)化學(xué)習(xí)
2016年和2017年缠导,?歌的AlphaGo連續(xù)兩年擊敗世界圍棋冠軍
現(xiàn)今