p371 - p397
今天最后一天啦
話不多說(shuō) 開(kāi)始last chapter第16章
第16章 強(qiáng)化學(xué)習(xí)
16.1 任務(wù)與獎(jiǎng)賞
種瓜戒悠?在過(guò)程中我們做什么,并不能立即獲得最終獎(jiǎng)賞潜沦,僅能得到一個(gè)當(dāng)前反饋。我們需要多次種瓜,不斷摸索扣典,才能總結(jié)出較好的種瓜策略。
強(qiáng)化學(xué)習(xí)任務(wù)四元組 E = <X,A,P,R>
X:狀態(tài)
A:動(dòng)作
P:條件轉(zhuǎn)移概率: X x A x X - > R
R:獎(jiǎng)賞 : X x A x X -> R
機(jī)器要做的事通過(guò)在環(huán)境中不斷嘗試而學(xué)得一個(gè)策略慎玖,根據(jù)這個(gè)策略贮尖,輸入狀態(tài)x能得到接下來(lái)的動(dòng)作a。 a=π(x)趁怔。
策略有兩種表示方法湿硝,
一種是直接表示為函數(shù)π:X->A薪前,
另一種是概率表示π:XxA->R
策略的優(yōu)劣取決于長(zhǎng)期執(zhí)行這一策略后得到的累積獎(jiǎng)賞。
常用的有:T步累積獎(jiǎng)賞关斜、γ折扣累計(jì)獎(jiǎng)賞示括。
強(qiáng)化學(xué)習(xí) vs 監(jiān)督學(xué)習(xí)
若將強(qiáng)化學(xué)習(xí)中的狀態(tài)對(duì)應(yīng)為監(jiān)督學(xué)習(xí)的示例
“動(dòng)作”對(duì)應(yīng)為“標(biāo)記”
那么強(qiáng)化學(xué)習(xí)中的策略實(shí)際上就相當(dāng)于監(jiān)督學(xué)習(xí)中的分類器。
因此強(qiáng)化學(xué)習(xí)在某種意義上可看做具有“延遲標(biāo)記信息”的監(jiān)督學(xué)習(xí)問(wèn)題痢畜。
16.2 K-搖臂賭博機(jī)
16.2.1 探索與利用
強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)的顯著不同:
機(jī)器通過(guò)嘗試來(lái)發(fā)現(xiàn)各個(gè)動(dòng)作產(chǎn)生的結(jié)果例诀,而沒(méi)有訓(xùn)練數(shù)據(jù)告訴機(jī)器應(yīng)當(dāng)做哪個(gè)動(dòng)作
欲最大化獎(jiǎng)賞要考慮兩個(gè)方面:
1)要知道每個(gè)動(dòng)作帶來(lái)的獎(jiǎng)賞 :探索
2)執(zhí)行獎(jiǎng)賞最大的動(dòng)作:利用
單步強(qiáng)化學(xué)習(xí)任務(wù)對(duì)應(yīng)了一個(gè)理論模型:K-搖臂賭博機(jī)
若僅為探索每個(gè)搖臂的期望獎(jiǎng)賞:僅探索
若僅為執(zhí)行獎(jiǎng)賞最大的動(dòng)作:僅利用
探索和利用是矛盾的:探索-利用窘境
16.2.2 ε-貪心
基于一個(gè)概率來(lái)對(duì)探索和利用進(jìn)行折中
每次以ε的概率來(lái)進(jìn)行探索,以1-ε來(lái)利用
算法過(guò)程偽碼 p375
16.2.3 Softmax
Softmax算法基于當(dāng)前已知的搖臂平均獎(jiǎng)賞來(lái)對(duì)探索和利用進(jìn)行折中裁着。
若各搖臂的平均獎(jiǎng)賞相當(dāng)繁涂,則選取各arm的概率也相當(dāng)
若某些arm的平均獎(jiǎng)賞明顯高,則選他們的概率也會(huì)更高
概率分配基于Boltzmann分布 p376式16.4
定義了一個(gè)“溫度”二驰,溫度τ越小則平均獎(jiǎng)賞高的搖臂選取的概率越高扔罪。
τ趨近于0算法趨于僅利用
τ趨近于無(wú)窮大算法趨于僅探索
過(guò)程偽碼見(jiàn)p376 圖16.5
總的來(lái)說(shuō)K-搖臂賭博機(jī)有局限,因?yàn)闆](méi)有考慮強(qiáng)化學(xué)習(xí)任務(wù)馬爾科夫決策過(guò)程的結(jié)構(gòu)桶雀。
16.3 有模型學(xué)習(xí)
如果四元組E=<X,A,P,R>一致矿酵,這樣的情形稱為“模型已知”。
在已知模型的環(huán)境中學(xué)習(xí)稱為“有模型學(xué)習(xí)”矗积。
16.3.1 策略評(píng)估
模型已知全肮,對(duì)任意策略π能估計(jì)出策略帶來(lái)的期望累積策略。
基于T步累計(jì)獎(jiǎng)賞的策略評(píng)估算法 p379圖16.7
16.3.2 策略改進(jìn)
對(duì)策略累積獎(jiǎng)賞進(jìn)行評(píng)估后棘捣,若發(fā)現(xiàn)非最優(yōu)則希望對(duì)其改進(jìn)辜腺,理想的是最大化獎(jiǎng)賞。
利用p380 最優(yōu)Bellman等式:
將策略選擇的動(dòng)作改變?yōu)楫?dāng)前最優(yōu)的動(dòng)作乍恐。
16.3.3 策略迭代與值迭代
將16.3.1 和 16.3.2結(jié)合起來(lái)即可得到求解最優(yōu)解的方法评疗。
從一個(gè)初始策略(如隨機(jī)策略)出發(fā),先進(jìn)行策略評(píng)估茵烈,然后改進(jìn)策略百匆,評(píng)估改進(jìn)策略,再進(jìn)一步改進(jìn)...不斷迭代進(jìn)行評(píng)估與改進(jìn)呜投,直到策略收斂加匈。
p381 圖16.8 基于T步累積獎(jiǎng)賞的策略迭代改進(jìn)算法
p382 圖16.9 基于T步累積獎(jiǎng)賞的值迭代算法
總的來(lái)說(shuō),在模型已知時(shí)強(qiáng)化學(xué)習(xí)任務(wù)可以歸結(jié)為動(dòng)態(tài)規(guī)劃的尋優(yōu)問(wèn)題仑荐。
16.4 免模型學(xué)習(xí)
比有模型要困難得多
16.4.1 蒙特卡羅強(qiáng)化學(xué)習(xí)
p384 圖16.10 同策略蒙特卡洛強(qiáng)化學(xué)習(xí)
p386 圖16.11 異策略蒙特卡洛強(qiáng)化學(xué)習(xí)
16.4.2 時(shí)序差分學(xué)習(xí)
p388 圖16.12 Sarsa算法
p388 圖16.13 Q-學(xué)習(xí)算法
16.5 值函數(shù)近似
若狀態(tài)空間不是有限的真竖。
現(xiàn)實(shí)生活中所面臨的狀態(tài)空間往往是連續(xù)的耻瑟,有無(wú)窮多個(gè)狀態(tài)。
p390 圖16.14 線性值函數(shù)近似Sarsa算法
16.6 模仿學(xué)習(xí)
種瓜任務(wù)時(shí)能得到農(nóng)業(yè)專家的種植過(guò)程范例
16.6.1 直接模仿學(xué)習(xí)
有了專家的決策軌跡數(shù)據(jù)。
那就可以把專家的狀態(tài)-動(dòng)作對(duì)抽取出來(lái)涩禀,構(gòu)造新的數(shù)據(jù)集合D祈远。
即把狀態(tài)作為特征,動(dòng)作作為標(biāo)記。
然后根據(jù)這個(gè)D使用分類或回歸算法即可學(xué)得新的策略模型甜橱。
16.6.2 逆強(qiáng)化學(xué)習(xí)
設(shè)計(jì)獎(jiǎng)賞函數(shù)是很困難的
從人類專家提供的數(shù)據(jù)反推獎(jiǎng)賞函數(shù),這就是“逆強(qiáng)化學(xué)習(xí)”栈戳。
知道狀態(tài)空間X岂傲,動(dòng)作空間A,專家的決策軌跡數(shù)據(jù)集D子檀。
逆強(qiáng)化學(xué)習(xí)的基本思想:
欲使機(jī)器做出與范例一致的行為镊掖,等價(jià)于在某個(gè)獎(jiǎng)賞函數(shù)的環(huán)境中求解最優(yōu)策略,使最優(yōu)策略所產(chǎn)生的軌跡與范例數(shù)據(jù)一致褂痰。
即:尋找某種獎(jiǎng)賞函數(shù)使范例數(shù)據(jù)最優(yōu)亩进。
p392 圖16.15 迭代式逆強(qiáng)化學(xué)習(xí)算法
尾注
啊啊啊終于看完了/(ㄒoㄒ)/~~
一刷看完這一個(gè)月收獲還是不少的
但還是感覺(jué)任重道遠(yuǎn)呀
這本書(shū)想要啃透怎么還得再刷兩遍的感覺(jué)
不過(guò)確實(shí)是一本不錯(cuò)的入門書(shū)哎
這一個(gè)月堅(jiān)持的還是不錯(cuò)的
雖然中間還是有幾天斷了
但總歸是一個(gè)月看完一遍了
算是養(yǎng)成了一個(gè)好習(xí)慣吧
接下來(lái)要開(kāi)始一段新的任務(wù)了
??加油