機(jī)器學(xué)習(xí) 西瓜書(shū) Day23 強(qiáng)化學(xué)習(xí)

p371 - p397
今天最后一天啦
話不多說(shuō) 開(kāi)始last chapter第16章

第16章 強(qiáng)化學(xué)習(xí)

16.1 任務(wù)與獎(jiǎng)賞

種瓜戒悠?在過(guò)程中我們做什么,并不能立即獲得最終獎(jiǎng)賞潜沦,僅能得到一個(gè)當(dāng)前反饋。我們需要多次種瓜,不斷摸索扣典,才能總結(jié)出較好的種瓜策略。

強(qiáng)化學(xué)習(xí)任務(wù)四元組 E = <X,A,P,R>
X:狀態(tài)
A:動(dòng)作
P:條件轉(zhuǎn)移概率: X x A x X - > R
R:獎(jiǎng)賞 : X x A x X -> R

機(jī)器要做的事通過(guò)在環(huán)境中不斷嘗試而學(xué)得一個(gè)策略慎玖,根據(jù)這個(gè)策略贮尖,輸入狀態(tài)x能得到接下來(lái)的動(dòng)作a。 a=π(x)趁怔。
策略有兩種表示方法湿硝,
一種是直接表示為函數(shù)π:X->A薪前,
另一種是概率表示π:XxA->R

策略的優(yōu)劣取決于長(zhǎng)期執(zhí)行這一策略后得到的累積獎(jiǎng)賞
常用的有:T步累積獎(jiǎng)賞关斜、γ折扣累計(jì)獎(jiǎng)賞示括。

強(qiáng)化學(xué)習(xí) vs 監(jiān)督學(xué)習(xí)
若將強(qiáng)化學(xué)習(xí)中的狀態(tài)對(duì)應(yīng)為監(jiān)督學(xué)習(xí)的示例
“動(dòng)作”對(duì)應(yīng)為“標(biāo)記”
那么強(qiáng)化學(xué)習(xí)中的策略實(shí)際上就相當(dāng)于監(jiān)督學(xué)習(xí)中的分類器。
因此強(qiáng)化學(xué)習(xí)在某種意義上可看做具有“延遲標(biāo)記信息”的監(jiān)督學(xué)習(xí)問(wèn)題痢畜。

16.2 K-搖臂賭博機(jī)

16.2.1 探索與利用

強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)的顯著不同:
機(jī)器通過(guò)嘗試來(lái)發(fā)現(xiàn)各個(gè)動(dòng)作產(chǎn)生的結(jié)果例诀,而沒(méi)有訓(xùn)練數(shù)據(jù)告訴機(jī)器應(yīng)當(dāng)做哪個(gè)動(dòng)作

欲最大化獎(jiǎng)賞要考慮兩個(gè)方面:
1)要知道每個(gè)動(dòng)作帶來(lái)的獎(jiǎng)賞 :探索
2)執(zhí)行獎(jiǎng)賞最大的動(dòng)作:利用

單步強(qiáng)化學(xué)習(xí)任務(wù)對(duì)應(yīng)了一個(gè)理論模型:K-搖臂賭博機(jī)
若僅為探索每個(gè)搖臂的期望獎(jiǎng)賞:僅探索
若僅為執(zhí)行獎(jiǎng)賞最大的動(dòng)作:僅利用

探索和利用是矛盾的:探索-利用窘境

16.2.2 ε-貪心

基于一個(gè)概率來(lái)對(duì)探索和利用進(jìn)行折中
每次以ε的概率來(lái)進(jìn)行探索,以1-ε來(lái)利用

算法過(guò)程偽碼 p375

16.2.3 Softmax

Softmax算法基于當(dāng)前已知的搖臂平均獎(jiǎng)賞來(lái)對(duì)探索和利用進(jìn)行折中裁着。
若各搖臂的平均獎(jiǎng)賞相當(dāng)繁涂,則選取各arm的概率也相當(dāng)
若某些arm的平均獎(jiǎng)賞明顯高,則選他們的概率也會(huì)更高

概率分配基于Boltzmann分布 p376式16.4
定義了一個(gè)“溫度”二驰,溫度τ越小則平均獎(jiǎng)賞高的搖臂選取的概率越高扔罪。
τ趨近于0算法趨于僅利用
τ趨近于無(wú)窮大算法趨于僅探索

過(guò)程偽碼見(jiàn)p376 圖16.5

總的來(lái)說(shuō)K-搖臂賭博機(jī)有局限,因?yàn)闆](méi)有考慮強(qiáng)化學(xué)習(xí)任務(wù)馬爾科夫決策過(guò)程的結(jié)構(gòu)桶雀。

16.3 有模型學(xué)習(xí)

如果四元組E=<X,A,P,R>一致矿酵,這樣的情形稱為“模型已知”。
在已知模型的環(huán)境中學(xué)習(xí)稱為“有模型學(xué)習(xí)”矗积。

16.3.1 策略評(píng)估

模型已知全肮,對(duì)任意策略π能估計(jì)出策略帶來(lái)的期望累積策略。
基于T步累計(jì)獎(jiǎng)賞的策略評(píng)估算法 p379圖16.7

16.3.2 策略改進(jìn)

對(duì)策略累積獎(jiǎng)賞進(jìn)行評(píng)估后棘捣,若發(fā)現(xiàn)非最優(yōu)則希望對(duì)其改進(jìn)辜腺,理想的是最大化獎(jiǎng)賞。

利用p380 最優(yōu)Bellman等式:
將策略選擇的動(dòng)作改變?yōu)楫?dāng)前最優(yōu)的動(dòng)作乍恐。

16.3.3 策略迭代與值迭代

將16.3.1 和 16.3.2結(jié)合起來(lái)即可得到求解最優(yōu)解的方法评疗。
從一個(gè)初始策略(如隨機(jī)策略)出發(fā),先進(jìn)行策略評(píng)估茵烈,然后改進(jìn)策略百匆,評(píng)估改進(jìn)策略,再進(jìn)一步改進(jìn)...不斷迭代進(jìn)行評(píng)估與改進(jìn)呜投,直到策略收斂加匈。

p381 圖16.8 基于T步累積獎(jiǎng)賞的策略迭代改進(jìn)算法
p382 圖16.9 基于T步累積獎(jiǎng)賞的值迭代算法

總的來(lái)說(shuō),在模型已知時(shí)強(qiáng)化學(xué)習(xí)任務(wù)可以歸結(jié)為動(dòng)態(tài)規(guī)劃的尋優(yōu)問(wèn)題仑荐。

16.4 免模型學(xué)習(xí)

比有模型要困難得多

16.4.1 蒙特卡羅強(qiáng)化學(xué)習(xí)

p384 圖16.10 同策略蒙特卡洛強(qiáng)化學(xué)習(xí)
p386 圖16.11 異策略蒙特卡洛強(qiáng)化學(xué)習(xí)

16.4.2 時(shí)序差分學(xué)習(xí)

p388 圖16.12 Sarsa算法
p388 圖16.13 Q-學(xué)習(xí)算法

16.5 值函數(shù)近似

若狀態(tài)空間不是有限的真竖。
現(xiàn)實(shí)生活中所面臨的狀態(tài)空間往往是連續(xù)的耻瑟,有無(wú)窮多個(gè)狀態(tài)。

p390 圖16.14 線性值函數(shù)近似Sarsa算法

16.6 模仿學(xué)習(xí)

種瓜任務(wù)時(shí)能得到農(nóng)業(yè)專家的種植過(guò)程范例

16.6.1 直接模仿學(xué)習(xí)

有了專家的決策軌跡數(shù)據(jù)。
那就可以把專家的狀態(tài)-動(dòng)作對(duì)抽取出來(lái)涩禀,構(gòu)造新的數(shù)據(jù)集合D祈远。
即把狀態(tài)作為特征,動(dòng)作作為標(biāo)記。
然后根據(jù)這個(gè)D使用分類或回歸算法即可學(xué)得新的策略模型甜橱。

16.6.2 逆強(qiáng)化學(xué)習(xí)

設(shè)計(jì)獎(jiǎng)賞函數(shù)是很困難的
從人類專家提供的數(shù)據(jù)反推獎(jiǎng)賞函數(shù),這就是“逆強(qiáng)化學(xué)習(xí)”栈戳。

知道狀態(tài)空間X岂傲,動(dòng)作空間A,專家的決策軌跡數(shù)據(jù)集D子檀。

逆強(qiáng)化學(xué)習(xí)的基本思想:
欲使機(jī)器做出與范例一致的行為镊掖,等價(jià)于在某個(gè)獎(jiǎng)賞函數(shù)的環(huán)境中求解最優(yōu)策略,使最優(yōu)策略所產(chǎn)生的軌跡與范例數(shù)據(jù)一致褂痰。
即:尋找某種獎(jiǎng)賞函數(shù)使范例數(shù)據(jù)最優(yōu)亩进。

p392 圖16.15 迭代式逆強(qiáng)化學(xué)習(xí)算法


尾注

啊啊啊終于看完了/(ㄒoㄒ)/~~
一刷看完這一個(gè)月收獲還是不少的
但還是感覺(jué)任重道遠(yuǎn)呀
這本書(shū)想要啃透怎么還得再刷兩遍的感覺(jué)
不過(guò)確實(shí)是一本不錯(cuò)的入門書(shū)哎

這一個(gè)月堅(jiān)持的還是不錯(cuò)的
雖然中間還是有幾天斷了
但總歸是一個(gè)月看完一遍了
算是養(yǎng)成了一個(gè)好習(xí)慣吧
接下來(lái)要開(kāi)始一段新的任務(wù)了
??加油

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市缩歪,隨后出現(xiàn)的幾起案子归薛,更是在濱河造成了極大的恐慌,老刑警劉巖匪蝙,帶你破解...
    沈念sama閱讀 221,820評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件主籍,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡逛球,警方通過(guò)查閱死者的電腦和手機(jī)千元,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,648評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)颤绕,“玉大人幸海,你說(shuō)我怎么就攤上這事∥堇澹” “怎么了涕烧?”我有些...
    開(kāi)封第一講書(shū)人閱讀 168,324評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)汗洒。 經(jīng)常有香客問(wèn)我,道長(zhǎng)父款,這世上最難降的妖魔是什么溢谤? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 59,714評(píng)論 1 297
  • 正文 為了忘掉前任,我火速辦了婚禮憨攒,結(jié)果婚禮上世杀,老公的妹妹穿的比我還像新娘。我一直安慰自己肝集,他們只是感情好瞻坝,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,724評(píng)論 6 397
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著杏瞻,像睡著了一般所刀。 火紅的嫁衣襯著肌膚如雪衙荐。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 52,328評(píng)論 1 310
  • 那天浮创,我揣著相機(jī)與錄音忧吟,去河邊找鬼。 笑死斩披,一個(gè)胖子當(dāng)著我的面吹牛溜族,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播垦沉,決...
    沈念sama閱讀 40,897評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼煌抒,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了厕倍?” 一聲冷哼從身側(cè)響起摧玫,我...
    開(kāi)封第一講書(shū)人閱讀 39,804評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎绑青,沒(méi)想到半個(gè)月后诬像,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,345評(píng)論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡闸婴,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,431評(píng)論 3 340
  • 正文 我和宋清朗相戀三年坏挠,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片邪乍。...
    茶點(diǎn)故事閱讀 40,561評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡降狠,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出庇楞,到底是詐尸還是另有隱情榜配,我是刑警寧澤,帶...
    沈念sama閱讀 36,238評(píng)論 5 350
  • 正文 年R本政府宣布吕晌,位于F島的核電站蛋褥,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏睛驳。R本人自食惡果不足惜烙心,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,928評(píng)論 3 334
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望乏沸。 院中可真熱鬧淫茵,春花似錦、人聲如沸蹬跃。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,417評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至丹喻,卻和暖如春薄货,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背驻啤。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,528評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工菲驴, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人骑冗。 一個(gè)月前我還...
    沈念sama閱讀 48,983評(píng)論 3 376
  • 正文 我出身青樓赊瞬,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親贼涩。 傳聞我的和親對(duì)象是個(gè)殘疾皇子巧涧,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,573評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容