強(qiáng)化學(xué)習(xí)的基本概念

強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域的一個分支优质,通過不斷的與環(huán)境交互牲证,不斷的積累經(jīng)驗,最后讓Agent學(xué)會如何在目標(biāo)環(huán)境中取得最高的得分锤窑。在本篇文章中璧针,筆者將介紹一些強(qiáng)化學(xué)習(xí)的基礎(chǔ)知識,文章中不會涉及任何數(shù)學(xué)公式渊啰。

強(qiáng)化學(xué)習(xí)的基本過程

強(qiáng)化學(xué)習(xí)RL的整個過程就好比一個游戲玩家去探索一款新的游戲探橱,通過一次一次的與游戲交互,學(xué)會一套操作得到最高分绘证。

玩家是怎么探索游戲的呢隧膏?首先玩家觀察游戲的場景,往往是游戲當(dāng)前的圖像嚷那。然后胞枕,玩家輸入一套操作作用于游戲,然后游戲會給玩家一個反饋魏宽,比如得分腐泻,之后游戲轉(zhuǎn)換到下一個場景决乎。最后,玩家通過得分來判斷自己的操作的優(yōu)劣,如果分?jǐn)?shù)增加,那么下一次遇到整個場景的時候就繼續(xù)使用這一套操作爹谭,如果分?jǐn)?shù)減少畜伐,那么就換一套操作。整個過程不斷反復(fù),玩家最終學(xué)會一套操作來拿到最高分。

在強(qiáng)化學(xué)習(xí)中玩家一般被稱為智能體(Agent)而游戲被稱為環(huán)境(Environment),智能體根據(jù)環(huán)境的狀態(tài)(State)彤侍,通過一個策略函數(shù),輸出一個行為(Action)逆趋,將行為作用于環(huán)境盏阶,環(huán)境再給予智能體獎勵(Reward),同時環(huán)境會轉(zhuǎn)移到下一個狀態(tài)闻书。最終名斟,找到一個最優(yōu)的策略,使得智能體可以盡可能多的獲得來自環(huán)境的獎勵魄眉。整個過程如下圖所示:

image

Model-based和Model-free

在強(qiáng)化學(xué)習(xí)領(lǐng)域砰盐,對于強(qiáng)化學(xué)習(xí)模型的分類可以分為Model-based和Model-free。這里的Model-based和Model-free坑律,很多人給翻譯成了有模型和無模型岩梳,筆者不贊成這種翻譯,容易造成誤導(dǎo)晃择。事實上無論是Model-based還是Model-free冀值,他們都具有算法模型。

兩者的不同之處在于宫屠,前者會觀察環(huán)境的狀態(tài)列疗,模擬環(huán)境的工作機(jī)制,可以理解為創(chuàng)建一個虛擬的環(huán)境浪蹂。通過這個虛擬的環(huán)境抵栈,預(yù)測動作可能造成的環(huán)境狀態(tài)的變化以及可能收集到的獎勵,再通過動態(tài)規(guī)劃的方式找出一條最優(yōu)路徑乌逐,即最優(yōu)的動作決策竭讳。說的直白一點就是Model-based類的強(qiáng)化學(xué)習(xí)模型會通過模仿環(huán)境创葡,在腦海里先演算一下采取某種動作之后會造成環(huán)境怎樣變化浙踢,環(huán)境變化之后再采取某種動作,如此反復(fù)灿渴,最后找出一個最優(yōu)的決策洛波,最后再落實到真實環(huán)境中胰舆。就好比下象棋的時候,玩家會在腦海里先思考自己下某一步棋之后蹬挤,對手會如何反應(yīng)缚窿,對手反應(yīng)之后自己應(yīng)該如何應(yīng)對,思考n步之后的情況焰扳,找出最有優(yōu)勢的一套下棋步驟再去落子一樣倦零。

因此,在判斷模型是Model-based還是Model-free吨悍,只需要思考扫茅,該模型是否能預(yù)測往后n步的環(huán)境狀態(tài)。

由于Model-based模型需要創(chuàng)建一個虛擬的環(huán)境育瓜,可以理解為需要了解環(huán)境的運(yùn)作機(jī)制葫隙,所以筆者傾向于將Model-based翻譯為環(huán)境相關(guān)性模型。而Model-free模型不需要了解環(huán)境的運(yùn)作機(jī)制躏仇,所以筆者傾向于翻譯為環(huán)境無關(guān)性模型恋脚。

基于概率和基于值

強(qiáng)化學(xué)習(xí)的模型有兩種流派,一種是基于值的模型焰手,另一種是基于概率的模型糟描。兩者的區(qū)別在于,模型到底如何去選擇哪種動作册倒,即策略函數(shù)的輸出蚓挤。

基于值的模型,在接受到環(huán)境的狀態(tài)信息之后驻子,會輸出動作空間中每一個動作反饋到環(huán)境中可能得到的獎勵灿意,一般取得到獎勵最大的那個動作即可〕绾牵基于值的模型缤剧,往往用于解決離散型動作空間的情況。經(jīng)典的模型有基于Q-learning算法得到的DQN域慷,Double-DQN等模型荒辕。

基于概率的模型,在接受到環(huán)境的狀態(tài)信息之后犹褒,會直接輸出動作空間中抵窒,采取每一個動作的概率,之后根據(jù)動作空間的概率分布作采樣叠骑,得到一個或者一組動作李皇。基于概率的模型宙枷,往往用于解決連續(xù)型動作空間的情況掉房。經(jīng)典模型有Policy Gradient算法以及Actor-crictic模型等等茧跋。

離散型動作空間和連續(xù)型動作空間

這里講一下什么是離散型動作空間,什么是連續(xù)型動作空間卓囚。離散型動作空間很好理解瘾杭,比如玩游戲時,控制角色前后左右移動哪亿,就是一個離散的行為粥烁,就是這么確定的一組行為。連續(xù)型動作空間指的是例如汽車方向盤轉(zhuǎn)動的角度蝇棉,可選范圍可以是0~360度页徐,甚至可以更細(xì)化一些,細(xì)化到什么粒度無法確定银萍。

其實將連續(xù)型動作空間按某種粒度切分变勇,例如將0~360度劃分為0,1,...,360,那么其實也可以作為離散值贴唇。那么為什么還要提出基于概率的模型來解決這個問題呢搀绣?原因在于,即使通過某種粒度將連續(xù)型動作劃分成離散值戳气,但是劃分之后的動作空間會相當(dāng)大链患,預(yù)測每一個動作的值很耗費(fèi)計算資源,其次采樣也變得很耗時瓶您。而輸出動作分布之后麻捻,則可以根據(jù)分布進(jìn)行隨機(jī)采樣,得出一個或者一組動作呀袱。當(dāng)然贸毕,連續(xù)型動作空間的采樣也很費(fèi)時,不過DeepMind已經(jīng)提出了DDPG模型來解決了這個問題夜赵。

回合更新和單步更新

在強(qiáng)化學(xué)習(xí)模型的訓(xùn)練過程中明棍,更新模型參數(shù)的方式有兩種,一種是回合更新寇僧,另一種是單步更新摊腋。單步更新意味著,在每一次模型和環(huán)境交互之后嘁傀,立即更新參數(shù)兴蒸。另一種是執(zhí)行完一個行為序列,即多個交互之后细办,將梯度收集在一起橙凳,再作更新。這就好比玩游戲,回合更新指的是在一個游戲回合之后進(jìn)行參數(shù)更新痕惋,單步更新指的是在每一步進(jìn)行參數(shù)更新。

實際上娃殖,在進(jìn)行模型訓(xùn)練的時候值戳,會傾向于選擇可以單步更新的模型,因為單步更新的效率比回合更新要高一些炉爆。

在線學(xué)習(xí)和離線學(xué)習(xí)

在線學(xué)習(xí)和離線學(xué)習(xí)針對的是在強(qiáng)化學(xué)習(xí)模型在訓(xùn)練過程中交互數(shù)據(jù)的使用方式堕虹。在線學(xué)習(xí)的強(qiáng)化學(xué)習(xí)模型,會在一個交互之后芬首,立即用本次交互得到的經(jīng)驗進(jìn)行訓(xùn)練赴捞。而離線學(xué)習(xí)的強(qiáng)化學(xué)習(xí)模型,往往是先將多個交互的經(jīng)驗存儲起來郁稍,然后在學(xué)習(xí)的時候赦政,從存儲的經(jīng)驗中取出一批交互經(jīng)驗來學(xué)習(xí)。

在線學(xué)習(xí)看起來好像和單步更新差不多耀怜,離線學(xué)習(xí)好像也和回合更新差不多恢着,但實際上毫無關(guān)聯(lián),不能混淆财破。在線學(xué)習(xí)模型掰派,可以采用回合更新的方式,即在回合中每次交互之后的時候?qū)⑻荻扔嬎愫米罅。4嫫饋砻蚁郏睾辖Y(jié)束之后批量更新。離線學(xué)習(xí)模型也可以采用單步更新的方式俊性,每一個交互產(chǎn)生之后略步,就從存儲的經(jīng)驗中拿出一批數(shù)據(jù)計算梯度,更新參數(shù)定页,這一過程稱為經(jīng)驗回放纳像。

數(shù)據(jù)相關(guān)性

這里的數(shù)據(jù)指的是智能體與環(huán)境交互而得來的經(jīng)驗。那么什么是數(shù)據(jù)相關(guān)性呢拯勉?數(shù)據(jù)相關(guān)性指的是數(shù)據(jù)之間的依賴關(guān)系竟趾。在強(qiáng)化學(xué)習(xí)的過程中,環(huán)境當(dāng)前所處的狀態(tài)宫峦,往往由上一個狀態(tài)轉(zhuǎn)移過來岔帽,環(huán)境未來的狀態(tài),也是由當(dāng)前狀態(tài)轉(zhuǎn)移過去的导绷。因此犀勒,數(shù)據(jù)之間有著時間上的依賴。

在線學(xué)習(xí)模型中,這種相關(guān)性導(dǎo)致了對交互經(jīng)驗的利用不充分贾费,一份交互經(jīng)驗往往只會學(xué)習(xí)一次钦购,或者比較少的幾次。這種情況下褂萧,模型并不能充分完成經(jīng)驗的學(xué)習(xí)押桃。離線學(xué)習(xí)模型的提出,就是為了解決這一問題导犹。通過將交互經(jīng)驗存儲起來唱凯,通過經(jīng)驗回放的方式進(jìn)行學(xué)習(xí),一份經(jīng)驗可以學(xué)習(xí)多次谎痢,這樣就可以讓模型充分利用現(xiàn)有的經(jīng)驗磕昼。

到此,強(qiáng)化學(xué)習(xí)的一些基本概念介紹完成了节猿。強(qiáng)化學(xué)習(xí)涉及到的領(lǐng)域知識非常多票从,筆者根據(jù)自己所了解的知識,總結(jié)了以上基本概念滨嘱,歡迎批評指正纫骑。

Reference

https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/1-1-B-RL-methods/

https://blog.csdn.net/ppp8300885/article/details/78524235

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市九孩,隨后出現(xiàn)的幾起案子先馆,更是在濱河造成了極大的恐慌,老刑警劉巖躺彬,帶你破解...
    沈念sama閱讀 211,123評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件煤墙,死亡現(xiàn)場離奇詭異,居然都是意外死亡宪拥,警方通過查閱死者的電腦和手機(jī)仿野,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,031評論 2 384
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來她君,“玉大人脚作,你說我怎么就攤上這事〉奚玻” “怎么了球涛?”我有些...
    開封第一講書人閱讀 156,723評論 0 345
  • 文/不壞的土叔 我叫張陵,是天一觀的道長校镐。 經(jīng)常有香客問我亿扁,道長,這世上最難降的妖魔是什么鸟廓? 我笑而不...
    開封第一講書人閱讀 56,357評論 1 283
  • 正文 為了忘掉前任从祝,我火速辦了婚禮襟己,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘牍陌。我一直安慰自己擎浴,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 65,412評論 5 384
  • 文/花漫 我一把揭開白布毒涧。 她就那樣靜靜地躺著贮预,像睡著了一般。 火紅的嫁衣襯著肌膚如雪链嘀。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,760評論 1 289
  • 那天档玻,我揣著相機(jī)與錄音怀泊,去河邊找鬼。 笑死误趴,一個胖子當(dāng)著我的面吹牛霹琼,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播凉当,決...
    沈念sama閱讀 38,904評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼枣申,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了看杭?” 一聲冷哼從身側(cè)響起忠藤,我...
    開封第一講書人閱讀 37,672評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎楼雹,沒想到半個月后模孩,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,118評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡贮缅,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,456評論 2 325
  • 正文 我和宋清朗相戀三年榨咐,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片谴供。...
    茶點故事閱讀 38,599評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡块茁,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出桂肌,到底是詐尸還是另有隱情数焊,我是刑警寧澤,帶...
    沈念sama閱讀 34,264評論 4 328
  • 正文 年R本政府宣布崎场,位于F島的核電站昌跌,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏照雁。R本人自食惡果不足惜蚕愤,卻給世界環(huán)境...
    茶點故事閱讀 39,857評論 3 312
  • 文/蒙蒙 一答恶、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧萍诱,春花似錦悬嗓、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,731評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至籍凝,卻和暖如春周瞎,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背饵蒂。 一陣腳步聲響...
    開封第一講書人閱讀 31,956評論 1 264
  • 我被黑心中介騙來泰國打工声诸, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人退盯。 一個月前我還...
    沈念sama閱讀 46,286評論 2 360
  • 正文 我出身青樓彼乌,卻偏偏與公主長得像,于是被迫代替她去往敵國和親渊迁。 傳聞我的和親對象是個殘疾皇子慰照,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,465評論 2 348

推薦閱讀更多精彩內(nèi)容