強(qiáng)化學(xué)習(xí)(Q-funcation,DQN)基本介紹

強(qiáng)化學(xué)習(xí)和監(jiān)督剃诅,無監(jiān)督學(xué)習(xí)的關(guān)系

這三種同屬于機(jī)器學(xué)習(xí)的范疇。

  • 與監(jiān)督學(xué)習(xí)的區(qū)別:
    強(qiáng)化學(xué)習(xí)(RL)沒有預(yù)先準(zhǔn)備好的訓(xùn)練數(shù)據(jù)的輸出值(label)绑莺。
    RL只有獎(jiǎng)勵(lì)值苫昌,當(dāng)然獎(jiǎng)勵(lì)值也不是事先給出的,它是延后給出的捕虽。
  • 與無監(jiān)督學(xué)習(xí)的區(qū)別:
    無監(jiān)督學(xué)習(xí)沒有l(wèi)abel慨丐,也沒有獎(jiǎng)勵(lì)值,只有一堆的數(shù)據(jù)特征泄私。

強(qiáng)化學(xué)習(xí)的基本要素

基本要素
  • agent

agent時(shí)RL中的中心組成部分房揭,我們可以稱之為學(xué)習(xí)者或者是決策者。

  • environment

與agent進(jìn)行交互的外界晌端,我們稱之為environment捅暴。

  • action

action就是agent在當(dāng)前環(huán)境中有可能采取的動(dòng)作。

  • reward

獎(jiǎng)勵(lì)就是agent在當(dāng)前環(huán)境下采取action后的一種回應(yīng)咧纠,所以獎(jiǎng)勵(lì)基本上就像一個(gè)反饋蓬痒,衡量在那個(gè)環(huán)境中所采取的行動(dòng)的好壞,成功或失敗漆羔。獎(jiǎng)勵(lì)可以是立即的梧奢,你采取行動(dòng),你立即得到一個(gè)獎(jiǎng)勵(lì)演痒;獎(jiǎng)勵(lì)也可以是延后的,今天亲轨,你采取了一個(gè)行動(dòng),你可能直到明天或后天才能得到收益鸟顺。

以上要素惦蚊,它們不斷地交互,agent選擇動(dòng)作讯嫂,環(huán)境響應(yīng)這些動(dòng)作并向agent呈現(xiàn)新的情況养筒。
環(huán)境也會(huì)帶來回報(bào),隨著時(shí)間的推移端姚,agent通過選擇行動(dòng)來最大化回報(bào)晕粪。
這就是強(qiáng)化學(xué)習(xí)的基本過程。

基于獎(jiǎng)勵(lì)的概念渐裸,我們可以得出強(qiáng)化學(xué)習(xí)中的一個(gè)重要公式

In general, we seek to maximize the expected return, where the return, denoted G_t , is
defined as some specific function of the reward sequence. In the simplest case the return
is the sum of the rewards:
G_t=R_{t+1}+\gamma R_{t+2}+\gamma^{2} R_{t+3}+ \cdots

其中\gamma是0~1范圍的值巫湘,如果\gamma =0装悲,則該agent只關(guān)心當(dāng)前立即獎(jiǎng)勵(lì)的最大化。當(dāng)\gamma接近1時(shí)尚氛,agent會(huì)更多地考慮未來的獎(jiǎng)勵(lì)诀诊,所以agent變得更加有遠(yuǎn)見。

目前強(qiáng)化學(xué)習(xí)的算法

基本算法分類

強(qiáng)化學(xué)習(xí)的算法基本上都包含了價(jià)值函數(shù)阅嘶。一種價(jià)值函數(shù)是關(guān)于狀態(tài)的價(jià)值函數(shù)f(s)属瓣,用來評(píng)判agent所處狀態(tài)的好壞;另一種價(jià)值函數(shù)是關(guān)于狀態(tài)-動(dòng)作的價(jià)值函數(shù)f(s,a)讯柔,用來評(píng)判當(dāng)前狀態(tài)s下所采取的行動(dòng)a的好壞抡蛙。
關(guān)于model-free 和 model-based的區(qū)別(個(gè)人覺得這位網(wǎng)友的評(píng)論比較容易理解):

  • Model based learning attempts to model the environment, and then based on that model,choose the most appropriate policy.
  • Model-free learning attempts to learn the optimal policy in one step。

價(jià)值函數(shù)Q-function介紹

首先我們先來定義Q-function:
Q(s,a)=\mathbb{E}(G_t)魂迄,其中G_t=R_{t+1}+\gamma R_{t+2}+\gamma^{2} R_{t+3}+ \cdots
Q-function 有兩個(gè)輸入粗截,其中一個(gè)是狀態(tài)s,還有一個(gè)是在當(dāng)前狀態(tài)下agent執(zhí)行的動(dòng)作a捣炬。我們希望用Q-function來表示agent在狀態(tài)s下采取動(dòng)作a后未來可以獲得的總獎(jiǎng)勵(lì)的期望熊昌。

策略Policy介紹

首先,我們要知道強(qiáng)化學(xué)習(xí)它的最終目標(biāo)湿酸,就是給定任意的狀態(tài)婿屹,我要讓agent在那個(gè)狀態(tài)下,采取一個(gè)最優(yōu)的行動(dòng)推溃。
所以选泻,agent需要一個(gè)策略policy\pi (s)來指導(dǎo)它做行動(dòng)。
當(dāng)然美莫,很容易得到最優(yōu)的策略定義是\pi ^*(s)=argmax _aQ(s,a)

Deep Q Networks介紹

這里談一下為什么要用到DQN呢梯捕,就是我們現(xiàn)實(shí)中的任務(wù)厢呵,基本上是有很多狀態(tài)的,比如一個(gè)游戲傀顾,每一幀襟铭,它都是一個(gè)狀態(tài),而且每一幀包含的信息都是高維度的信息短曾,想把這些狀態(tài)和對(duì)應(yīng)的Q值存下來幾乎不可能寒砖,所以我們用神經(jīng)網(wǎng)絡(luò)來映射狀態(tài)到Q值的關(guān)系。


DQN模型

左邊的模型把一個(gè)狀態(tài)和一個(gè)可能的動(dòng)作作為輸入嫉拐,得到相應(yīng)的Q值哩都。這個(gè)模型的問題是,如果我們現(xiàn)在想要使用我們的策略婉徘,為了得到最優(yōu)的Q值漠嵌,我們必須循環(huán)的輸入對(duì)應(yīng)的狀態(tài)和所有可能的行動(dòng)咐汞,然后找到最大的Q值。這顯然是不合理且費(fèi)時(shí)的儒鹿。
為了解決該問題化撕,我們介紹右邊的模型,現(xiàn)在我們只輸入狀態(tài)约炎,DQN將會(huì)計(jì)算所有可能行動(dòng)的Q值植阴,這意味著,如果我們想在給定狀態(tài)下采取行動(dòng)圾浅,我們只需將狀態(tài)反饋給網(wǎng)絡(luò)掠手,它就會(huì)返回所有的Q值。
這兩個(gè)情況都可以根據(jù)下方的Q-loss來更新網(wǎng)絡(luò)的參數(shù)贱傀。

關(guān)于DQN的具體細(xì)節(jié)惨撇,一些技巧和設(shè)置可以閱讀該文章(Nature 2015 DQN)(https://web.stanford.edu/class/psych209/Readings/MnihEtAlHassibis15NatureControlDeepRL.pdf)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市府寒,隨后出現(xiàn)的幾起案子魁衙,更是在濱河造成了極大的恐慌,老刑警劉巖株搔,帶你破解...
    沈念sama閱讀 221,273評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件剖淀,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡纤房,警方通過查閱死者的電腦和手機(jī)纵隔,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,349評(píng)論 3 398
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來炮姨,“玉大人捌刮,你說我怎么就攤上這事∈姘叮” “怎么了绅作?”我有些...
    開封第一講書人閱讀 167,709評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)蛾派。 經(jīng)常有香客問我俄认,道長(zhǎng),這世上最難降的妖魔是什么洪乍? 我笑而不...
    開封第一講書人閱讀 59,520評(píng)論 1 296
  • 正文 為了忘掉前任眯杏,我火速辦了婚禮,結(jié)果婚禮上壳澳,老公的妹妹穿的比我還像新娘岂贩。我一直安慰自己,他們只是感情好巷波,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,515評(píng)論 6 397
  • 文/花漫 我一把揭開白布河闰。 她就那樣靜靜地躺著科平,像睡著了一般。 火紅的嫁衣襯著肌膚如雪姜性。 梳的紋絲不亂的頭發(fā)上瞪慧,一...
    開封第一講書人閱讀 52,158評(píng)論 1 308
  • 那天,我揣著相機(jī)與錄音部念,去河邊找鬼弃酌。 笑死,一個(gè)胖子當(dāng)著我的面吹牛儡炼,可吹牛的內(nèi)容都是我干的妓湘。 我是一名探鬼主播,決...
    沈念sama閱讀 40,755評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼乌询,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼榜贴!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起妹田,我...
    開封第一講書人閱讀 39,660評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤唬党,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后鬼佣,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體驶拱,經(jīng)...
    沈念sama閱讀 46,203評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,287評(píng)論 3 340
  • 正文 我和宋清朗相戀三年晶衷,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了蓝纲。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,427評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡晌纫,死狀恐怖税迷,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情锹漱,我是刑警寧澤箭养,帶...
    沈念sama閱讀 36,122評(píng)論 5 349
  • 正文 年R本政府宣布,位于F島的核電站凌蔬,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏闯冷。R本人自食惡果不足惜砂心,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,801評(píng)論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望蛇耀。 院中可真熱鬧辩诞,春花似錦、人聲如沸纺涤。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,272評(píng)論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至外永,卻和暖如春崎脉,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背伯顶。 一陣腳步聲響...
    開封第一講書人閱讀 33,393評(píng)論 1 272
  • 我被黑心中介騙來泰國(guó)打工囚灼, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人祭衩。 一個(gè)月前我還...
    沈念sama閱讀 48,808評(píng)論 3 376
  • 正文 我出身青樓灶体,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親掐暮。 傳聞我的和親對(duì)象是個(gè)殘疾皇子蝎抽,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,440評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容