強(qiáng)化學(xué)習(xí)基礎(chǔ)

1臭杰、背景介紹
學(xué)習(xí)和推理是人類智能最重要的體現(xiàn)动雹,為了使計(jì)算機(jī)也能夠像人一樣學(xué)習(xí)和決策,機(jī)器學(xué)習(xí)技術(shù)應(yīng)運(yùn)而生。機(jī)器學(xué)習(xí)利用計(jì)算機(jī)來模擬和實(shí)現(xiàn)人類學(xué)習(xí)和解決問題的過程薯酝,計(jì)算機(jī)系統(tǒng)通過不斷自我改進(jìn)和學(xué)習(xí),自動獲取知識并作出相應(yīng)的決策瞻润、判斷或分析店乐。機(jī)器學(xué)習(xí)是人工智能的一個重要的研究領(lǐng)域,根據(jù)是否從系統(tǒng)中獲得反饋撇寞,可以把機(jī)器學(xué)習(xí)分為有監(jiān)督顿天、無監(jiān)督和強(qiáng)化學(xué)習(xí)三大類。
監(jiān)督學(xué)習(xí)也稱有導(dǎo)師學(xué)習(xí)蔑担,給定系統(tǒng)一組輸入時牌废,需要給定一組對應(yīng)的輸出,系統(tǒng)在一種已知輸入-輸出數(shù)據(jù)集的環(huán)境習(xí)學(xué)習(xí)啤握。與監(jiān)督學(xué)習(xí)相反的是無監(jiān)督學(xué)習(xí)鸟缕,也稱無導(dǎo)師學(xué)習(xí)。無監(jiān)督學(xué)習(xí)中,只需要給定一組輸出懂从,不需要給定對應(yīng)的輸出授段,系統(tǒng)自動根據(jù)給定輸入的內(nèi)部結(jié)構(gòu)來進(jìn)行學(xué)習(xí)。有監(jiān)督和無監(jiān)督的機(jī)器學(xué)習(xí)模式可以解決絕大多數(shù)的機(jī)器學(xué)習(xí)問題番甩,但這兩種機(jī)器學(xué)習(xí)模式同人類學(xué)習(xí)侵贵、生物進(jìn)化的過程有很大的不同。生物的進(jìn)化是一種主動對環(huán)境進(jìn)行試探对室,并根據(jù)試探后模燥,環(huán)境反饋回來的結(jié)果進(jìn)行評價、總結(jié)掩宜,以改進(jìn)和調(diào)整自身的行為蔫骂,然后環(huán)境會根據(jù)新的行為作出新的反饋,持續(xù)調(diào)整的學(xué)習(xí)過程牺汤。體現(xiàn)這一思想的學(xué)習(xí)模式在機(jī)器學(xué)習(xí)領(lǐng)域稱為強(qiáng)化學(xué)習(xí)(Reinforcement Learning辽旋, RL),又稱增強(qiáng)學(xué)習(xí)檐迟。因此补胚,強(qiáng)化學(xué)習(xí)是一種痛有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)并列的機(jī)器學(xué)習(xí)模式追迟。


2溶其、強(qiáng)化學(xué)習(xí)系統(tǒng)
整個強(qiáng)化學(xué)習(xí)系統(tǒng)由智能體(Agent)、狀態(tài)(State)敦间、獎賞(Reward)瓶逃、動作(Action)和環(huán)境(Environment)五部分組成,系統(tǒng)示意圖如下圖所示廓块。


智能體(Agent):Agent是整個強(qiáng)化學(xué)習(xí)系統(tǒng)核心厢绝。它能夠感知環(huán)境的狀態(tài)(State),并且根據(jù)環(huán)境提供的強(qiáng)化信號(Reward Si)带猴,通過學(xué)習(xí)選擇一個合適的動作(Action)昔汉,來最大化長期的Reward值。簡而言之拴清,Agent就是根據(jù)環(huán)境提供的Reward做為反饋靶病,學(xué)習(xí)一系列的環(huán)境狀態(tài)(State)到動作(Action)的映射,動作選擇的原則是最大化未來累積的Reward的概率贷掖。選擇的動作不僅影響當(dāng)前時刻的Reward嫡秕,還會影響下一時刻甚至未來的Reward,因此苹威,Agent在學(xué)習(xí)過程中的基本規(guī)則是:如果某個動作(Action)帶來了環(huán)境的正回報(bào)(Reward)昆咽,那么這一動作會被加強(qiáng),反之則會逐漸削弱,類似于物理學(xué)中條件反射原理掷酗。

環(huán)境(Environment):環(huán)境會接收Agent執(zhí)行的一系列的動作(Action)调违,并且對這一系列的動作的好壞進(jìn)行評價,并轉(zhuǎn)換成一種可量化的(標(biāo)量信號)Reward反饋給Agent泻轰,而不會告訴Agent應(yīng)該如何去學(xué)習(xí)動作技肩。Agent只能靠自己的歷史(History)經(jīng)歷去學(xué)習(xí)。同時浮声,環(huán)境還像Agent提供它所處的狀態(tài)(State)信息虚婿。環(huán)境有完全可觀測(Fully Observable)和部分可觀測(Partial Observable)兩種情況。

獎賞(Reward):環(huán)境提供給Agent的一個可量化的標(biāo)量反饋信號泳挥,用于評價Agent在某一個時間步(time Step)所做action的好壞然痊。強(qiáng)化學(xué)習(xí)就是基于一種最大化累計(jì)獎賞假設(shè):強(qiáng)化學(xué)習(xí)中,Agent進(jìn)行一系列的動作選擇的目標(biāo)是最大化未來的累計(jì)獎賞(maximization of future expected cumulative Reward)屉符。

歷史(History):歷史就是Agent過去的一些列觀測剧浸、動作和reward的序列信息: Ht = S1,R1,A1,.......At-1,St,Rt。 Agent根據(jù)歷史的動作選擇矗钟,和選擇動作之后唆香,環(huán)境做給出的反饋和狀態(tài),決定如何選擇下一個動作(At)吨艇。

狀態(tài)(State):狀態(tài)指Agent所處的環(huán)境信息躬它,包含了智能體用于進(jìn)行Action選擇的所有信息,它是歷史(History)的一個函數(shù):St = f(Ht)东涡。
可見虑凛,強(qiáng)化學(xué)習(xí)的主體是Agent和環(huán)境Environment。Agent為了適應(yīng)環(huán)境软啼,最大化未來累計(jì)獎賞,做出的一些列的動作延柠,這個學(xué)習(xí)過程稱為強(qiáng)化學(xué)習(xí)祸挪。
3、強(qiáng)化學(xué)習(xí)的基本要素
一個強(qiáng)化學(xué)習(xí)系統(tǒng)贞间,除了Agent和環(huán)境(Environment)之外贿条,還包括其他四個要素:策略(Policy,P)增热、值函數(shù)(Value Function整以,V)、回報(bào)函數(shù)(Reward Function 峻仇,R)和環(huán)境模型(Environment Model)公黑,其中,環(huán)境模型是可以有,也可以沒有(Model Free)凡蚜。這四個要素之間的關(guān)系如下圖所示人断。


策略(Policy):表示狀態(tài)到動作的映射。策略的表達(dá)式如下朝蜘。


定義Agent在t時刻的行為方式恶迈,直接決定Agent的行動,是整個強(qiáng)化學(xué)習(xí)系統(tǒng)的核心谱醇。策略pi : S X A -> [0,1]或者pi: S -> A暇仲,表示在狀態(tài)S下選擇動作A的概率,其中副渴,S代表Agent所有狀態(tài)State的集合(狀態(tài)空間)奈附,A代表Agent所有動作集合(動作空間)。在任意的狀態(tài)(State)下佳晶,存在由策略pi組成了策略集合F桅狠,任意策略pi屬于F,在策略集合存在一個使問題具有最優(yōu)效果的策略pi轿秧,稱為最優(yōu)策略中跌,強(qiáng)化學(xué)習(xí)的目的尋找最優(yōu)的策略pi

回報(bào)函數(shù)(Reward Function):定義了強(qiáng)化學(xué)習(xí)問題的目標(biāo)菇篡,Agent通過一些列的策略(Policy)選擇漩符,最終通過回報(bào)函數(shù)映射到一個Reward信號,產(chǎn)生關(guān)于一個動作好會的評價驱还。Reward信號是一個標(biāo)量嗜暴,一般采用正數(shù)表示獎賞,負(fù)數(shù)表示懲罰议蟆。

值函數(shù)(Value Function):回報(bào)函數(shù)計(jì)算當(dāng)前的策略的好壞闷沥,但沒法衡量策略未來的好壞,因此咐容,通過值函數(shù)(Value Function)來預(yù)測未來的Reward的值舆逃,從長遠(yuǎn)角度來評價策略的好壞。為什么需要從未來角度來衡量策略pi的好壞戳粒?有兩個原因:1路狮、環(huán)境對于策略的給出的評價往往是由延遲的;2蔚约、Agent選擇的當(dāng)前動作或者策略奄妨,會對未來的狀態(tài)或者策略選擇產(chǎn)生影響,Agent在進(jìn)行動作選擇時苹祟,某些動作產(chǎn)生的當(dāng)前回報(bào)值比較高砸抛,但從長遠(yuǎn)來看评雌,可能并沒有那么高。因此锰悼,需要采用值函數(shù)(Value Function)來評估Agent所處的狀態(tài)的好壞柳骄,指導(dǎo)Agent進(jìn)行動作(Action)的選擇。值函數(shù)的表達(dá)式如下箕般。


環(huán)境模型(Environment Model):它使強(qiáng)化學(xué)習(xí)系統(tǒng)中可選的部分耐薯。將強(qiáng)化學(xué)習(xí)和動態(tài)規(guī)劃等方法結(jié)合在一起,環(huán)境模型用于模擬環(huán)境的行為方式丝里,比如曲初,給定一個狀態(tài)和動作情況下,環(huán)境模型可以預(yù)測下一步的狀態(tài)和回報(bào)杯聚。借助環(huán)境模型臼婆,Agent可以在進(jìn)行策略選擇時,考慮未來可能發(fā)生的情況幌绍,提前進(jìn)行規(guī)劃颁褂。用P表示下一步狀態(tài),R表示下一步的回報(bào)傀广,環(huán)境模型可以表示成如何形式颁独。


最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市伪冰,隨后出現(xiàn)的幾起案子誓酒,更是在濱河造成了極大的恐慌,老刑警劉巖贮聂,帶你破解...
    沈念sama閱讀 219,427評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件靠柑,死亡現(xiàn)場離奇詭異,居然都是意外死亡吓懈,警方通過查閱死者的電腦和手機(jī)歼冰,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,551評論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來耻警,“玉大人停巷,你說我怎么就攤上這事¢爬福” “怎么了?”我有些...
    開封第一講書人閱讀 165,747評論 0 356
  • 文/不壞的土叔 我叫張陵蕾各,是天一觀的道長扒磁。 經(jīng)常有香客問我,道長式曲,這世上最難降的妖魔是什么妨托? 我笑而不...
    開封第一講書人閱讀 58,939評論 1 295
  • 正文 為了忘掉前任缸榛,我火速辦了婚禮,結(jié)果婚禮上兰伤,老公的妹妹穿的比我還像新娘内颗。我一直安慰自己,他們只是感情好敦腔,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,955評論 6 392
  • 文/花漫 我一把揭開白布均澳。 她就那樣靜靜地躺著,像睡著了一般符衔。 火紅的嫁衣襯著肌膚如雪找前。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,737評論 1 305
  • 那天判族,我揣著相機(jī)與錄音躺盛,去河邊找鬼。 笑死形帮,一個胖子當(dāng)著我的面吹牛槽惫,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播辩撑,決...
    沈念sama閱讀 40,448評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼界斜,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了槐臀?” 一聲冷哼從身側(cè)響起锄蹂,我...
    開封第一講書人閱讀 39,352評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎水慨,沒想到半個月后得糜,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,834評論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡晰洒,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,992評論 3 338
  • 正文 我和宋清朗相戀三年朝抖,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片谍珊。...
    茶點(diǎn)故事閱讀 40,133評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡治宣,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出砌滞,到底是詐尸還是另有隱情侮邀,我是刑警寧澤,帶...
    沈念sama閱讀 35,815評論 5 346
  • 正文 年R本政府宣布贝润,位于F島的核電站绊茧,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏打掘。R本人自食惡果不足惜华畏,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,477評論 3 331
  • 文/蒙蒙 一鹏秋、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧亡笑,春花似錦侣夷、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,022評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至绝骚,卻和暖如春耐版,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背压汪。 一陣腳步聲響...
    開封第一講書人閱讀 33,147評論 1 272
  • 我被黑心中介騙來泰國打工粪牲, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人止剖。 一個月前我還...
    沈念sama閱讀 48,398評論 3 373
  • 正文 我出身青樓腺阳,卻偏偏與公主長得像,于是被迫代替她去往敵國和親穿香。 傳聞我的和親對象是個殘疾皇子亭引,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,077評論 2 355

推薦閱讀更多精彩內(nèi)容