1臭杰、背景介紹
學(xué)習(xí)和推理是人類智能最重要的體現(xiàn)动雹,為了使計(jì)算機(jī)也能夠像人一樣學(xué)習(xí)和決策,機(jī)器學(xué)習(xí)技術(shù)應(yīng)運(yùn)而生。機(jī)器學(xué)習(xí)利用計(jì)算機(jī)來模擬和實(shí)現(xiàn)人類學(xué)習(xí)和解決問題的過程薯酝,計(jì)算機(jī)系統(tǒng)通過不斷自我改進(jìn)和學(xué)習(xí),自動獲取知識并作出相應(yīng)的決策瞻润、判斷或分析店乐。機(jī)器學(xué)習(xí)是人工智能的一個重要的研究領(lǐng)域,根據(jù)是否從系統(tǒng)中獲得反饋撇寞,可以把機(jī)器學(xué)習(xí)分為有監(jiān)督顿天、無監(jiān)督和強(qiáng)化學(xué)習(xí)三大類。
監(jiān)督學(xué)習(xí)也稱有導(dǎo)師學(xué)習(xí)蔑担,給定系統(tǒng)一組輸入時牌废,需要給定一組對應(yīng)的輸出,系統(tǒng)在一種已知輸入-輸出數(shù)據(jù)集的環(huán)境習(xí)學(xué)習(xí)啤握。與監(jiān)督學(xué)習(xí)相反的是無監(jiān)督學(xué)習(xí)鸟缕,也稱無導(dǎo)師學(xué)習(xí)。無監(jiān)督學(xué)習(xí)中,只需要給定一組輸出懂从,不需要給定對應(yīng)的輸出授段,系統(tǒng)自動根據(jù)給定輸入的內(nèi)部結(jié)構(gòu)來進(jìn)行學(xué)習(xí)。有監(jiān)督和無監(jiān)督的機(jī)器學(xué)習(xí)模式可以解決絕大多數(shù)的機(jī)器學(xué)習(xí)問題番甩,但這兩種機(jī)器學(xué)習(xí)模式同人類學(xué)習(xí)侵贵、生物進(jìn)化的過程有很大的不同。生物的進(jìn)化是一種主動對環(huán)境進(jìn)行試探对室,并根據(jù)試探后模燥,環(huán)境反饋回來的結(jié)果進(jìn)行評價、總結(jié)掩宜,以改進(jìn)和調(diào)整自身的行為蔫骂,然后環(huán)境會根據(jù)新的行為作出新的反饋,持續(xù)調(diào)整的學(xué)習(xí)過程牺汤。體現(xiàn)這一思想的學(xué)習(xí)模式在機(jī)器學(xué)習(xí)領(lǐng)域稱為強(qiáng)化學(xué)習(xí)(Reinforcement Learning辽旋, RL),又稱增強(qiáng)學(xué)習(xí)檐迟。因此补胚,強(qiáng)化學(xué)習(xí)是一種痛有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)并列的機(jī)器學(xué)習(xí)模式追迟。
2溶其、強(qiáng)化學(xué)習(xí)系統(tǒng)
整個強(qiáng)化學(xué)習(xí)系統(tǒng)由智能體(Agent)、狀態(tài)(State)敦间、獎賞(Reward)瓶逃、動作(Action)和環(huán)境(Environment)五部分組成,系統(tǒng)示意圖如下圖所示廓块。
智能體(Agent):Agent是整個強(qiáng)化學(xué)習(xí)系統(tǒng)核心厢绝。它能夠感知環(huán)境的狀態(tài)(State),并且根據(jù)環(huán)境提供的強(qiáng)化信號(Reward Si)带猴,通過學(xué)習(xí)選擇一個合適的動作(Action)昔汉,來最大化長期的Reward值。簡而言之拴清,Agent就是根據(jù)環(huán)境提供的Reward做為反饋靶病,學(xué)習(xí)一系列的環(huán)境狀態(tài)(State)到動作(Action)的映射,動作選擇的原則是最大化未來累積的Reward的概率贷掖。選擇的動作不僅影響當(dāng)前時刻的Reward嫡秕,還會影響下一時刻甚至未來的Reward,因此苹威,Agent在學(xué)習(xí)過程中的基本規(guī)則是:如果某個動作(Action)帶來了環(huán)境的正回報(bào)(Reward)昆咽,那么這一動作會被加強(qiáng),反之則會逐漸削弱,類似于物理學(xué)中條件反射原理掷酗。
環(huán)境(Environment):環(huán)境會接收Agent執(zhí)行的一系列的動作(Action)调违,并且對這一系列的動作的好壞進(jìn)行評價,并轉(zhuǎn)換成一種可量化的(標(biāo)量信號)Reward反饋給Agent泻轰,而不會告訴Agent應(yīng)該如何去學(xué)習(xí)動作技肩。Agent只能靠自己的歷史(History)經(jīng)歷去學(xué)習(xí)。同時浮声,環(huán)境還像Agent提供它所處的狀態(tài)(State)信息虚婿。環(huán)境有完全可觀測(Fully Observable)和部分可觀測(Partial Observable)兩種情況。
獎賞(Reward):環(huán)境提供給Agent的一個可量化的標(biāo)量反饋信號泳挥,用于評價Agent在某一個時間步(time Step)所做action的好壞然痊。強(qiáng)化學(xué)習(xí)就是基于一種最大化累計(jì)獎賞假設(shè):強(qiáng)化學(xué)習(xí)中,Agent進(jìn)行一系列的動作選擇的目標(biāo)是最大化未來的累計(jì)獎賞(maximization of future expected cumulative Reward)屉符。
歷史(History):歷史就是Agent過去的一些列觀測剧浸、動作和reward的序列信息: Ht = S1,R1,A1,.......At-1,St,Rt。 Agent根據(jù)歷史的動作選擇矗钟,和選擇動作之后唆香,環(huán)境做給出的反饋和狀態(tài),決定如何選擇下一個動作(At)吨艇。
狀態(tài)(State):狀態(tài)指Agent所處的環(huán)境信息躬它,包含了智能體用于進(jìn)行Action選擇的所有信息,它是歷史(History)的一個函數(shù):St = f(Ht)东涡。
可見虑凛,強(qiáng)化學(xué)習(xí)的主體是Agent和環(huán)境Environment。Agent為了適應(yīng)環(huán)境软啼,最大化未來累計(jì)獎賞,做出的一些列的動作延柠,這個學(xué)習(xí)過程稱為強(qiáng)化學(xué)習(xí)祸挪。
3、強(qiáng)化學(xué)習(xí)的基本要素
一個強(qiáng)化學(xué)習(xí)系統(tǒng)贞间,除了Agent和環(huán)境(Environment)之外贿条,還包括其他四個要素:策略(Policy,P)增热、值函數(shù)(Value Function整以,V)、回報(bào)函數(shù)(Reward Function 峻仇,R)和環(huán)境模型(Environment Model)公黑,其中,環(huán)境模型是可以有,也可以沒有(Model Free)凡蚜。這四個要素之間的關(guān)系如下圖所示人断。
策略(Policy):表示狀態(tài)到動作的映射。策略的表達(dá)式如下朝蜘。
定義Agent在t時刻的行為方式恶迈,直接決定Agent的行動,是整個強(qiáng)化學(xué)習(xí)系統(tǒng)的核心谱醇。策略pi : S X A -> [0,1]或者pi: S -> A暇仲,表示在狀態(tài)S下選擇動作A的概率,其中副渴,S代表Agent所有狀態(tài)State的集合(狀態(tài)空間)奈附,A代表Agent所有動作集合(動作空間)。在任意的狀態(tài)(State)下佳晶,存在由策略pi組成了策略集合F桅狠,任意策略pi屬于F,在策略集合存在一個使問題具有最優(yōu)效果的策略pi轿秧,稱為最優(yōu)策略中跌,強(qiáng)化學(xué)習(xí)的目的尋找最優(yōu)的策略pi。
回報(bào)函數(shù)(Reward Function):定義了強(qiáng)化學(xué)習(xí)問題的目標(biāo)菇篡,Agent通過一些列的策略(Policy)選擇漩符,最終通過回報(bào)函數(shù)映射到一個Reward信號,產(chǎn)生關(guān)于一個動作好會的評價驱还。Reward信號是一個標(biāo)量嗜暴,一般采用正數(shù)表示獎賞,負(fù)數(shù)表示懲罰议蟆。
值函數(shù)(Value Function):回報(bào)函數(shù)計(jì)算當(dāng)前的策略的好壞闷沥,但沒法衡量策略未來的好壞,因此咐容,通過值函數(shù)(Value Function)來預(yù)測未來的Reward的值舆逃,從長遠(yuǎn)角度來評價策略的好壞。為什么需要從未來角度來衡量策略pi的好壞戳粒?有兩個原因:1路狮、環(huán)境對于策略的給出的評價往往是由延遲的;2蔚约、Agent選擇的當(dāng)前動作或者策略奄妨,會對未來的狀態(tài)或者策略選擇產(chǎn)生影響,Agent在進(jìn)行動作選擇時苹祟,某些動作產(chǎn)生的當(dāng)前回報(bào)值比較高砸抛,但從長遠(yuǎn)來看评雌,可能并沒有那么高。因此锰悼,需要采用值函數(shù)(Value Function)來評估Agent所處的狀態(tài)的好壞柳骄,指導(dǎo)Agent進(jìn)行動作(Action)的選擇。值函數(shù)的表達(dá)式如下箕般。
環(huán)境模型(Environment Model):它使強(qiáng)化學(xué)習(xí)系統(tǒng)中可選的部分耐薯。將強(qiáng)化學(xué)習(xí)和動態(tài)規(guī)劃等方法結(jié)合在一起,環(huán)境模型用于模擬環(huán)境的行為方式丝里,比如曲初,給定一個狀態(tài)和動作情況下,環(huán)境模型可以預(yù)測下一步的狀態(tài)和回報(bào)杯聚。借助環(huán)境模型臼婆,Agent可以在進(jìn)行策略選擇時,考慮未來可能發(fā)生的情況幌绍,提前進(jìn)行規(guī)劃颁褂。用P表示下一步狀態(tài),R表示下一步的回報(bào)傀广,環(huán)境模型可以表示成如何形式颁独。