強(qiáng)化學(xué)習(xí)基礎(chǔ)

1臭杰、背景介紹
學(xué)習(xí)和推理是人類智能最重要的體現(xiàn)动雹，為了使計(jì)算機(jī)也能夠像人一樣學(xué)習(xí)和決策，機(jī)器學(xué)習(xí)技術(shù)應(yīng)運(yùn)而生。機(jī)器學(xué)習(xí)利用計(jì)算機(jī)來模擬和實(shí)現(xiàn)人類學(xué)習(xí)和解決問題的過程薯酝，計(jì)算機(jī)系統(tǒng)通過不斷自我改進(jìn)和學(xué)習(xí)，自動獲取知識并作出相應(yīng)的決策瞻润、判斷或分析店乐。機(jī)器學(xué)習(xí)是人工智能的一個重要的研究領(lǐng)域，根據(jù)是否從系統(tǒng)中獲得反饋撇寞，可以把機(jī)器學(xué)習(xí)分為有監(jiān)督顿天、無監(jiān)督和強(qiáng)化學(xué)習(xí)三大類。
監(jiān)督學(xué)習(xí)也稱有導(dǎo)師學(xué)習(xí)蔑担，給定系統(tǒng)一組輸入時牌废，需要給定一組對應(yīng)的輸出，系統(tǒng)在一種已知輸入-輸出數(shù)據(jù)集的環(huán)境習(xí)學(xué)習(xí)啤握。與監(jiān)督學(xué)習(xí)相反的是無監(jiān)督學(xué)習(xí)鸟缕，也稱無導(dǎo)師學(xué)習(xí)。無監(jiān)督學(xué)習(xí)中，只需要給定一組輸出懂从，不需要給定對應(yīng)的輸出授段，系統(tǒng)自動根據(jù)給定輸入的內(nèi)部結(jié)構(gòu)來進(jìn)行學(xué)習(xí)。有監(jiān)督和無監(jiān)督的機(jī)器學(xué)習(xí)模式可以解決絕大多數(shù)的機(jī)器學(xué)習(xí)問題番甩，但這兩種機(jī)器學(xué)習(xí)模式同人類學(xué)習(xí)侵贵、生物進(jìn)化的過程有很大的不同。生物的進(jìn)化是一種主動對環(huán)境進(jìn)行試探对室，并根據(jù)試探后模燥，環(huán)境反饋回來的結(jié)果進(jìn)行評價、總結(jié)掩宜，以改進(jìn)和調(diào)整自身的行為蔫骂，然后環(huán)境會根據(jù)新的行為作出新的反饋，持續(xù)調(diào)整的學(xué)習(xí)過程牺汤。體現(xiàn)這一思想的學(xué)習(xí)模式在機(jī)器學(xué)習(xí)領(lǐng)域稱為強(qiáng)化學(xué)習(xí)（Reinforcement Learning辽旋， RL），又稱增強(qiáng)學(xué)習(xí)檐迟。因此补胚，強(qiáng)化學(xué)習(xí)是一種痛有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)并列的機(jī)器學(xué)習(xí)模式追迟。

2溶其、強(qiáng)化學(xué)習(xí)系統(tǒng)
整個強(qiáng)化學(xué)習(xí)系統(tǒng)由智能體（Agent）、狀態(tài)（State）敦间、獎賞（Reward）瓶逃、動作（Action）和環(huán)境（Environment）五部分組成，系統(tǒng)示意圖如下圖所示廓块。

智能體（Agent）：Agent是整個強(qiáng)化學(xué)習(xí)系統(tǒng)核心厢绝。它能夠感知環(huán)境的狀態(tài)（State），并且根據(jù)環(huán)境提供的強(qiáng)化信號（Reward Si）带猴，通過學(xué)習(xí)選擇一個合適的動作（Action）昔汉，來最大化長期的Reward值。簡而言之拴清，Agent就是根據(jù)環(huán)境提供的Reward做為反饋靶病，學(xué)習(xí)一系列的環(huán)境狀態(tài)（State）到動作（Action）的映射，動作選擇的原則是最大化未來累積的Reward的概率贷掖。選擇的動作不僅影響當(dāng)前時刻的Reward嫡秕，還會影響下一時刻甚至未來的Reward，因此苹威，Agent在學(xué)習(xí)過程中的基本規(guī)則是：如果某個動作（Action）帶來了環(huán)境的正回報(bào)（Reward）昆咽，那么這一動作會被加強(qiáng)，反之則會逐漸削弱，類似于物理學(xué)中條件反射原理掷酗。

環(huán)境（Environment）：環(huán)境會接收Agent執(zhí)行的一系列的動作（Action）调违，并且對這一系列的動作的好壞進(jìn)行評價，并轉(zhuǎn)換成一種可量化的（標(biāo)量信號）Reward反饋給Agent泻轰，而不會告訴Agent應(yīng)該如何去學(xué)習(xí)動作技肩。Agent只能靠自己的歷史（History）經(jīng)歷去學(xué)習(xí)。同時浮声，環(huán)境還像Agent提供它所處的狀態(tài)（State）信息虚婿。環(huán)境有完全可觀測（Fully Observable）和部分可觀測（Partial Observable）兩種情況。

獎賞（Reward）：環(huán)境提供給Agent的一個可量化的標(biāo)量反饋信號泳挥，用于評價Agent在某一個時間步（time Step）所做action的好壞然痊。強(qiáng)化學(xué)習(xí)就是基于一種最大化累計(jì)獎賞假設(shè)：強(qiáng)化學(xué)習(xí)中，Agent進(jìn)行一系列的動作選擇的目標(biāo)是最大化未來的累計(jì)獎賞（maximization of future expected cumulative Reward）屉符。

歷史（History）：歷史就是Agent過去的一些列觀測剧浸、動作和reward的序列信息: Ht = S1,R1,A1,.......At-1,St,Rt。 Agent根據(jù)歷史的動作選擇矗钟，和選擇動作之后唆香，環(huán)境做給出的反饋和狀態(tài)，決定如何選擇下一個動作（At）吨艇。

狀態(tài)（State）：狀態(tài)指Agent所處的環(huán)境信息躬它，包含了智能體用于進(jìn)行Action選擇的所有信息，它是歷史（History）的一個函數(shù)：St = f（Ht）东涡。
可見虑凛，強(qiáng)化學(xué)習(xí)的主體是Agent和環(huán)境Environment。Agent為了適應(yīng)環(huán)境软啼，最大化未來累計(jì)獎賞，做出的一些列的動作延柠，這個學(xué)習(xí)過程稱為強(qiáng)化學(xué)習(xí)祸挪。
3、強(qiáng)化學(xué)習(xí)的基本要素
一個強(qiáng)化學(xué)習(xí)系統(tǒng)贞间，除了Agent和環(huán)境（Environment）之外贿条，還包括其他四個要素：策略（Policy，P）增热、值函數(shù)（Value Function整以，V）、回報(bào)函數(shù)（Reward Function 峻仇，R）和環(huán)境模型（Environment Model）公黑，其中，環(huán)境模型是可以有，也可以沒有（Model Free）凡蚜。這四個要素之間的關(guān)系如下圖所示人断。

策略（Policy）：表示狀態(tài)到動作的映射。策略的表達(dá)式如下朝蜘。

定義Agent在t時刻的行為方式恶迈，直接決定Agent的行動，是整個強(qiáng)化學(xué)習(xí)系統(tǒng)的核心谱醇。策略pi : S X A -> [0,1]或者pi： S -> A暇仲，表示在狀態(tài)S下選擇動作A的概率，其中副渴，S代表Agent所有狀態(tài)State的集合（狀態(tài)空間）奈附，A代表Agent所有動作集合（動作空間）。在任意的狀態(tài)（State）下佳晶，存在由策略pi組成了策略集合F桅狠，任意策略pi屬于F，在策略集合存在一個使問題具有最優(yōu)效果的策略pi轿秧，稱為最優(yōu)策略中跌，強(qiáng)化學(xué)習(xí)的目的尋找最優(yōu)的策略pi。

回報(bào)函數(shù)（Reward Function）：定義了強(qiáng)化學(xué)習(xí)問題的目標(biāo)菇篡，Agent通過一些列的策略（Policy）選擇漩符，最終通過回報(bào)函數(shù)映射到一個Reward信號，產(chǎn)生關(guān)于一個動作好會的評價驱还。Reward信號是一個標(biāo)量嗜暴，一般采用正數(shù)表示獎賞，負(fù)數(shù)表示懲罰议蟆。

值函數(shù)（Value Function）：回報(bào)函數(shù)計(jì)算當(dāng)前的策略的好壞闷沥，但沒法衡量策略未來的好壞，因此咐容，通過值函數(shù)（Value Function）來預(yù)測未來的Reward的值舆逃，從長遠(yuǎn)角度來評價策略的好壞。為什么需要從未來角度來衡量策略pi的好壞戳粒？有兩個原因：1路狮、環(huán)境對于策略的給出的評價往往是由延遲的；2蔚约、Agent選擇的當(dāng)前動作或者策略奄妨，會對未來的狀態(tài)或者策略選擇產(chǎn)生影響，Agent在進(jìn)行動作選擇時苹祟，某些動作產(chǎn)生的當(dāng)前回報(bào)值比較高砸抛，但從長遠(yuǎn)來看评雌，可能并沒有那么高。因此锰悼，需要采用值函數(shù)（Value Function）來評估Agent所處的狀態(tài)的好壞柳骄，指導(dǎo)Agent進(jìn)行動作（Action）的選擇。值函數(shù)的表達(dá)式如下箕般。

環(huán)境模型（Environment Model）：它使強(qiáng)化學(xué)習(xí)系統(tǒng)中可選的部分耐薯。將強(qiáng)化學(xué)習(xí)和動態(tài)規(guī)劃等方法結(jié)合在一起，環(huán)境模型用于模擬環(huán)境的行為方式丝里，比如曲初，給定一個狀態(tài)和動作情況下，環(huán)境模型可以預(yù)測下一步的狀態(tài)和回報(bào)杯聚。借助環(huán)境模型臼婆，Agent可以在進(jìn)行策略選擇時，考慮未來可能發(fā)生的情況幌绍，提前進(jìn)行規(guī)劃颁褂。用P表示下一步狀態(tài)，R表示下一步的回報(bào)傀广，環(huán)境模型可以表示成如何形式颁独。

最后編輯于：2017.12.11 05:16:30

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市伪冰，隨后出現(xiàn)的幾起案子誓酒，更是在濱河造成了極大的恐慌，老刑警劉巖贮聂，帶你破解...
沈念sama閱讀 219,427評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件靠柑，死亡現(xiàn)場離奇詭異，居然都是意外死亡吓懈，警方通過查閱死者的電腦和手機(jī)歼冰，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,551評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來耻警，“玉大人停巷，你說我怎么就攤上這事￠爬福” “怎么了？”我有些...
開封第一講書人閱讀 165,747評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵蕾各，是天一觀的道長扒磁。經(jīng)常有香客問我，道長式曲，這世上最難降的妖魔是什么妨托？我笑而不...
開封第一講書人閱讀 58,939評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任缸榛，我火速辦了婚禮，結(jié)果婚禮上兰伤，老公的妹妹穿的比我還像新娘内颗。我一直安慰自己，他們只是感情好敦腔，可當(dāng)我...
茶點(diǎn)故事閱讀 67,955評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布均澳。她就那樣靜靜地躺著，像睡著了一般符衔。火紅的嫁衣襯著肌膚如雪找前。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,737評論 1贊 305
城市分裂傳說
那天判族，我揣著相機(jī)與錄音躺盛，去河邊找鬼。笑死形帮，一個胖子當(dāng)著我的面吹牛槽惫，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播辩撑，決...
沈念sama閱讀 40,448評論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼界斜，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了槐臀？” 一聲冷哼從身側(cè)響起锄蹂，我...
開封第一講書人閱讀 39,352評論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎水慨，沒想到半個月后得糜，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,834評論 1贊 317
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡晰洒，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,992評論 3贊 338
?白月光啟示錄
正文我和宋清朗相戀三年朝抖，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片谍珊。...
茶點(diǎn)故事閱讀 40,133評論 1贊 351
活死人
序言：一個原本活蹦亂跳的男人離奇死亡治宣，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出砌滞，到底是詐尸還是另有隱情侮邀，我是刑警寧澤，帶...
沈念sama閱讀 35,815評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布贝润，位于F島的核電站绊茧，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏打掘。R本人自食惡果不足惜华畏，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,477評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一鹏秋、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧亡笑，春花似錦侣夷、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,022評論 0贊 22
一樁弒父案百拓，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至绝骚，卻和暖如春耐版，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背压汪。一陣腳步聲響...
開封第一講書人閱讀 33,147評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工粪牲，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人止剖。一個月前我還...
沈念sama閱讀 48,398評論 3贊 373
代替公主和親
正文我出身青樓腺阳，卻偏偏與公主長得像，于是被迫代替她去往敵國和親穿香。傳聞我的和親對象是個殘疾皇子亭引，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,077評論 2贊 355

強(qiáng)化學(xué)習(xí)基礎(chǔ)

推薦閱讀更多精彩內(nèi)容