機(jī)器學(xué)習(xí)可以分為預(yù)測型和決策性,有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)屬于預(yù)測型,強(qiáng)化學(xué)習(xí)屬于決策型拣凹。
策略是從狀態(tài)到行為的映射问词,分為隨機(jī)策略和確定性策略督函。隨機(jī)性策略是狀態(tài)s下產(chǎn)生的行為的概率分布。
價值函數(shù)是對于未來累積獎勵的預(yù)測激挪,評估給定策略下狀態(tài)的好壞辰狡。
基于模型的強(qiáng)化學(xué)習(xí)和模型無關(guān)的強(qiáng)化學(xué)習(xí)的根本區(qū)別在于學(xué)習(xí)過程中有沒有環(huán)境模型。在基于模型的強(qiáng)化學(xué)習(xí)中環(huán)境模型已知垄分,而在模型無關(guān)的強(qiáng)化學(xué)習(xí)中我們不知道環(huán)境模型宛篇。
基本概念
強(qiáng)化學(xué)習(xí):通過從交互中學(xué)習(xí)來實(shí)現(xiàn)目標(biāo)的計(jì)算方法。
交互過程:在每一步t锋喜,智能體:獲得觀察O_t,獲得獎勵R_t,執(zhí)行行動A_t些己,環(huán)境:獲得行動A_t,給出觀察O_{t+1},給出獎勵R_{t+1}
歷史(History):是觀察、獎勵嘿般、行動的序列段标,即一直到時間t為止的所有可觀測變量。
狀態(tài)(State):是一種用于確定接下來會發(fā)生的事情(A,R,O),狀態(tài)是關(guān)于歷史的函數(shù)炉奴。
狀態(tài)通常是整個環(huán)境的逼庞, 觀察可以理解為是狀態(tài)的一部分,僅僅是agent可以觀察到的那一部分瞻赶。
策略(Policy):是學(xué)習(xí)智能體在特定時間的行為方式赛糟。是從狀態(tài)到行為的映射。
確定性策略:函數(shù)表示砸逊,隨機(jī)策略:條件概率表示
獎勵(Reward):立即感知到什么是好的璧南,一般情況下就是一個標(biāo)量
價值函數(shù)(Value function):長期而言什么是好的
價值函數(shù)是對于未來累計(jì)獎勵的預(yù)測,用于評估給定策略下师逸,狀態(tài)的好壞
環(huán)境的模型(Model):用于模擬環(huán)境的行為司倚,預(yù)測下一個狀態(tài),預(yù)測下一個立即獎勵(reward)
強(qiáng)化學(xué)習(xí)智能體的分類
model-based RL:模型可以被環(huán)境所知道篓像,agent可以直接利用模型執(zhí)行下一步的動作动知,而無需與實(shí)際環(huán)境進(jìn)行交互學(xué)習(xí)。
比如:圍棋员辩、迷宮
model_free RL:真正意義上的強(qiáng)化學(xué)習(xí)盒粮,環(huán)境是黑箱
比如Atari游戲,需要大量的采樣
基于價值:沒有策略(隱含)奠滑、價值函數(shù)
基于策略:策略丹皱、沒有價值函數(shù)
Actor-Critic:策略妒穴、價值函數(shù)