基本概念
1、策略Policy
Policy是智能體的行為函數(shù),是一個從狀態(tài)到動作的映射朴肺,它告訴智能體如何挑選下一個action。
強化學習中有兩類policy: Deterministic policy和Stochastic policy坚洽。前一種又稱確定性策略戈稿,即對于這個映射,輸入一個狀態(tài)讶舰,輸出的是某一個確定的action鞍盗。后一種是不確定性策略,即對于這個映射跳昼,輸入一個狀態(tài)般甲,輸出的是每個action的概率。
2鹅颊、Episode
一個Episode由一系列的observation, reward, action組成敷存。 ( O 1 , A 1 , R 2 , . . . , O T ? 1 , A T ? 1 , R T , O T ) (O_1, A_1, R_2, ..., O_{T-1}, A_{T-1}, R_T, O_T) (O1?,A1?,R2?,...,OT?1?,AT?1?,RT?,OT?) 從initial observation到terminal observation。
3堪伍、獎勵Reward
獎勵 (R_t)是一個反饋信號锚烦,是一個數(shù)值觅闽,表明這個智能體在step t 時做得有多好。
4涮俄、Return
又稱累積折扣獎勵(cumulative discounted reward)蛉拙。step t 時的return為 G t = R t + 1 + γ R t + 2 + γ 2 R t + 3 + . . . G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... Gt?=Rt+1?+γRt+2?+γ2Rt+3?+... 其中 ( γ ) (\gamma) (γ)表示折扣因子,表示你對之后得到的reward的重視程度禽拔。 ( 0 < = γ < = 1 ) (0<=\gamma<=1) (0<=γ<=1)刘离,是一個由用戶決定的參數(shù)。
智能體的任務就是去最大化累積獎勵睹栖。然而由上面的式子我們可以看出,一條樣本(即一個episode)對應一個Return茧痕,而episode是不確定的野来,有很多種可能發(fā)生的情況,因此Return是一個變量踪旷。
由此智能體的任務是最大化累積獎勵的期望曼氛,即下面的值函數(shù)。
5令野、值函數(shù)Value Function
一個狀態(tài)state s對應的值函數(shù)為 V π ( s ) = E π ( G t ∣ S t = s ) V_\pi(s) = E_\pi(G_t | S_t = s) Vπ?(s)=Eπ?(Gt?∣St?=s)這種值函數(shù)也稱狀態(tài)值函數(shù)舀患。對給定的s, V(s)是一個確定的值。它表示气破,從state s開始聊浅,遵循策略(\pi)時的return的期望值。
還有一種值函數(shù)稱為狀態(tài)動作值函數(shù): Q π ( s , a ) = E π ( G t ∣ S t = s , A t = a ) Q_\pi(s, a) = E_\pi(G_t | S_t = s, A_t = a) Qπ?(s,a)=Eπ?(Gt?∣St?=s,At?=a)它表示现使,從state s開始低匙, 采取動作a,遵循策略(\pi)時的return的期望值碳锈。
Q:強化學習的基本結(jié)構(gòu)是什么顽冶?
A:基本結(jié)構(gòu)是智能體(agent)和一個復雜不確定的環(huán)境(environment)之間的交互。
當Agent在Environment中得到當前時刻的State售碳,Agent會基于此狀態(tài)輸出一個Action强重。然后這個Action會加入到Environment中去并輸出下一個State和當前的這個Action得到的Reward。
強化學習討論的問題是一個 智能體(agent) 怎么在一個復雜不確定的環(huán)境(environment)里面去極大化它能獲得的獎勵贸人。
Q:強化學習相對于監(jiān)督學習為什么訓練會更加困難间景?(強化學習的特征)
A:在強化學習過程中,沒有非常強的 supervisor灸姊,只有一個獎勵信號(reward signal)
拱燃,就是環(huán)境會在很久以后告訴你之前你采取的行為到底是不是有效的。Agent 在這個強化學習里面學習的話就非常困難力惯,因為你沒有得到即時反饋碗誉。
Q:近幾年強化學習發(fā)展迅速的原因召嘶?
A:計算機硬件以及算力方面的提升,我們可以更快地做更多的 trial-and-error 的嘗試來使得Agent在Environment里面獲得很多信息哮缺,取得更大的Reward弄跌。
通過這種不同嘗試使得 agent 在這個環(huán)境里面獲得很多信息,然后可以在這個環(huán)境里面取得很大的獎勵尝苇。
我們有了這個端到端的一個訓練铛只,可以把特征提取和價值估計或者決策一塊來優(yōu)化,這樣就可以得到了一個更強的決策網(wǎng)絡糠溜。