一、什么是Sarsa
在強化學習中 Sarsa 和 Q learning及其類似荸百,這節(jié)內(nèi)容會基于之前所講的 Q learning。如果還不熟悉 Q learning 可以去看看滨攻。我們會對比 Q learning够话,來看看 Sarsa 是特殊在哪些方面。
Sarsa 的決策部分和 Q learning 一模一樣铡买,因為我們使用的是 Q 表的形式?jīng)Q策更鲁,所以我們會在 Q 表中挑選值較大的動作值施加在環(huán)境中來換取獎懲,但是不同的地方在于 Sarsa 的更新方式是不一樣的奇钞。
二澡为、Sarsa更新方式
與 Q-learning 一樣, 我們會經(jīng)歷狀態(tài) s1, 然后再挑選一個帶來最大潛在獎勵的動作 a2, 這樣我們就到達了狀態(tài) s2, 而在這一步, 如果你用的是 Q learning, 你會觀看一下在 s2 上選取哪一個動作會帶來最大的獎勵, 但是在真正要做決定時, 卻不一定會選取到那個帶來最大獎勵的動作, Q-learning 在這一步只是估計了一下接下來的動作值. 而 Sarsa 到做到, 在 s2 這一步估算的動作也是接下來要做的動作. 所以 Q(s1, a2) 現(xiàn)實的計算值, 我們也會稍稍改動, 去掉maxQ, 取而代之的是在 s2 上我們實實在在選取的 a2 的 Q 值. 最后像 Q learning 一樣, 求出現(xiàn)實和估計的差距 并更新 Q 表里的 Q(s1, a2)。
三景埃、Sarsa 與 Q-learning 對比
Sarsa算法(on-policy):
Initialize Q arbitrarily // 隨機初始化Q表
Repeat (for each episode): // 每一次從開始到結(jié)束是一個episode
Initialize S // S為初始位置的狀態(tài)
Choose a from s using policy derived from Q(ε-greedy)
Repeat (for each step of episode):
Take action a, observe r, s'
Choose a' from s' using policy derived from Q(ε-greedy)
Q(S,A) ← Q(S,A) + α*[R + γ*Q(S',a')-Q(s,a)] //在Q中更新S
S ← S'; a← a'
until S is terminal //即到游戲結(jié)束為止
處于狀態(tài) s 時媒至,根據(jù)當前 Q 網(wǎng)絡(luò)以及一定的策略來選取動作 a顶别,進而觀測到下一步狀態(tài) s',并再次根據(jù)當前 Q 網(wǎng)絡(luò)及相同的策略選擇動作 a'拒啰,這樣就有了一個【 s驯绎,a,r谋旦,s'剩失,a' 】序列。
處于狀態(tài) s' 時册着,就知道了要采取哪個 a'拴孤,并真的采取了這個動作。動作 a 的選取遵循 ε-greedy 策略甲捏,目標 Q 值的計算也是根據(jù)策略得到的動作 a' 計算得來演熟。
Q-learning算法(off-policy):
Initialize Q arbitrarily // 隨機初始化Q表
Repeat (for each episode): // 每一次游戲,從開始到結(jié)束是一個episode
Initialize S // S為初始位置的狀態(tài)
Repeat (for each step of episode):
Choose a from s using policy derived from Q(ε-greedy) //根據(jù)當前Q和位置S司顿,使用一種策略芒粹,得到動作A,這個策略可以是ε-greedy等
Take action a, observe r // 做了動作A大溜,到達新的位置S'化漆,并獲得獎勵R,獎勵可以是1钦奋,50或者-1000
Q(S,A) ← Q(S,A) + α*[R + γ*maxQ(S',a))-Q(s,a)] //在Q中更新S
S ← S'
until S is terminal //即到游戲結(jié)束為止
處于狀態(tài) s 時获三,根據(jù)當前 Q 網(wǎng)絡(luò)以及一定的策略來選取動作 a,進而觀測到下一步狀態(tài) s' 锨苏,并再次根據(jù)當前 Q 網(wǎng)絡(luò)計算出下一步采取哪個動作會得到 max Q 值,用這個 Q 值作為當前狀態(tài)動作對 Q 值的目標棺聊。這樣就有了一個【s伞租,a,r限佩,s' 】序列葵诈。
處于狀態(tài) s' 時,僅計算了 在 s' 時要采取哪個 a' 可以得到更大的 Q 值祟同,并沒有真的采取這個動作 a'作喘;動作 a 的選取是根據(jù)當前 Q 網(wǎng)絡(luò)以及策略(e-greedy),目標 Q 值的計算是根據(jù) Q 值最大的動作 a' 計算得來晕城。
從算法來看泞坦,這就是他們兩最大的不同之處了。因為 Sarsa 是說到做到型砖顷,所以我們也叫他 On-policy(在線學習)贰锁,學著自己在做的事情赃梧。而 Q learning 是說到但并不一定做到,所以它也叫作 Off-policy(離線學習)豌熄。如果你還不清楚 在線學習 和 離線學習授嘀,可以參看強化學習。
四锣险、什么是 Sarsa(lambda)
之前所說的 Sarsa 是一種單步更新法蹄皱,在環(huán)境中每走一步,更新一次自己的行為準則芯肤,我們可以在這樣的 Sarsa 后面打一個括號巷折,說他是 Sarsa(0),因為他等走完這一步以后直接更新行為準則纷妆。如果延續(xù)這種想法盔几,走完這步,再走一步掩幢,然后再更新逊拍,我們可以叫他 Sarsa(1)。同理际邻,如果等待回合完畢我們一次性再更新呢芯丧?比如這回合我們走了 n 步,那我們就叫 Sarsa(n)世曾。為了統(tǒng)一這樣的流程缨恒,我們就有了一個 lambda 值來代替我們想要選擇的步數(shù),這也就是 Sarsa(lambda) 的由來轮听。
簡單的說骗露,Sarsa(0) 就是單步更新姨丈,Sarsa(n) 就是回合更新趣惠,如果你還不清楚什么是單步更新本鸣、回合更新端壳,可參看強化學習俩莽。
其實 lambda 就是一個衰變值困介,他可以讓你知道離獎勵越遠的步陨倡,可能并不是讓你最快拿到獎勵的步余掖,所以我們想象我們站在寶藏的位置鲫凶,回頭看看我們走過的尋寶之路禀崖,離寶藏越近的腳印越看得清,遠處的腳印太渺小螟炫,我們都很難看清波附,那我們就索性記下離寶藏越近的腳印越重要,越需要被好好的更新。和之前我們提到過的獎勵衰減值 gamma 一樣叶雹,lambda 是腳步衰減值财饥,都是一個在 0 和 1 之間的數(shù)。
以上內(nèi)容參考莫凡Python折晦。