Sarsa?是啥。簡(jiǎn)單說就是Qlearning只考慮最高價(jià)值的,Sarsa?還考慮最差價(jià)值的欢唾。
源碼地址:HTTPS://GITHUB.COM/YUANYUANGONG/GYYTENSOR.GIT
在 《零碎的python基礎(chǔ)代碼》這個(gè)文件夾里鳄厌。人懶就不重新起?項(xiàng)目岂贩,感謝莫煩大神的教程和源碼
Qlearning?的?輸入當(dāng)前位置?根據(jù)?算法?選擇?動(dòng)作嗤详,獲得下一個(gè)位置 个扰,以及該位置的?價(jià)值。(如果是黃點(diǎn)葱色,價(jià)值reward?為1 递宅。黑點(diǎn)為 -1)
然后取下一個(gè)位置的最大值?作為當(dāng)前的 q_table(state,action)的參考(自然不能直接賦值,可能要乘以一些參數(shù)冬筒,畢竟越遠(yuǎn)折扣越大等恐锣,因素)。這里sarsa?則? 先用?下一位置?s_? 得到?下一位置的?動(dòng)作?a_??
于是當(dāng)前位置?就q_table(s,a)? 就參考?q_table(s_,a_),這樣舞痰,如果?q_table(s_,a_)?是?負(fù)值(不好的值土榴,就能被記錄參考)。
最后响牛,感謝閱讀此文的同志們玷禽,若有疑問可以加 QQ?群,660357555?一起來探討呀打。