AI學習筆記——Sarsa算法

上一篇文章介紹了強化學習中的Q-Learning算法,這篇文章介紹一個與Q-Learning十分類似的算法——Sarsa算法。

1. 回顧Q Learning

還是同樣的例子熬甚,紅色智能體在4x4的迷宮中尋找黃色的寶藏喉酌。找到寶藏完箩,將會的到+1的獎勵铁蹈,如果掉進黑色陷阱就回的到-1的獎勵(懲罰)宽闲。


首先回顧一下Q表如下

Q table (States\Actions) left (A1) right (A2) up (A3) down (A4)
S0 -1 3 -1 2
S1 1 2 -1 1
... ... ... ... ..

Q(S0,A2) = Q(S0,A2) + α[R(S1) + γ*maxa Q(S1,a)-Q(S0,A2)]

在Q Learning 算法中,當智能體處于S0的狀態(tài)時木缝,它的目標值是:
R(S1) + γmaxa Q(S1,a)*。此時他還在S0的位置上围辙,但是已經在計算S1上的最大Q值了我碟。但是此時它并沒有行動,也不一定會在S1采取Q值最大Q(S1, A2)的行動姚建。因為我們提到矫俺,它還有10%的概率隨機選擇其他的行動 (ε貪婪方法(ε -Greedy method))。

2. SARSA 行動派

”SARSA“ 五個字母是當前 S (狀態(tài)), A(行動), R(獎勵) 與 下一步S'(狀態(tài)) A'(行動) 的組合掸冤,即我們不僅需要知道當前的S, A, R 還需要知道下一步的 S' 和 A‘厘托。

在Sarsa算法中,智能體的目標

R(S1) + γQ(S1,A)*

至于A是多少稿湿,完全取決于智能體實際上選擇的哪一個Action铅匹。智能體有90%的概率會選擇Q值最大的Action(A2),還有10%的概率會隨機選擇一個Action饺藤。

所以包斑,Sarsa的算法是這樣的流礁。

Q(S0,A2) = Q(S0,A2) + α[R(S1) + γ*Q(S1,A)-Q(S0,A2)]

除了其目標值與Q learning 有所不同之外,其他的都是一模一樣的罗丰。

所以Sarsa是在線學習(On Policy)的算法神帅,因為他是在行動中學習的,而且至始至終只有一個Policy. 使用了兩次greedy-epsilon 方法來選擇出了Q(S,A)和q(S',A')萌抵。

而Q learning離線學習(Off Policy)的算法找御,QLearning選擇Q(S,A)用了greedy方法,而計算A(S',A')時用的是max方法绍填,而真正選擇的時候又不一定會選擇max的行動, 所以 Q learning 學習和行動分別采用了兩套不同的Policy

Q learning 通過Max的函數(shù)霎桅,總是在尋找能最快獲得寶藏的道路,所以他比較勇敢沐兰。而Sarsa 卻相對謹慎哆档。

3. Sarsa-lambda

Q learning 和 Sarsa都是單步更新的算法。單步跟新的算法缺點就是在沒有找到寶藏之前住闯,智能體在原地打轉的那些行動也被記錄在案瓜浸,并更新了Q表,即便那些行動都是沒有意義的比原。

Lambda(λ)這個衰減系數(shù)的引入插佛,就是為了解決這個問題的。與γ用來衰減未來預期Q的值一樣量窘,λ是當智能體獲得寶藏之后雇寇,在更新Q表的時候,給智能體一個回頭看之前走過的路程的機會蚌铜。相當于锨侯,智能體每走一步就會在地上插一桿旗子,然后智能體每走一步旗子就會變小一點冬殃。
Sarsa-lambda 的完整算法在這里:


注意囚痴,該算法與Sarsa 算法不同的地方就是多乘了一個E(s, a) (Eligibility Trace"不可或缺性值"),而這個E(s, a)又同時受γ和λ調控审葬。并且在更新Q表的時候深滚,不僅僅是更新一個Q(S,A),而是整個Q表所有的Q值都被更新了涣觉。

4. 總結

本文粗淺地介紹了什么是SARSA 算法,詳細介紹和代碼實戰(zhàn)將在下一篇文章中繼續(xù)探討生兆。


首發(fā)steemit

歡迎掃描二維碼關注我的微信公眾號“tensorflow機器學習”栖榨,一起學習婴栽,共同進步


image
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末挤聘,一起剝皮案震驚了整個濱河市组去,隨后出現(xiàn)的幾起案子从隆,更是在濱河造成了極大的恐慌键闺,老刑警劉巖辛燥,帶你破解...
    沈念sama閱讀 211,194評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件徘六,死亡現(xiàn)場離奇詭異待锈,居然都是意外死亡辉懒,警方通過查閱死者的電腦和手機眶俩,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,058評論 2 385
  • 文/潘曉璐 我一進店門抹竹,熙熙樓的掌柜王于貴愁眉苦臉地迎上來窃判,“玉大人喇闸,你說我怎么就攤上這事唆樊《号裕” “怎么了片效?”我有些...
    開封第一講書人閱讀 156,780評論 0 346
  • 文/不壞的土叔 我叫張陵,是天一觀的道長舌缤。 經常有香客問我,道長介牙,這世上最難降的妖魔是什么环础? 我笑而不...
    開封第一講書人閱讀 56,388評論 1 283
  • 正文 為了忘掉前任徐伐,我火速辦了婚禮角雷,結果婚禮上勺三,老公的妹妹穿的比我還像新娘揭措。我一直安慰自己绊含,他們只是感情好讨便,可當我...
    茶點故事閱讀 65,430評論 5 384
  • 文/花漫 我一把揭開白布霸褒。 她就那樣靜靜地躺著伴找,像睡著了一般。 火紅的嫁衣襯著肌膚如雪废菱。 梳的紋絲不亂的頭發(fā)上技矮,一...
    開封第一講書人閱讀 49,764評論 1 290
  • 那天,我揣著相機與錄音殊轴,去河邊找鬼衰倦。 笑死,一個胖子當著我的面吹牛旁理,可吹牛的內容都是我干的樊零。 我是一名探鬼主播,決...
    沈念sama閱讀 38,907評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼孽文,長吁一口氣:“原來是場噩夢啊……” “哼驻襟!你這毒婦竟也來了?” 一聲冷哼從身側響起芋哭,我...
    開封第一講書人閱讀 37,679評論 0 266
  • 序言:老撾萬榮一對情侶失蹤沉衣,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后楷掉,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體厢蒜,經...
    沈念sama閱讀 44,122評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,459評論 2 325
  • 正文 我和宋清朗相戀三年烹植,在試婚紗的時候發(fā)現(xiàn)自己被綠了斑鸦。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,605評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡草雕,死狀恐怖巷屿,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情墩虹,我是刑警寧澤嘱巾,帶...
    沈念sama閱讀 34,270評論 4 329
  • 正文 年R本政府宣布,位于F島的核電站诫钓,受9級特大地震影響旬昭,放射性物質發(fā)生泄漏。R本人自食惡果不足惜菌湃,卻給世界環(huán)境...
    茶點故事閱讀 39,867評論 3 312
  • 文/蒙蒙 一问拘、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧惧所,春花似錦骤坐、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,734評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至势似,卻和暖如春拌夏,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背履因。 一陣腳步聲響...
    開封第一講書人閱讀 31,961評論 1 265
  • 我被黑心中介騙來泰國打工辖佣, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人搓逾。 一個月前我還...
    沈念sama閱讀 46,297評論 2 360
  • 正文 我出身青樓卷谈,卻偏偏與公主長得像,于是被迫代替她去往敵國和親霞篡。 傳聞我的和親對象是個殘疾皇子世蔗,可洞房花燭夜當晚...
    茶點故事閱讀 43,472評論 2 348

推薦閱讀更多精彩內容

  • 一. 增強學習簡介 1.1 什么是增強學習? 機器學習的算法可以分為三類:監(jiān)督學習朗兵,非監(jiān)督學習和增強學習污淋。 增強學...
    阿阿阿阿毛閱讀 31,106評論 0 25
  • 1 A是個非常優(yōu)秀的女孩,理性的頭腦和開朗的性格赁豆,在大家都懵懵懂懂的學生時期仅醇,相當顯眼。身邊的朋友們也一直都以為她...
    靜止想象閱讀 948評論 0 49
  • (一) 深宮無年歲魔种,這是遇著毛延壽之前析二。 (二) 建昭五年歲末,宮女王檣在自己小小的居所里节预,為正月的到來而忙碌叶摄。掃...
    安歲Icey閱讀 296評論 0 0
  • 目的 你有沒有被一個尷尬的問題困擾過,在微信中瀏覽商品列表的時候滑到了一個中間的位置安拟,點擊了某一個詳情蛤吓,可是從詳情...
    fourn熊能閱讀 2,879評論 0 50