白話強化學習之Sarsa與Sarsa-lambda

Sarsa

Sarsa的學習過程和Q-Learning基本一樣,不同的地方是Q-Learning在走下一步的時候是先看下一步應(yīng)該走哪蝙眶,但是最后不一定走,而Sarsa是決定完要走的步之后一定會去走那一步。換句話說芬为,Q-Learning在更新當前位置的Q值的時候會參考表中收益最大的那個值派近,但下一步不一定會走到那個位置攀唯,而Sarsa是先選取下一步要走的位置的Q值來更新當前位置的Q值,當然渴丸,選完它下一步一定會去走那一步侯嘀。
Sarsa雖然說是說到做到,但是由于它選取下一步的位置是嚴格按照已有學習到的經(jīng)驗來選擇谱轨,所以它探索未知位置的能力就會很差戒幔,相對于說了不一定算的Q-Learning來說,反而Q-Learning更勇敢一些土童,由于跟Q-Learning很像诗茎,就不詳細介紹了,主要介紹Sarsa-lambda的學習步驟献汗。


Sarsa學習步驟

Sarsa lambda

Sarsa lambda在Sarsa的基礎(chǔ)上增加了一個概念敢订,就是它到終點后會再反過來看一下自己曾經(jīng)走過的路。


Sarsa-lambda學習步驟

整體來說還是Sarsa的框框罢吃,只是增加一個指標楚午,只是這樣可以使學習效率變高,能更快速的達到目的Q表刃麸。
這個指標就是在獲取到最終獎勵時醒叁,也可以說是到達最終目的地時,各個位置的不可或缺性。表示方法:
先定義一個E表把沼,用來記錄經(jīng)過的位置(State)啊易,每走一步,如果這個點不在E表中饮睬,則添加這個點到E表中租谈,并將這個E(s,a)的值改為+1(還可以優(yōu)化,下面說)捆愁,如果表中存在這個位置割去,則直接更新這個位置的值,然后在走下一步之前對E表進行整體衰減昼丑。也就是說每走一步呻逆,就要對E表的當前位置的值進行刷新,然后再進行衰減菩帝。衰減的意義就在于如果一旦到達終點咖城,就可以體現(xiàn)出來E表中各個位置對到達終點的不可或缺性。如果衰減比例為0呼奢,也就是每次都給E表里的值乘0宜雀,就意味著表里最后就剩下一個離終點最近的位置了,如果為1呢握础,則E表里的重復的越多的位置收益越大(so辐董,這不合理,需要優(yōu)化)禀综,所以简烘,衰減比例應(yīng)該取一個0~1之間的數(shù)比較合理。
E表的用法就是在Sarsa的基礎(chǔ)上定枷,每次更新的時候加上這個E表里對應(yīng)位置的值就可以了夸研。這就是傳說中的Sarsa lambda了,是不是沒這么嚇人依鸥。下面說一下如何優(yōu)化:
前面我們說每次經(jīng)過這個某個位置,都把E表里對應(yīng)值+1悼沈,這樣對有些位置會很不公平贱迟,可能會出現(xiàn)離終點最近的那個位置的E值比中間的某個點的E值還要低,這很不科學絮供。優(yōu)化辦法就是給E里的值定個上限衣吠,比如就是1,每次走到這個位置壤靶,就把他重新定為1缚俏,然后從1開始衰減,這樣就不會出現(xiàn)上述的bug了。ok忧换,再盜一張圖來形象說一下優(yōu)化的路子:

E表值

簡單介紹一下圖里的內(nèi)容恬惯,第一行說的是某個位置出現(xiàn)和時間的關(guān)系;第二行說的是E值+1那個情況亚茬;第三行說的是定個上限為1的規(guī)矩酪耳。
好了,Sarsa到目前為止就告一段落了刹缝,乍一看還真挺不好理解的碗暗,仔細想想其實原理也不是很復雜。晚安~

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末梢夯,一起剝皮案震驚了整個濱河市言疗,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌颂砸,老刑警劉巖噪奄,帶你破解...
    沈念sama閱讀 211,817評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異沾凄,居然都是意外死亡梗醇,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,329評論 3 385
  • 文/潘曉璐 我一進店門撒蟀,熙熙樓的掌柜王于貴愁眉苦臉地迎上來叙谨,“玉大人,你說我怎么就攤上這事保屯∈指海” “怎么了?”我有些...
    開封第一講書人閱讀 157,354評論 0 348
  • 文/不壞的土叔 我叫張陵姑尺,是天一觀的道長竟终。 經(jīng)常有香客問我,道長切蟋,這世上最難降的妖魔是什么统捶? 我笑而不...
    開封第一講書人閱讀 56,498評論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮柄粹,結(jié)果婚禮上喘鸟,老公的妹妹穿的比我還像新娘。我一直安慰自己驻右,他們只是感情好什黑,可當我...
    茶點故事閱讀 65,600評論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著堪夭,像睡著了一般愕把。 火紅的嫁衣襯著肌膚如雪拣凹。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,829評論 1 290
  • 那天恨豁,我揣著相機與錄音嚣镜,去河邊找鬼。 笑死圣絮,一個胖子當著我的面吹牛祈惶,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播扮匠,決...
    沈念sama閱讀 38,979評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼捧请,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了棒搜?” 一聲冷哼從身側(cè)響起疹蛉,我...
    開封第一講書人閱讀 37,722評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎力麸,沒想到半個月后可款,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,189評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡克蚂,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,519評論 2 327
  • 正文 我和宋清朗相戀三年闺鲸,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片埃叭。...
    茶點故事閱讀 38,654評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡摸恍,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出赤屋,到底是詐尸還是另有隱情立镶,我是刑警寧澤,帶...
    沈念sama閱讀 34,329評論 4 330
  • 正文 年R本政府宣布类早,位于F島的核電站媚媒,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏涩僻。R本人自食惡果不足惜缭召,卻給世界環(huán)境...
    茶點故事閱讀 39,940評論 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望逆日。 院中可真熱鬧恼琼,春花似錦、人聲如沸屏富。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,762評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽狠半。三九已至噩死,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間神年,已是汗流浹背已维。 一陣腳步聲響...
    開封第一講書人閱讀 31,993評論 1 266
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留已日,地道東北人垛耳。 一個月前我還...
    沈念sama閱讀 46,382評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像飘千,于是被迫代替她去往敵國和親堂鲜。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 43,543評論 2 349

推薦閱讀更多精彩內(nèi)容

  • 一护奈、什么是Sarsa 在強化學習中 Sarsa 和 Q learning及其類似缔莲,這節(jié)內(nèi)容會基于之前所講的 Q l...
    小道蕭兮閱讀 12,673評論 0 5
  • 本文禁止轉(zhuǎn)載 原文:Guest Post (Part I): Demystifying Deep Reinforc...
    weidwonder閱讀 1,612評論 1 13
  • 一、強化學習 強化學習包含多種算法霉旗,比如有通過行為的價值來選取特定行為的方法, 包括使用表格學習的 q l...
    maple_yang閱讀 441評論 0 0
  • 一痴奏、什么是強化學習 強化學習是一類算法,是讓計算機實現(xiàn)從一開始完全隨機的進行操作厌秒,通過不斷地嘗試读拆,從錯誤中學習,最...
    小道蕭兮閱讀 32,787評論 5 12
  • 文/熠歆 今年棉姐,不同往年…… 這次,被抽到初中啦逆、高中監(jiān)考 這次伞矩,有一大些表要填,晉級表夏志,轉(zhuǎn)正表乃坤,考核表,還有些什么...
    熠歆閱讀 172評論 9 2