白話強化學習之Sarsa與Sarsa-lambda

Sarsa

Sarsa的學習過程和Q-Learning基本一樣，不同的地方是Q-Learning在走下一步的時候是先看下一步應(yīng)該走哪蝙眶，但是最后不一定走，而Sarsa是決定完要走的步之后一定會去走那一步。換句話說芬为，Q-Learning在更新當前位置的Q值的時候會參考表中收益最大的那個值派近，但下一步不一定會走到那個位置攀唯，而Sarsa是先選取下一步要走的位置的Q值來更新當前位置的Q值，當然渴丸，選完它下一步一定會去走那一步侯嘀。
Sarsa雖然說是說到做到，但是由于它選取下一步的位置是嚴格按照已有學習到的經(jīng)驗來選擇谱轨，所以它探索未知位置的能力就會很差戒幔，相對于說了不一定算的Q-Learning來說，反而Q-Learning更勇敢一些土童，由于跟Q-Learning很像诗茎，就不詳細介紹了，主要介紹Sarsa-lambda的學習步驟献汗。

Sarsa學習步驟

Sarsa lambda

Sarsa lambda在Sarsa的基礎(chǔ)上增加了一個概念敢订，就是它到終點后會再反過來看一下自己曾經(jīng)走過的路。

Sarsa-lambda學習步驟

整體來說還是Sarsa的框框罢吃，只是增加一個指標楚午，只是這樣可以使學習效率變高，能更快速的達到目的Q表刃麸。
這個指標就是在獲取到最終獎勵時醒叁，也可以說是到達最終目的地時，各個位置的不可或缺性。表示方法：
先定義一個E表把沼，用來記錄經(jīng)過的位置（State）啊易，每走一步，如果這個點不在E表中饮睬，則添加這個點到E表中租谈，并將這個E(s,a)的值改為+1（還可以優(yōu)化，下面說）捆愁，如果表中存在這個位置割去，則直接更新這個位置的值，然后在走下一步之前對E表進行整體衰減昼丑。也就是說每走一步呻逆，就要對E表的當前位置的值進行刷新，然后再進行衰減菩帝。衰減的意義就在于如果一旦到達終點咖城，就可以體現(xiàn)出來E表中各個位置對到達終點的不可或缺性。如果衰減比例為0呼奢，也就是每次都給E表里的值乘0宜雀，就意味著表里最后就剩下一個離終點最近的位置了，如果為1呢握础，則E表里的重復的越多的位置收益越大（so辐董，這不合理，需要優(yōu)化）禀综，所以简烘，衰減比例應(yīng)該取一個0~1之間的數(shù)比較合理。
E表的用法就是在Sarsa的基礎(chǔ)上定枷，每次更新的時候加上這個E表里對應(yīng)位置的值就可以了夸研。這就是傳說中的Sarsa lambda了，是不是沒這么嚇人依鸥。下面說一下如何優(yōu)化：
前面我們說每次經(jīng)過這個某個位置，都把E表里對應(yīng)值+1悼沈，這樣對有些位置會很不公平贱迟，可能會出現(xiàn)離終點最近的那個位置的E值比中間的某個點的E值還要低，這很不科學絮供。優(yōu)化辦法就是給E里的值定個上限衣吠，比如就是1，每次走到這個位置壤靶，就把他重新定為1缚俏，然后從1開始衰減，這樣就不會出現(xiàn)上述的bug了。ok忧换，再盜一張圖來形象說一下優(yōu)化的路子：

E表值

簡單介紹一下圖里的內(nèi)容恬惯，第一行說的是某個位置出現(xiàn)和時間的關(guān)系；第二行說的是E值+1那個情況亚茬；第三行說的是定個上限為1的規(guī)矩酪耳。
好了，Sarsa到目前為止就告一段落了刹缝，乍一看還真挺不好理解的碗暗，仔細想想其實原理也不是很復雜。晚安~

最后編輯于：2019.07.24 16:24:26

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末梢夯，一起剝皮案震驚了整個濱河市言疗，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌颂砸，老刑警劉巖噪奄，帶你破解...
沈念sama閱讀 211,817評論 6贊 492
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異沾凄，居然都是意外死亡梗醇，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,329評論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門撒蟀，熙熙樓的掌柜王于貴愁眉苦臉地迎上來叙谨，“玉大人，你說我怎么就攤上這事保屯∈指海” “怎么了？”我有些...
開封第一講書人閱讀 157,354評論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵姑尺，是天一觀的道長竟终。經(jīng)常有香客問我，道長切蟋，這世上最難降的妖魔是什么统捶？我笑而不...
開封第一講書人閱讀 56,498評論 1贊 284
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮柄粹，結(jié)果婚禮上喘鸟，老公的妹妹穿的比我還像新娘。我一直安慰自己驻右，他們只是感情好什黑，可當我...
茶點故事閱讀 65,600評論 6贊 386
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著堪夭，像睡著了一般愕把。火紅的嫁衣襯著肌膚如雪拣凹。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 49,829評論 1贊 290
城市分裂傳說
那天恨豁，我揣著相機與錄音嚣镜，去河邊找鬼。笑死圣絮，一個胖子當著我的面吹牛祈惶，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播扮匠，決...
沈念sama閱讀 38,979評論 3贊 408
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼捧请，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了棒搜？” 一聲冷哼從身側(cè)響起疹蛉，我...
開封第一講書人閱讀 37,722評論 0贊 266
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎力麸，沒想到半個月后可款，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 44,189評論 1贊 303
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡克蚂，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,519評論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年闺鲸，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片埃叭。...
茶點故事閱讀 38,654評論 1贊 340
活死人
序言：一個原本活蹦亂跳的男人離奇死亡摸恍，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出赤屋，到底是詐尸還是另有隱情立镶，我是刑警寧澤，帶...
沈念sama閱讀 34,329評論 4贊 330
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布类早，位于F島的核電站媚媒，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏涩僻。R本人自食惡果不足惜缭召，卻給世界環(huán)境...
茶點故事閱讀 39,940評論 3贊 313
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望逆日。院中可真熱鬧恼琼，春花似錦、人聲如沸屏富。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,762評論 0贊 21
一樁弒父案蛙卤，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽狠半。三九已至噩死，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間神年，已是汗流浹背已维。一陣腳步聲響...
開封第一講書人閱讀 31,993評論 1贊 266
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留已日，地道東北人垛耳。一個月前我還...
沈念sama閱讀 46,382評論 2贊 360
代替公主和親
正文我出身青樓，卻偏偏與公主長得像飘千，于是被迫代替她去往敵國和親堂鲜。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 43,543評論 2贊 349

白話強化學習之Sarsa與Sarsa-lambda

推薦閱讀更多精彩內(nèi)容