蒙特卡洛,時(shí)序差分Temporal-Difference Learning(TD)算法

1.蒙特卡洛
Monte-Carlo算法:
1.將agent放入環(huán)境的任意狀態(tài)
2.從這個(gè)狀態(tài)開始選擇action, 并進(jìn)入下一個(gè)狀態(tài)
3.重復(fù)第二步直到達(dá)到最終狀態(tài)
4.從最終狀態(tài)回溯捆探,計(jì)算每一個(gè)狀態(tài)的G值
5.重復(fù)1-4過程揍移,然后平均每一次的G值只损,最后得到的就是V值

關(guān)于G值:
第一步:根據(jù)策略使agent做出動(dòng)作并進(jìn)入下一動(dòng)作滑肉,直到到達(dá)最終狀態(tài)包各,需要記錄每一個(gè)狀態(tài)的轉(zhuǎn)移,得到獎(jiǎng)勵(lì)r
第二步:從最終狀態(tài)回溯靶庙,一遍一遍計(jì)算G值问畅。 G 等于上一狀態(tài)的G值(G‘)乘以一定的折扣(gamma)再加上r


回溯求G值

G值就是從某個(gè)狀態(tài)到最終狀態(tài)的獎(jiǎng)勵(lì)總和


G值

當(dāng)我們進(jìn)行多次實(shí)驗(yàn),會(huì)經(jīng)過某個(gè)狀態(tài)多次六荒,因此會(huì)有多個(gè)G值护姆,此時(shí)這個(gè)狀態(tài)的G值就是所有可能的G值的平均值,也就是我們的V值
G值平均

以策略π2進(jìn)行g(shù)ame掏击,由于策略改變卵皂,經(jīng)過S的概率會(huì)發(fā)生變化,因此最終狀態(tài)的經(jīng)過次數(shù)就會(huì)不同
狀態(tài)價(jià)值函數(shù)V(s)描述在策略pi下某個(gè)狀態(tài)s具有的價(jià)值(預(yù)期返還return)

G就是V的更新目標(biāo)砚亭,關(guān)于MC的更新:
兩種方法:

1.平均值法:
平均值

2.G的逐漸逼近法:
逐漸逼近

不難看出灯变,雖然蒙特卡洛算法比動(dòng)態(tài)規(guī)劃的消耗少,并且不需要知道整個(gè)環(huán)境模型捅膘,但是每一次游戲都需要從頭執(zhí)行到尾添祸,再進(jìn)行回溯。如果最終狀態(tài)難以達(dá)到寻仗,則會(huì)需要很久才會(huì)更新G值刃泌。
MC的弊端:1. MC算法相對(duì)動(dòng)態(tài)規(guī)劃,會(huì)有點(diǎn)不那么準(zhǔn)愧沟。因?yàn)镸C每一次的路徑都是不一樣的蔬咬。 2. 如果環(huán)境的狀態(tài)空間非常大鲤遥,或者最終狀態(tài)只有非常小的概率達(dá)到沐寺。那么MC算法將會(huì)很難處理。
因此需要使用時(shí)序差分(TD)算法解決此問題盖奈。

2.時(shí)序差分(TD)算法
TD是對(duì)MC的改進(jìn)混坞,即agent走到第N步就可以開始回溯更新。

TD

可以理解為走一步看一步钢坦,好比下山究孕,MC是直接從山頂下山,看看下山的路有多長(zhǎng)爹凹,而TD是先走一段厨诸,看看是否有路牌指示到下山還有多少距離,如果有禾酱,幾句把剛才的路加上路牌指示的到山腳的距離相加即可微酬。
在一開始绘趋,我們根本沒有路牌,所以也不知道到底到山腳有多遠(yuǎn)颗管。 但當(dāng)我們走很多次的時(shí)候陷遮,路牌系統(tǒng)就能慢慢建立起來。 例如第一次垦江,只有到了山腳帽馋,我才知道山腳前一站離山腳的的真實(shí)距離。于是我更新了山腳前一站的路牌比吭。第二次绽族,我在山腳前一站路就能看到路牌,所以我就可以更新山腳前一站的路牌了…一直到山頂衩藤,就這樣一直建立整座山的路牌系統(tǒng)项秉。
關(guān)于TD的更新公式:
TD的更新公式

在TD,我們只不過把更新目標(biāo)從G慷彤,改成r+gamma*V
reference:
1.Deep Reinforcement Learning: A Brief Survey
https://ieeexplore.ieee.org/abstract/document/8103164
2.https://zhuanlan.zhihu.com/p/109217883
3.https://zhuanlan.zhihu.com/p/25580624
4.https://omarsbrain.wordpress.com/2010/01/22/bootstrapping-and-artificial-intelligence/
5.https://blog.csdn.net/qq_42715079/article/details/117782272

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末娄蔼,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子底哗,更是在濱河造成了極大的恐慌岁诉,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,214評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件跋选,死亡現(xiàn)場(chǎng)離奇詭異涕癣,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)前标,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,307評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門坠韩,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人炼列,你說我怎么就攤上這事只搁。” “怎么了俭尖?”我有些...
    開封第一講書人閱讀 152,543評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵氢惋,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我稽犁,道長(zhǎng)焰望,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,221評(píng)論 1 279
  • 正文 為了忘掉前任已亥,我火速辦了婚禮熊赖,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘虑椎。我一直安慰自己震鹉,他們只是感情好的妖,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,224評(píng)論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著足陨,像睡著了一般嫂粟。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上墨缘,一...
    開封第一講書人閱讀 49,007評(píng)論 1 284
  • 那天星虹,我揣著相機(jī)與錄音,去河邊找鬼镊讼。 笑死宽涌,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的蝶棋。 我是一名探鬼主播卸亮,決...
    沈念sama閱讀 38,313評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼玩裙!你這毒婦竟也來了兼贸?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,956評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤吃溅,失蹤者是張志新(化名)和其女友劉穎溶诞,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體决侈,經(jīng)...
    沈念sama閱讀 43,441評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡螺垢,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,925評(píng)論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了赖歌。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片枉圃。...
    茶點(diǎn)故事閱讀 38,018評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖庐冯,靈堂內(nèi)的尸體忽然破棺而出孽亲,到底是詐尸還是另有隱情,我是刑警寧澤肄扎,帶...
    沈念sama閱讀 33,685評(píng)論 4 322
  • 正文 年R本政府宣布墨林,位于F島的核電站赁酝,受9級(jí)特大地震影響犯祠,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜酌呆,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,234評(píng)論 3 307
  • 文/蒙蒙 一衡载、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧隙袁,春花似錦痰娱、人聲如沸弃榨。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,240評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽鲸睛。三九已至,卻和暖如春坡贺,著一層夾襖步出監(jiān)牢的瞬間官辈,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,464評(píng)論 1 261
  • 我被黑心中介騙來泰國(guó)打工遍坟, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留拳亿,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,467評(píng)論 2 352
  • 正文 我出身青樓愿伴,卻偏偏與公主長(zhǎng)得像肺魁,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子隔节,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,762評(píng)論 2 345