策略迭代和值迭代的區(qū)別及重點(diǎn)

區(qū)別:

1.Policy Iteration通常是policy evaluation+policy improvement交替執(zhí)行直到收斂

2.Value iteration通常是尋找Optimal value function+一次policy extraction,它們不用交替執(zhí)行,因?yàn)橹岛瘮?shù)最優(yōu),策略通常也是最優(yōu)

3.尋找optimal value function也可以被看作是policy improvement(due to max)和截?cái)喟娴膒olicy evaluation的組合(僅在一次掃描所有狀態(tài)后重新分配V(s)而不考慮其收斂性的組合)

其實(shí)策略迭代就是先估計(jì)稠项，在改進(jìn)策略展运，直到收斂精刷，如果不收斂就繼續(xù)估計(jì)繼續(xù)改進(jìn)。埂软。纫事。實(shí)現(xiàn)后其實(shí)可以得知策略迭代是先求解出最優(yōu)解，然后再去和環(huán)境進(jìn)行交互求得最大收益炫七，之所以在和環(huán)境交互前能求最優(yōu)策略是提前知道了環(huán)境的轉(zhuǎn)移概率P和回報(bào)函數(shù)R钾唬，然后再利用動(dòng)態(tài)規(guī)劃和貝爾曼最優(yōu)方程，但真實(shí)世界中哪里能做到先知先覺(jué)呢?恐怕轉(zhuǎn)移概率和回報(bào)函數(shù)一個(gè)都得不到奕巍。

策略迭代和值迭代都屬于動(dòng)態(tài)規(guī)劃算法儒士，DP算法的一個(gè)主要缺點(diǎn)是涉及對(duì)MDP的整個(gè)狀態(tài)集的操作，也就是說(shuō)它們需要對(duì)整個(gè)狀態(tài)集進(jìn)行遍歷冲杀。如果狀態(tài)集很大睹酌，那么即使是單次遍歷也會(huì)十分昂貴。

DP算法有一個(gè)特殊的性質(zhì)旺芽，所有的方法都根據(jù)對(duì)后繼狀態(tài)價(jià)值的估計(jì)辐啄，來(lái)更新對(duì)當(dāng)前狀態(tài)價(jià)值的估計(jì)。也就是說(shuō)悯舟，他們基于其他估計(jì)來(lái)更新自己的估計(jì)砸民。我們把這種思想稱(chēng)為自舉法。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末反惕，一起剝皮案震驚了整個(gè)濱河市姿染，隨后出現(xiàn)的幾起案子秒际，更是在濱河造成了極大的恐慌，老刑警劉巖舷嗡，帶你破解...
沈念sama閱讀 217,084評(píng)論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件嵌莉，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡锐峭，警方通過(guò)查閱死者的電腦和手機(jī)中鼠，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,623評(píng)論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)沿癞，“玉大人援雇，你說(shuō)我怎么就攤上這事∽笛铮” “怎么了惫搏？”我有些...
開(kāi)封第一講書(shū)人閱讀 163,450評(píng)論 0贊 353
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵具温，是天一觀(guān)的道長(zhǎng)。經(jīng)常有香客問(wèn)我筐赔，道長(zhǎng)铣猩，這世上最難降的妖魔是什么？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,322評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任达皿，我火速辦了婚禮，結(jié)果婚禮上贿肩，老公的妹妹穿的比我還像新娘峦椰。我一直安慰自己，他們只是感情好汰规，可當(dāng)我...
茶點(diǎn)故事閱讀 67,370評(píng)論 6贊 390
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布汤功。她就那樣靜靜地躺著，像睡著了一般控轿。火紅的嫁衣襯著肌膚如雪冤竹。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書(shū)人閱讀 51,274評(píng)論 1贊 300
城市分裂傳說(shuō)
那天茬射，我揣著相機(jī)與錄音鹦蠕，去河邊找鬼。笑死在抛，一個(gè)胖子當(dāng)著我的面吹牛钟病，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播刚梭，決...
沈念sama閱讀 40,126評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼肠阱，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了朴读？” 一聲冷哼從身側(cè)響起屹徘，我...
開(kāi)封第一講書(shū)人閱讀 38,980評(píng)論 0贊 275
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎衅金，沒(méi)想到半個(gè)月后噪伊，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,414評(píng)論 1贊 313
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡氮唯，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,599評(píng)論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年鉴吹，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片惩琉。...
茶點(diǎn)故事閱讀 39,773評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡豆励，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出瞒渠，到底是詐尸還是另有隱情良蒸，我是刑警寧澤技扼，帶...
沈念sama閱讀 35,470評(píng)論 5贊 344
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站嫩痰，受9級(jí)特大地震影響淮摔，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜始赎，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,080評(píng)論 3贊 327
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望仔燕。院中可真熱鬧造垛，春花似錦、人聲如沸晰搀。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,713評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)外恕。三九已至杆逗，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間鳞疲，已是汗流浹背罪郊。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 32,852評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留尚洽，地道東北人悔橄。一個(gè)月前我還...
沈念sama閱讀 47,865評(píng)論 2贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像腺毫，于是被迫代替她去往敵國(guó)和親癣疟。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,689評(píng)論 2贊 354

策略迭代和值迭代的區(qū)別及重點(diǎn)

推薦閱讀更多精彩內(nèi)容