區(qū)別:
1.Policy Iteration通常是policy evaluation+policy improvement交替執(zhí)行直到收斂
2.Value iteration通常是尋找Optimal value function+一次policy extraction,它們不用交替執(zhí)行,因?yàn)橹岛瘮?shù)最優(yōu),策略通常也是最優(yōu)
3.尋找optimal value function也可以被看作是policy improvement(due to max)和截?cái)喟娴膒olicy evaluation的組合(僅在一次掃描所有狀態(tài)后重新分配V(s)而不考慮其收斂性的組合)
其實(shí)策略迭代就是先估計(jì)稠项,在改進(jìn)策略展运,直到收斂精刷,如果不收斂就繼續(xù)估計(jì)繼續(xù)改進(jìn)。埂软。纫事。實(shí)現(xiàn)后其實(shí)可以得知策略迭代是先求解出最優(yōu)解,然后再去和環(huán)境進(jìn)行交互求得最大收益炫七,之所以在和環(huán)境交互前能求最優(yōu)策略是提前知道了環(huán)境的轉(zhuǎn)移概率P和回報(bào)函數(shù)R钾唬,然后再利用動(dòng)態(tài)規(guī)劃和貝爾曼最優(yōu)方程,但真實(shí)世界中哪里能做到先知先覺(jué)呢?恐怕轉(zhuǎn)移概率和回報(bào)函數(shù)一個(gè)都得不到奕巍。
策略迭代和值迭代都屬于動(dòng)態(tài)規(guī)劃算法儒士,DP算法的一個(gè)主要缺點(diǎn)是涉及對(duì)MDP的整個(gè)狀態(tài)集的操作,也就是說(shuō)它們需要對(duì)整個(gè)狀態(tài)集進(jìn)行遍歷冲杀。如果狀態(tài)集很大睹酌,那么即使是單次遍歷也會(huì)十分昂貴。
DP算法有一個(gè)特殊的性質(zhì)旺芽,所有的方法都根據(jù)對(duì)后繼狀態(tài)價(jià)值的估計(jì)辐啄,來(lái)更新對(duì)當(dāng)前狀態(tài)價(jià)值的估計(jì)。也就是說(shuō)悯舟,他們基于其他估計(jì)來(lái)更新自己的估計(jì)砸民。我們把這種思想稱(chēng)為自舉法。