靠....AI課小測又沒去。笔时。
高級計算機網(wǎng)絡也是水課开缎,水特喵的棕叫。
但是課還是挺有意思的。還有老師假扮黑客交流終端安全奕删,以及美國某教授來我們這兒劃水
老師挺可愛的
//////////////////////////////////////////////////////////////////////////////////////////////////////////
第四章提到了迭代方程:
首先是貝爾曼方程:
然后是迭代方程:
一開始看著兩個公式的時候我是一臉懵逼的俺泣。。為什么式子完全相同,但是上面的是策略Vπ沒有變伏钠,而下面的是Vk+1和Vk
經(jīng)過討論横漏,大致的結(jié)果是,上面的式子應該是全探索情況下(感覺基本等同于收斂)的式子熟掂,但是實際上全探索是很難實現(xiàn)的缎浇,所以我們的策略是在不斷更新迭代的,也就是下面的K+1和K這其實也是黎叔說的數(shù)學上的式子和CS上的式子----我們用的是下面的(先這么理解吧赴肚,結(jié)合實例可能能理解的更透徹)
這個就是DP算法的更新過程~(現(xiàn)在看起來很簡單)
△那個是一開始初始化為0
v = V(s)這個就是全備份素跺,下面那個就是對V(s)的更新
終止條件其實就是Vk+1和Vk之間的差距足夠小就OK~
一個簡單但是有效的例子:
具體解題步驟寫在書上了。