- 這是我使用Policy Gradient來(lái)解決CartPole-v0任務(wù)的一個(gè)總結(jié),參考了莫煩博客,Andrej Karpathy博客及其翻譯版笆包,建議先看懂Andrej Kapathy的博客中關(guān)于Policy Gradient的講解,再結(jié)合莫煩博客里的內(nèi)容自己實(shí)現(xiàn)一遍喜每。
- 我對(duì)Policy Gradient的理解及解決CartPole的方式如下:
理解Policy Gradient
- 我認(rèn)為Policy Gradient是在做這樣一件事情:優(yōu)化遇到狀態(tài)(state)時(shí)的動(dòng)作(action)選擇方式掷伙,即Policy是己。
- 具體到CartPole這個(gè)任務(wù)中:
- 遇到了一個(gè)state(這個(gè)state有4個(gè)參數(shù),分別表示Cart Position任柜、Cart Velocity卒废、Pole Position和Pole Velocity at Tip,所以用一個(gè)4維向量表示一個(gè)state:(cp,cv,pp,pv))宙地。
- 我們要根據(jù)自己的Policy來(lái)對(duì)處理state并作出action的選擇摔认,我最初的時(shí)候?qū)olicy這個(gè)概念無(wú)法接受,這一步令我非常困惑绸栅,但其實(shí)所謂的Policy就是state的4個(gè)分量(Component)的組合方式级野,比如,我們將組合方式定位線性組合(Linear Combination)粹胯,