Trajectory :
為一串游戲的狀態(tài)和動作序列。
這里的為一類序列痢掠,
為
的發(fā)生的概率产还。
那這里是不是我們直接能用來獲得最大值呢?
我們這里設(shè)之列有種
那么就有
這里的問題就在于X有多少種無法確定屯蹦,所以無法直接求得
维哈。
因為有
所以
這里的與之前的
不一樣,
代表采樣中的單獨一次采樣登澜,
代表一類相同的采樣阔挠。所以我們想要求的loss函數(shù)如下:
當然這里求的是loss得最大值。