今天總結(jié)一下...論文的情況吧
emmm最首先就是那個(gè)on-target samples和off-target samples的問題
先來考慮一下什么是success的episode
可能對(duì)于一個(gè)機(jī)器手的動(dòng)作而言适秩,碰到什么邊界啥的算是一個(gè)失敗的episode
就像這張圖畫的那樣
紅色邊界可能就是失敗的界限伤靠,在不觸碰界限完成任務(wù)就是success的
然而觸碰之后游两,因?yàn)闄C(jī)械手臂是可以伸縮的----所以它是可以回退到上一個(gè)state的(或更靠前的狀態(tài))
例如它在狀態(tài)s1經(jīng)過動(dòng)作a1觸碰到邊界宏侍,這樣state-action pair (s1,a1)就是 off-target 祟敛,而機(jī)械手臂又回退到狀態(tài)s1椿每,再在s1上進(jìn)行動(dòng)作a2,a3等等环揽,直到某個(gè)狀態(tài)動(dòng)作對(duì)(sk,ak)完成了任務(wù)岔留,我們就可以回退著找回去鹿蜀,(sk,ak)是很棒的箕慧,那么從哪里到的sk呢?sk-1就又找到了茴恰,那么sk-1的動(dòng)作ak-1颠焦,也就是讓sk-1到達(dá)sk的動(dòng)作ak-1就是很棒的,(sk-1,ak-1)就是我們要找到on-target samples往枣,而那些(sk-1,a')等等就是off-target samples伐庭。
在一個(gè)成功的episode中粉渠,肯定能找到一個(gè)一條 the trajectory,所以...就這樣吧 ?on,off target的問題解決了
/////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////
其實(shí)上面那個(gè)問題吧...感覺跟我的論文關(guān)系也不是很大圾另,不過搞明白總是好的
至于我之前對(duì)于平臺(tái)的疑問霸株,家恒學(xué)長和黎叔都給出了解決方案?
首先我們平臺(tái)的命中率確實(shí)是和是否移動(dòng)有關(guān)(和跑動(dòng)還是走路沒關(guān))
命中率和距離有關(guān)集乔,傷害現(xiàn)在不清楚(但其實(shí)實(shí)在不行我也可以在代碼里把血再加回來...這個(gè)問題不大的)
這三點(diǎn)就保證了移動(dòng)的必要性
多Agent沒必要...別人在做的
更多的任務(wù)意味著更多的負(fù)擔(dān)去件,這不是我想要的
episode分級(jí)很好
GNN!
/////////////////////////////////////////////////////////
大概就這樣