Imitation Learning

在傳統(tǒng)的強(qiáng)化學(xué)習(xí)任務(wù)中惰匙,通常通過(guò)計(jì)算累積獎(jiǎng)賞來(lái)學(xué)習(xí)最優(yōu)策略(policy)闹究,這種方式簡(jiǎn)單直接磅摹,而且在可以獲得較多訓(xùn)練數(shù)據(jù)的情況下有較好的表現(xiàn)鳞疲。然而在多步?jīng)Q策(sequential decision)中秧骑,學(xué)習(xí)器不能頻繁地得到獎(jiǎng)勵(lì)版确,且這種基于累積獎(jiǎng)賞及學(xué)習(xí)方式存在非常巨大的搜索空間。而模仿學(xué)習(xí)(Imitation Learning)的方法經(jīng)過(guò)多年的發(fā)展乎折,已經(jīng)能夠很好地解決多步?jīng)Q策問(wèn)題绒疗。模仿學(xué)習(xí)是指從示教者提供的范例中學(xué)習(xí),一般提供人類(lèi)專(zhuān)家的決策數(shù)據(jù)(狀態(tài)->行動(dòng))骂澄,之后就可以把狀態(tài)作為特征(feature)吓蘑,動(dòng)作作為標(biāo)記(label)進(jìn)行分類(lèi)或回歸, 從而得到策略模型。模型的訓(xùn)練目標(biāo)是使模型生成的狀態(tài)-行動(dòng)軌跡分布和輸入的軌跡分布相匹配。

簡(jiǎn)單自動(dòng)駕駛?cè)蝿?wù):狀態(tài)就是指汽車(chē)攝像頭所觀測(cè)到的畫(huà)面磨镶,動(dòng)作即轉(zhuǎn)向角度溃蔫。根據(jù)人類(lèi)提供的狀態(tài)動(dòng)作對(duì)來(lái)習(xí)得駕駛策略。這個(gè)任務(wù)也叫做行為克铝彰ā(Behavior Cloning)伟叛,是監(jiān)督學(xué)習(xí)。但是不是我們完成訓(xùn)練后模型就能夠有比較好的效果脐嫂?答案是否定的统刮,這里存在復(fù)合誤差(compounding errors),訓(xùn)練好的策略模型執(zhí)行的軌跡和訓(xùn)練軌跡的誤差會(huì)隨時(shí)間的增加而越變?cè)酱蟆?/p>

image.png

1. Data Augmentation

為了解決誤差隨時(shí)間越來(lái)越大的問(wèn)題账千,可以采用數(shù)據(jù)增廣(Data Augmentation)方法侥蒙,如下圖,這是一個(gè)端對(duì)端的自動(dòng)駕駛解決方案(NVIDIA 2016)匀奏,汽車(chē)裝配了左右兩側(cè)的攝像頭與中央攝像頭來(lái)獲取當(dāng)前觀測(cè)的環(huán)境辉哥,并且能夠通過(guò) Back propagation 使其從錯(cuò)誤狀態(tài)中恢復(fù)。它在訓(xùn)練模型前人為地調(diào)整了環(huán)境不好時(shí)汽車(chē)的運(yùn)動(dòng)動(dòng)作攒射,另外醋旦,攝像頭圖像的識(shí)別采用的是卷積神經(jīng)網(wǎng)絡(luò)。如果我們能夠獲取大量的訓(xùn)練數(shù)據(jù)形成一個(gè)合適的狀態(tài)概率分布或者說(shuō)樣本空間会放,從而得到一個(gè)很好的策略模型同樣能直接地解決這個(gè)問(wèn)題(如圖)饲齐。但這往往不太現(xiàn)實(shí),因?yàn)樾枰馁M(fèi)的成本太大咧最。起初大部分研究者也幾乎全在研究如何優(yōu)化策略減少誤差捂人,并提出了很多方法,但都不是十分有效矢沿。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末滥搭,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子捣鲸,更是在濱河造成了極大的恐慌瑟匆,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,084評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件栽惶,死亡現(xiàn)場(chǎng)離奇詭異愁溜,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)外厂,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,623評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén)冕象,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人汁蝶,你說(shuō)我怎么就攤上這事渐扮。” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 163,450評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵墓律,是天一觀的道長(zhǎng)意荤。 經(jīng)常有香客問(wèn)我,道長(zhǎng)只锻,這世上最難降的妖魔是什么玖像? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,322評(píng)論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮齐饮,結(jié)果婚禮上捐寥,老公的妹妹穿的比我還像新娘。我一直安慰自己祖驱,他們只是感情好握恳,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,370評(píng)論 6 390
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著捺僻,像睡著了一般乡洼。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上匕坯,一...
    開(kāi)封第一講書(shū)人閱讀 51,274評(píng)論 1 300
  • 那天束昵,我揣著相機(jī)與錄音,去河邊找鬼葛峻。 笑死锹雏,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的术奖。 我是一名探鬼主播礁遵,決...
    沈念sama閱讀 40,126評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼采记!你這毒婦竟也來(lái)了佣耐?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 38,980評(píng)論 0 275
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤唧龄,失蹤者是張志新(化名)和其女友劉穎兼砖,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體选侨,經(jīng)...
    沈念sama閱讀 45,414評(píng)論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡掖鱼,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,599評(píng)論 3 334
  • 正文 我和宋清朗相戀三年然走,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了援制。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,773評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡芍瑞,死狀恐怖晨仑,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤洪己,帶...
    沈念sama閱讀 35,470評(píng)論 5 344
  • 正文 年R本政府宣布妥凳,位于F島的核電站,受9級(jí)特大地震影響答捕,放射性物質(zhì)發(fā)生泄漏逝钥。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,080評(píng)論 3 327
  • 文/蒙蒙 一拱镐、第九天 我趴在偏房一處隱蔽的房頂上張望艘款。 院中可真熱鬧,春花似錦沃琅、人聲如沸哗咆。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,713評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)晌柬。三九已至,卻和暖如春郭脂,著一層夾襖步出監(jiān)牢的瞬間年碘,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,852評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工展鸡, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留盛泡,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,865評(píng)論 2 370
  • 正文 我出身青樓娱颊,卻偏偏與公主長(zhǎng)得像傲诵,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子箱硕,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,689評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容