在傳統(tǒng)的強(qiáng)化學(xué)習(xí)任務(wù)中惰匙,通常通過(guò)計(jì)算累積獎(jiǎng)賞來(lái)學(xué)習(xí)最優(yōu)策略(policy)闹究,這種方式簡(jiǎn)單直接磅摹,而且在可以獲得較多訓(xùn)練數(shù)據(jù)的情況下有較好的表現(xiàn)鳞疲。然而在多步?jīng)Q策(sequential decision)中秧骑,學(xué)習(xí)器不能頻繁地得到獎(jiǎng)勵(lì)版确,且這種基于累積獎(jiǎng)賞及學(xué)習(xí)方式存在非常巨大的搜索空間。而模仿學(xué)習(xí)(Imitation Learning)的方法經(jīng)過(guò)多年的發(fā)展乎折,已經(jīng)能夠很好地解決多步?jīng)Q策問(wèn)題绒疗。模仿學(xué)習(xí)是指從示教者提供的范例中學(xué)習(xí),一般提供人類(lèi)專(zhuān)家的決策數(shù)據(jù)(狀態(tài)->行動(dòng))骂澄,之后就可以把狀態(tài)作為特征(feature)吓蘑,動(dòng)作作為標(biāo)記(label)進(jìn)行分類(lèi)或回歸, 從而得到策略模型。模型的訓(xùn)練目標(biāo)是使模型生成的狀態(tài)-行動(dòng)軌跡分布和輸入的軌跡分布相匹配。
簡(jiǎn)單自動(dòng)駕駛?cè)蝿?wù):狀態(tài)就是指汽車(chē)攝像頭所觀測(cè)到的畫(huà)面磨镶,動(dòng)作即轉(zhuǎn)向角度溃蔫。根據(jù)人類(lèi)提供的狀態(tài)動(dòng)作對(duì)來(lái)習(xí)得駕駛策略。這個(gè)任務(wù)也叫做行為克铝彰ā(Behavior Cloning)伟叛,是監(jiān)督學(xué)習(xí)。但是不是我們完成訓(xùn)練后模型就能夠有比較好的效果脐嫂?答案是否定的统刮,這里存在復(fù)合誤差(compounding errors),訓(xùn)練好的策略模型執(zhí)行的軌跡和訓(xùn)練軌跡的誤差會(huì)隨時(shí)間的增加而越變?cè)酱蟆?/p>
1. Data Augmentation
為了解決誤差隨時(shí)間越來(lái)越大的問(wèn)題账千,可以采用數(shù)據(jù)增廣(Data Augmentation)方法侥蒙,如下圖,這是一個(gè)端對(duì)端的自動(dòng)駕駛解決方案(NVIDIA 2016)匀奏,汽車(chē)裝配了左右兩側(cè)的攝像頭與中央攝像頭來(lái)獲取當(dāng)前觀測(cè)的環(huán)境辉哥,并且能夠通過(guò) Back propagation 使其從錯(cuò)誤狀態(tài)中恢復(fù)。它在訓(xùn)練模型前人為地調(diào)整了環(huán)境不好時(shí)汽車(chē)的運(yùn)動(dòng)動(dòng)作攒射,另外醋旦,攝像頭圖像的識(shí)別采用的是卷積神經(jīng)網(wǎng)絡(luò)。如果我們能夠獲取大量的訓(xùn)練數(shù)據(jù)形成一個(gè)合適的狀態(tài)概率分布或者說(shuō)樣本空間会放,從而得到一個(gè)很好的策略模型同樣能直接地解決這個(gè)問(wèn)題(如圖)饲齐。但這往往不太現(xiàn)實(shí),因?yàn)樾枰馁M(fèi)的成本太大咧最。起初大部分研究者也幾乎全在研究如何優(yōu)化策略減少誤差捂人,并提出了很多方法,但都不是十分有效矢沿。