嗯能颁。有空可以讓找人試著一起研究下模擬器杂瘸。先開始看第三學期的課程。上來David Silver先介紹了一下第三學期會講啥伙菊。似乎還會講hardware败玉。中間有一章叫functional safety的環(huán)節(jié)我稍微看了看完全不知道在干啥。不過welcome后面的第一節(jié)課還在講怎么規(guī)劃無人車的路徑
第三學期的課程包括一些很神奇的內容占业。比如預測其他車輛會如何運動(這個會在下次筆記)
決定自己汽車的行為绒怨。
以及如何最終確定給控制器執(zhí)行的最終軌跡
然后就是第一課搜索的內容,在這個課程里面只講了A*搜索和動態(tài)規(guī)劃谦疾。并且第一個session的課程除了demo以外都假設地圖是離散的南蹂。
然后先講了在這個世界上不同的action可能會有不同的cost。比如有的導航在閑暇時段不太喜歡左轉念恍。
然后講了A*搜索六剥。A*搜索本質上相當于在廣搜的時候增加一個heuristic啟發(fā)函數(shù)晚顷。然后廣搜的時候會優(yōu)先搜索搜索深度+啟發(fā)函數(shù)最小的那個節(jié)點。這樣在地圖很大的時候可以避免大量的搜索疗疟。
在花了很長時間講完A*搜索的原理和習題之后,講課的哥們拿出了Stanford的在Urban Challenge那個車輛的demo策彤。栓袖。這個challenge是走一個迷宮。然后這個車會做有限步數(shù)的啟發(fā)式搜索(看上去加了蒙特卡洛樹之類的東西店诗,搜索的軌跡有一定的隨機性)然后逐步探索迷宮裹刮。啟發(fā)函數(shù)就是到目標的歐幾里得距離。據(jù)說運行起來非常高效庞瘸。最后最騷的是倒車進入了目標位置捧弃。
還講了兩個例子是,走著走著汽車發(fā)現(xiàn)路上有個路障擦囊,然后決定掉頭繞著走违霞。以及汽車倒車入庫的時候也使用了啟發(fā)式搜索。
然后還講了DP买鸽。DP的話可以得到地圖上每一個點到目標的最短路徑。不過如果考慮汽車的action是直行贯被、左轉癞谒、右轉的話,汽車的狀態(tài)數(shù)其實等于地圖空間乘以可能的朝向數(shù)刃榨。哥們說考慮DP的原因主要是地圖上會有未知情況弹砚,比如本來最優(yōu)的左轉路徑上面停了個大卡車。這個時候一直往前開就會進入原來沒考慮的狀態(tài)枢希。DP最后的結果可以得到每個狀態(tài)下的最優(yōu)policy桌吃。話說DP本來就是解狀態(tài)容易遍歷,model已知的MDP問題的一種標準解法苞轿。之后還會講離散狀態(tài)下如何做規(guī)劃茅诱。不過下一個session的內容先是預測其他車的行為。