中國自動化學會主辦猿涨,深藍學院承辦的『深度與寬度強化學習』學科前沿講習班在中科院自動化所成功舉辦磨确。本文根據(jù)浙江大學劉勇教授在前沿講習班上所作報告速記整理而成酿愧。
劉勇挺狰,浙江大學智能系統(tǒng)與控制研究所教授身隐,浙江大學求是青年學者廷区,浙江省“新世紀151人才工程”第三層次培養(yǎng)人員,擔任浙江省機器換人專家組專家贾铝。承擔NSFC-浙江兩化融合聯(lián)合基金隙轻、國家自然科學基全青年和面上項目埠帕、科技部863重點項目子課題、浙江省杰出青年基金玖绿、工信部重大專項等國家級省部級項目多項敛瓷。獲得浙江省自然科學獎2017(一等獎),科學進步獎2013 (一等獎)镰矿,發(fā)表SCI論文20余篇琐驴,授權發(fā)明專利6項。主要研究方向包括:智能機器人系統(tǒng)秤标、機器人感知與視覺绝淡、深度學習、大數(shù)據(jù)分析苍姜,多傳感器融合等牢酵。
研究背景與挑戰(zhàn)
目前,世界上很多國家政府對AI深度學習都非常的重視衙猪。同時在很多的應用行業(yè)馍乙,比如無人超市、自動駕駛等垫释,都是深度學習在促進行業(yè)技術的發(fā)展丝格。
在深度學習出現(xiàn)之前,做人工智能或者機器學習的模式是先進行輸入棵譬,然后設定一個特征显蝌,輸入后做特征提取,找到有用的特征订咸,再用這些特征生成一個分類器曼尊,最后輸出。在這個時期做人工智能或者機器學習科研并不受產(chǎn)業(yè)界重視脏嚷,其根本原因是這個時期模型最終的好壞骆撇,不在于決策訓練時候使用的分類器,而在于該提取何種特征進行分類父叙,但是對于特征的需求產(chǎn)業(yè)界比科研界更懂神郊。
而深度學習的出現(xiàn)則改變了這個情況,深度學習是端到端的學習趾唱,其實是一個擬合在一起的黑盒子屿岂,把特征提取和整合分類的決策和訓練放在一起,只要有數(shù)據(jù)鲸匿、有輸出結果爷怀,無需專業(yè)人士就可以完成。
深度學習還有另一個優(yōu)勢带欢,就是將復雜的特征提取轉(zhuǎn)化為逐層的特征提取运授。
首先定義訓練數(shù)據(jù)集D,輸入值x和輸出值y烤惊,為最小化其誤差,定義代價函數(shù),將輸出的預測值與真實預測值間的誤差最小化吁朦。
目前柒室,當機器人在感知環(huán)境中做事情時,需要知道環(huán)境中哪些是目標對象或需識別目標逗宜,比如讓機器人去廚房中取一杯水雄右,就是會遇到的經(jīng)典任務之一。
此時機器人要考慮幾個問題纺讲。第一擂仍,廚房在哪里,哪個場景是廚房?
二熬甚,什么是水逢渔,需要識別的目標是什么?需要定義多層級語義感知需求問題和標注樣本數(shù)量過少的問題。
第三乡括,視覺傳感器是二維傳感器肃廓,所以實際觀測到的是二維信息,如何讓機器人通過二維信息在三維空間進行活動诲泌,是典型的不完整觀測盲赊。對機器人環(huán)境感知來說,以上三個問題十分重要敷扫。
另外角钩,二維傳感器觀測到的二維信息,是一些稀疏的點呻澜,對應起來是表面的紋理,怎么讓機器人順利的把目標抓起來惨险,需要一個抓取規(guī)劃,這個抓取規(guī)劃也是要解決的問題羹幸。還有動作連貫性問題,在深度學習辫愉、機器人現(xiàn)場感知環(huán)境中這個問題顯得很重要栅受。
當然針對機器人問題來說,有些東西在傳統(tǒng)視覺里是不一定存在的恭朗,比如多層次語義感覺屏镊,要知道地點和目標,同時還安裝了多個傳感器痰腮。另外運動是連貫的而芥,從A點到B點,物理空間和時間上的連貫膀值,被稱為運動的連貫性棍丐。這些統(tǒng)稱為機器人在環(huán)境感知中的先驗知識误辑。
因此機器人感知中面臨的問題是標注樣本數(shù)據(jù)量少,而解決這個問題歌逢,需解決參數(shù)學習的病態(tài)性巾钉。按照機器理論學習來說,只有D的樣本秘案,去估算出一組θ參數(shù)砰苍,但因為D的數(shù)量過少,無法覆蓋樣本真實分布信息阱高,這個問題叫做參數(shù)學習的病態(tài)性赚导。
第二,是由于機器人不完整觀測感知帶來的任務映射病態(tài)性問題讨惩。x是已知的信息辟癌,需要推導出y信息,但因為x本身包含的信息不足以推導出y信息荐捻,比如只有一個二維圖像的前提下黍少,要做一個三維重建,只有一個視角处面,信息就是不充分的厂置,也就是x缺少重構唯一輸出y的信息,這個問題叫做任務映射信息的病態(tài)性魂角。
以上兩個病態(tài)性問題昵济,是無法通過任何數(shù)學方法彌補的。
要解決這些問題野揪,就需要用到先驗知識访忿,也就是前面提到的機器人運動連貫性、有多傳感器斯稳、多層級語義感知海铆,利用這些先驗知識解決樣本標注較少或觀測較少的問題,這個方法稱為正則化方法挣惰。
接下來卧斟,本報告將從提升深度學習泛化能力入手,通過嵌入先驗知識的正則化方法手段憎茂,闡述如何解決機器人環(huán)境感知問題珍语。
研究現(xiàn)狀
首先,介紹一下隱層正則約束和結構正則約束竖幔。
對深度學習而言板乙,一般做一個網(wǎng)絡訓練,將L最小化拳氢,是一個基本模型亡驰。但若對它進行正則化該怎么做呢?首先是基于數(shù)據(jù)的正則晓猛,是對x、y訓練數(shù)據(jù)上做些特定的訓練方式凡辱,叫做數(shù)據(jù)正則戒职。
另外一種叫結構正則化,比如卷積神經(jīng)網(wǎng)絡透乾。傳統(tǒng)的神經(jīng)網(wǎng)絡是稠密全連接的網(wǎng)絡洪燥,所有輸人的每一個子向量都會同頂層節(jié)點發(fā)生關系。但是卷積神經(jīng)網(wǎng)絡只有部分發(fā)生關聯(lián)乳乌,實際上是一個卷積的過程捧韵。這種對結構進行一個正則的行為,叫做結構正則汉操。
還有一種叫做加入正則項的正則再来。當在基本模型的后面加上一個約束,要求滿足基本模型的最低Lot值磷瘤,并將正則項加人進去伤提,使正則項能夠傳下來挎塌,這也是一種用來正則的方法凤巨,叫做加人正則項的正則督勺。這里可以細分一下,比如參數(shù)正則扳抽,約束輸出參數(shù)0篡帕,同時要求輸出是正則,實際上就確定了這些正則是做這些約束的贸呢。
研究內(nèi)容
隱層正則約束镰烧,先從圖正則自編碼器來介紹,定義一個編碼器h有一個f,解碼器則是把它倒過來楞陷。實際上簡單的自編碼器可以看到x經(jīng)過編碼器到h隱層后怔鳖,可以復原,這叫做AE結構猜谚。再通過堆棧方式,一層層的疊加赌渣,就可以得到多層網(wǎng)絡疊加魏铅。這樣訓練完成后得到的x持續(xù)上升的多層感知機,是最早的做法坚芜。
對于這個問題又要回到前面定義的參數(shù)學習問題览芳,從訓練集D到0,D實際上是訓練數(shù)據(jù)鸿竖,θ是自編碼器的參數(shù)沧竟。然而D中可能包含噪聲铸敏,必須把噪聲去掉,需要另外做一個特定任務下對應的特性悟泵。這里借用了子空間學習(流形學習)杈笔。它認為高維數(shù)據(jù)分布實際上在低維的流形的切平線上,這是數(shù)據(jù)的特性糕非。廣泛的會用到特征提取物的降維蒙具,其核心是保留高維中的競爭關系。如果數(shù)據(jù)點間距離比較近朽肥,變換到其他維度后是否距離還應比較近禁筏,就需要一個約束,需要一個正則關系衡招,叫做圖正則篱昔。
然而流形中的特性用到機器學習中是什么樣的特性呢?是否應將流形中的約束加到隱層正則約束中?于是對隱層做一個約束,h表示隱層始腾,隱層希望它們滿足一個嵌人的信息州刽,重構誤差的輸出。
對于不確定性的傳播性窘茁,圖正則項約束了所有隱層節(jié)點各自不確定度怀伦,同時將隱層節(jié)點推向非線性激活函數(shù)的飽和區(qū)。通過圍繞一個物體360°的照片山林,可以看到兩個視角之間是相鄰的房待,對它做一個降維,投到二維空間驼抹,發(fā)現(xiàn)兩個相鄰的小格空間上維度是相近的桑孩,也就體現(xiàn)出它們在這個維度上是相近的,同時在另一個坐標中是盡可能趨同的框冀,也就是把它推到了飽和區(qū)流椒。
將這個方法用到機器人上,通過單眼激光明也,讓機器人在地圖上到處走宣虾,進入另一個房間時輸入激光掃描270°的線的一堆點,根據(jù)這些點預測或者判斷出自己在哪個房間温数。如果同一個房間里兩個數(shù)據(jù)之間有臨近性绣硝,就可以嵌人到深度學習中,也就是特征關系撑刺。通過測試鹉胖,機器人可以在不同房間內(nèi)比較好的進行預測和分類。
圖像聚類與分類實驗配置:
圖像聚類與分類實驗結果:
接下來是結構正則約束,也叫語義正則網(wǎng)絡甫菠。在參數(shù)學習病態(tài)特征中挠铲,如果把D叫做場景中的圖像與類別,那么怎么通過一張圖讓機器人知道這是哪里?可以通過250萬張圖像進行訓練寂诱,但是如此大數(shù)量的訓練是十分麻煩的拂苹。
場景分類結果:
語義正則網(wǎng)絡:
所以現(xiàn)在設計了一個多任務的網(wǎng)絡結構,用到了彩色圖像刹衫、深度圖像醋寝,然后把圖像都合成之后,設計一個模型带迟,會發(fā)現(xiàn)有兩項音羞,項是針對圖像的場景分類,另外一個是像素物體的分類誤差仓犬。把這兩個疊加起來嗅绰,結構要怎么正則?要做分類做圖像處理,但前幾層是基礎底層特征搀继,沒必要重新學習窘面,可以共用,比如:做一個SSCNNR2的特征叽躯,就是前兩層為共用的特征财边,之后再把各個不同的拉出來。另外當前六層都是共用的結果時点骑,把各個不同的拉出來酣难,看從哪一層做的效果更好一些,叫做前二層網(wǎng)絡正則結構與前六層網(wǎng)絡E則結構黑滴。
實驗結果:
接下來是結構正則約束憨募。當觀測不完整、不充分的時候袁辈,如何把場景做好菜谣,就需要場景的深度重建。深度重建可以幫機器人做好些語義上的理解晚缩。
現(xiàn)有的深度傳感器和單目深度估計尾膊,存在二義性。
通過增加單線激光掃描來解決觀測不充分和預測二義性問題荞彼,最大的挑戰(zhàn)是如何把稀疏觀測做好冈敛。
接下來要考慮如何設計網(wǎng)絡,若直接輸人稀疏觀測和圖像卿泽,輸出深度估計莺债,實際效果會非常不好。比較好的做法是首先從稀疏觀測重構稠密參考觀測签夭,避免混淆邏輯值與深度值齐邦。然后加入全局跳躍連接進行結構化正則,參考深度與實際深度之差第租,將深度估計問題轉(zhuǎn)化成深度“雕琢”問題措拇,調(diào)整實際場景深度與稠密參考深度之間的差值。這樣網(wǎng)絡主體可以采用殘差網(wǎng)絡慎宾,殘差網(wǎng)絡的局部跳躍連接與估計殘差深度的全局跳躍鏈接形成嵌套殘差網(wǎng)絡丐吓。
實驗結果:
對于機器人趟据,抓取物體的時候需要知道物體的模型是什么樣的券犁,而通常深度相機或激光掃描出來的就是一些點粘衬,通過深度學習來估計模型的三維形狀,叫做深度移動立方體網(wǎng)絡冲茸。
一些比較傳統(tǒng)的方法,一種是直接通過點進行三維重構想罕,就是用深度學習把點做出來;還有一種是體模型霉涨,通過一個個立方體膝舅,像樂高積木一樣堆出模型嗡载,然后進行平滑處理。
這些方法都需要對結果進行優(yōu)化仍稀,無法直接得到結果洼滚,也就無法得到模型的結構先驗值。其核心的問題技潘,就是重構的過程是不可導的遥巴,想要本質(zhì)上解決這個問題,需要將過程變?yōu)榭蓪碛模缓髮⑵浞湃刖W(wǎng)絡中進行整體的訓練和學習铲掐。
而移動立方體,本質(zhì)上就是一個網(wǎng)格值桩,用每個點的位置來確定哪些點要連成一個邊摆霉,有了一條邊,然后就可以把這個模型給出來奔坟。建立幾個頂點携栋,建立拓撲結構,核心問題就是確定拓撲結構和頂點位置咳秉⊥裰В可以看這四個頂點的符號來判斷這四個頂點是否被占用。這個做法有一個很大的缺陷澜建,就是沒辦法做拓撲的模型向挖。這樣的話要把拓撲和頂點的位置解耦蝌以,將其變成可導的立方體。把整個過程變成一個占用概率何之,不是根據(jù)符號來判斷饼灿,而是根據(jù)概率來判斷。這樣就把這個問題變成了一個可導的問題帝美。
網(wǎng)絡輸入可以用離散點,也可以替換為其他各種輸入晤硕,如二元柵格占用模型甚至是圖像悼潭。
代價函數(shù)也做了幾個設置:第一,算拓撲結構下的點到三角形邊的距離舞箍,這個距離盡可能要短一點舰褪,這樣包的比較緊致。另外疏橄,給定先驗知識約束占用柵格狀態(tài)占拍,設計第二項的代價函數(shù),最后做平滑捎迫。
二維方面晃酒,做第一項點到距離的時候,發(fā)現(xiàn)連完之后的輪廓基本就可以把車的輪廓找出來窄绒。再加第二項約束贝次,使得輸出更接近真實輪廓。然后再做邊緣底部缺陷修正第三項約束彰导,最后平滑蛔翅。用一些經(jīng)典方法做對比,發(fā)現(xiàn)效果還是不錯的位谋。
總結與展望
未來山析,在正則化統(tǒng)一框架下深度學習性能一定會得到更好的提升,在機器人環(huán)境感知應用上也一定會取得更好的表現(xiàn)掏父。
同時應更多的在無監(jiān)督學習笋轨、定性與定量感知任務相結合與結合機器人聲學、觸覺等傳感器方面赊淑,做出更多的努力翩腐。
來源:中國自動化學會? ?轉(zhuǎn)載本文請聯(lián)系中國自動化學會授權。