開發(fā)和生產(chǎn)自動(dòng)駕駛汽車所需的技術(shù)是什么?生產(chǎn)商和研究機(jī)構(gòu)對(duì)這個(gè)問題的答案存在著一些分歧。自動(dòng)駕駛的方法范圍從攝像頭和計(jì)算機(jī)視覺的組合發(fā)展到計(jì)算機(jī)視覺和先進(jìn)傳感器的組合硫嘶。
特斯拉公司一直是基于視覺的自動(dòng)駕駛方法的擁護(hù)者阻问,在今年的計(jì)算機(jī)視覺和模式識(shí)別會(huì)議(CVPR)上,該公司首席人工智能科學(xué)家Andrej Karpathy解釋了采用這一方法的原因沦疾。
在CVPR2021自動(dòng)駕駛技術(shù)研討會(huì)上称近,領(lǐng)導(dǎo)特斯拉公司自動(dòng)駕駛技術(shù)開發(fā)工作的Karpathy詳細(xì)介紹了該公司如何開發(fā)只需要視頻輸入就可以了解汽車的周圍環(huán)境的深度學(xué)習(xí)系統(tǒng)。其技術(shù)通過視覺神經(jīng)網(wǎng)絡(luò)非常準(zhǔn)確估計(jì)汽車之間距離哮塞、速度和加速度刨秆。其必要的技術(shù)包括:龐大的車隊(duì)數(shù)據(jù)引擎、強(qiáng)大的人工智能團(tuán)隊(duì)和超級(jí)計(jì)算機(jī)忆畅。他還對(duì)為什么特斯拉公司在實(shí)現(xiàn)基于視覺的自動(dòng)駕駛汽車方面處于行業(yè)領(lǐng)先地位進(jìn)行了解釋衡未。
通用計(jì)算機(jī)視覺系統(tǒng)
深度神經(jīng)網(wǎng)絡(luò)是自動(dòng)駕駛技術(shù)堆棧的主要組成部分之一。神經(jīng)網(wǎng)絡(luò)通過車載攝像頭來分析道路家凯、標(biāo)志缓醋、汽車、障礙物和人員的信息绊诲。
但是深度學(xué)習(xí)在檢測(cè)圖像中的對(duì)象時(shí)也會(huì)出錯(cuò)送粱。這就是為什么大多數(shù)自動(dòng)駕駛汽車公司(其中包括Alphabet的子公司W(wǎng)aymo公司)使用激光雷達(dá)的原因,激光雷達(dá)是一種通過向各個(gè)方向發(fā)射激光束來創(chuàng)建汽車周圍3D圖像的設(shè)備驯镊,可以提供填補(bǔ)神經(jīng)網(wǎng)絡(luò)空白的補(bǔ)充信息葫督。
然而竭鞍,將激光雷達(dá)添加到自動(dòng)駕駛技術(shù)堆棧會(huì)帶來其自身的復(fù)雜性。Karpathy說橄镜,“這樣的自動(dòng)駕駛技術(shù)必須采用激光雷達(dá)預(yù)先繪制環(huán)境地圖偎快,然后必須創(chuàng)建高清地圖,需要輸入所有車道及其連接方式以及所有交通燈的信息洽胶。而在測(cè)試時(shí)晒夹,只需定位到該地圖即可放心行駛℃⒚ィ”
但是丐怯,創(chuàng)建自動(dòng)駕駛汽車將要行駛的每個(gè)位置的精確地圖是極其困難的。Karpathy說翔横,“收集读跷、構(gòu)建和維護(hù)這些高清激光雷達(dá)地圖是很困難,而讓這一基礎(chǔ)設(shè)施保持最新狀態(tài)將是極其困難的禾唁⌒Ю溃”
特斯拉公司因此在其自動(dòng)駕駛技術(shù)堆棧中沒有使用激光雷達(dá)和高清地圖技術(shù)。他說荡短,“我們根據(jù)圍繞汽車的8個(gè)攝像頭拍攝的視頻信息丐枉,可以在車內(nèi)處理一切事務(wù)【蛲校”
自動(dòng)駕駛技術(shù)必須弄清楚車道在哪里瘦锹,交通燈在哪里,交通燈的狀態(tài)是什么闪盔,以及哪些信息與車輛相關(guān)弯院。而且它必須做到這一切,而不需要獲得任何關(guān)于其導(dǎo)航的道路的預(yù)定義信息锭沟。
Karpathy承認(rèn)抽兆,基于視覺的自動(dòng)駕駛在技術(shù)上更加困難,因?yàn)樗枰捎蒙窠?jīng)網(wǎng)絡(luò)技術(shù)族淮,而神經(jīng)網(wǎng)絡(luò)僅基于視頻信號(hào)就能發(fā)揮難以置信的良好功能。他說凭涂,“但是一旦真正讓它工作起來祝辣,它就是一個(gè)通用的視覺系統(tǒng),可以部署在地球上的任何地方切油◎保”
使用通用視覺系統(tǒng),自動(dòng)駕駛汽車將不再需要任何輔助裝備澎胡。Karpathy表示孕荠,特斯拉公司已經(jīng)在朝著這個(gè)方向前進(jìn)娩鹉。在此之前,該公司的自動(dòng)駕駛汽車使用激光雷達(dá)和攝像頭的組合進(jìn)行自動(dòng)駕駛稚伍,但該公司已經(jīng)開始銷售不再采用激光雷達(dá)的汽車弯予。
Karpathy說,“我們刪除了激光雷達(dá)个曙,新推出的自動(dòng)駕駛汽車只靠視覺駕駛锈嫩。”他補(bǔ)充說垦搬,其原因是特斯拉公司的深度學(xué)習(xí)系統(tǒng)的性能已經(jīng)遠(yuǎn)遠(yuǎn)超出了激光雷達(dá)呼寸,現(xiàn)在采用激光雷達(dá)反而阻礙其技術(shù)發(fā)展。
監(jiān)督學(xué)習(xí)
而反對(duì)純粹計(jì)算機(jī)視覺方法的主要論點(diǎn)是猴贰,在沒有激光雷達(dá)深度圖像技術(shù)的情況下对雪,神經(jīng)網(wǎng)絡(luò)是否可以進(jìn)行測(cè)距和估計(jì)距離仍存在不確定性。
Karpathy說:“顯然米绕,人類在駕駛時(shí)主要依賴視覺瑟捣,所以人類的神經(jīng)網(wǎng)絡(luò)能夠處理視覺輸入,以了解汽車周圍物體的距離和速度义郑。但最大的問題是我們開發(fā)的神經(jīng)網(wǎng)絡(luò)能否做到同樣的事情蝶柿。我們一直在努力解決這個(gè)問題,我們對(duì)于這個(gè)問題的回答是肯定的非驮〗惶溃”
特斯拉公司的工程師為此創(chuàng)建一個(gè)深度學(xué)習(xí)系統(tǒng),該系統(tǒng)可以檢測(cè)物體以及距離劫笙、速度和加速度芙扎。他們將挑戰(zhàn)視為一個(gè)監(jiān)督學(xué)習(xí)問題,其中神經(jīng)網(wǎng)絡(luò)在對(duì)帶注釋的數(shù)據(jù)進(jìn)行訓(xùn)練之后學(xué)習(xí)檢測(cè)對(duì)象及其相關(guān)屬性填大。
為了訓(xùn)練他們的深度學(xué)習(xí)架構(gòu)戒洼,特斯拉公司的研發(fā)團(tuán)隊(duì)需要一個(gè)包含數(shù)百萬個(gè)視頻的海量數(shù)據(jù)集,并用它們包含的對(duì)象及其屬性仔細(xì)注釋允华。而為自動(dòng)駕駛汽車創(chuàng)建數(shù)據(jù)集特別棘手圈浇,技術(shù)工程師必須確保包含不經(jīng)常發(fā)生的各種道路狀況和路邊情況。
Karpathy說靴寂,“當(dāng)擁有一個(gè)龐大磷蜀、干凈、多樣化的數(shù)據(jù)集百炬,并在其上訓(xùn)練一個(gè)大型神經(jīng)網(wǎng)絡(luò)時(shí)褐隆,在實(shí)踐中獲得成功才是有保證的∑视唬”
自動(dòng)標(biāo)記數(shù)據(jù)集
特斯拉公司在全球銷售了數(shù)百萬輛配備攝像頭的汽車庶弃,因此在收集訓(xùn)練汽車視覺深度學(xué)習(xí)模型所需的數(shù)據(jù)方面處于有利地位衫贬。特斯拉公司自動(dòng)駕駛技術(shù)開發(fā)團(tuán)隊(duì)積累了1.5PB的數(shù)據(jù),其中包括100萬個(gè)10秒視頻和60億個(gè)用邊界框歇攻、深度和速度標(biāo)注的對(duì)象固惯。
但是標(biāo)記這樣的數(shù)據(jù)集是一個(gè)巨大的挑戰(zhàn)。一種方法是通過數(shù)據(jù)標(biāo)記公司或Amazon Turk等在線平臺(tái)對(duì)其進(jìn)行人工注釋掉伏。但這需要大量的人工工作缝呕,可能會(huì)花費(fèi)更多費(fèi)用,并且其過程非常緩慢斧散。
與其相反供常,特斯拉公司的開發(fā)團(tuán)隊(duì)使用了一種自動(dòng)標(biāo)記技術(shù),該技術(shù)涉及神經(jīng)網(wǎng)絡(luò)鸡捐、雷達(dá)數(shù)據(jù)和人工審查的組合栈暇。由于數(shù)據(jù)集是離線注釋的,其神經(jīng)網(wǎng)絡(luò)可以反復(fù)運(yùn)行視頻箍镜,將它們的預(yù)測(cè)與真實(shí)情況進(jìn)行比較源祈,并調(diào)整它們的參數(shù)。這與測(cè)試時(shí)間推理形成對(duì)比色迂,而在測(cè)試時(shí)間推理中香缺,一切都是實(shí)時(shí)發(fā)生的,深度學(xué)習(xí)模型無法追蹤歇僧。
離線標(biāo)記還使技術(shù)工程師能夠應(yīng)用非常強(qiáng)大且計(jì)算密集型的對(duì)象檢測(cè)網(wǎng)絡(luò)图张,這些網(wǎng)絡(luò)無法部署在汽車上并用于實(shí)時(shí)、低延遲的應(yīng)用程序诈悍。他們使用激光雷達(dá)傳感器數(shù)據(jù)來進(jìn)一步驗(yàn)證神經(jīng)網(wǎng)絡(luò)的推論祸轮。所有這些都提高了標(biāo)記網(wǎng)絡(luò)的精度。
Karpathy說侥钳,“如果處于離線狀態(tài)适袜,可以獲得事后分析的好處,因此可以更好地冷靜地融合不同的傳感器數(shù)據(jù)舷夺。此外苦酱,可以讓人類參與進(jìn)來,他們可以進(jìn)行清理给猾、驗(yàn)證躏啰、編輯等工作“也幔”
根據(jù)Karpathy在CVPR研討會(huì)上展示的視頻,對(duì)象檢測(cè)網(wǎng)絡(luò)在通過碎片毫捣、灰塵和雪云環(huán)境的表現(xiàn)保持一致详拙。
特斯拉公司的神經(jīng)網(wǎng)絡(luò)可以在各種能見度條件下始終如一地檢測(cè)出現(xiàn)的物體帝际。
Karpathy并沒有說明對(duì)自動(dòng)標(biāo)記系統(tǒng)進(jìn)行最終修正需要多少工作量。但人類認(rèn)知在引導(dǎo)自動(dòng)標(biāo)記系統(tǒng)朝著正確方向發(fā)展方面發(fā)揮了關(guān)鍵作用饶辙。
在開發(fā)數(shù)據(jù)集的過程中蹲诀,特斯拉公司的開發(fā)團(tuán)隊(duì)開發(fā)了200多個(gè)觸發(fā)器,并對(duì)對(duì)象檢測(cè)進(jìn)行不斷調(diào)整弃揽。其中包括諸如不同攝像頭的檢測(cè)結(jié)果之間或攝像頭與激光雷達(dá)之間的不一致等問題脯爪。他們還確定了需要特別注意的場(chǎng)景,例如隧道入口和出口以及特殊種類的汽車矿微。
開發(fā)和掌握所有這些觸發(fā)器花了四個(gè)月的時(shí)間痕慢。隨著標(biāo)記網(wǎng)絡(luò)變得越來好,它以“影子模式”部署涌矢,這意味著它安裝在自動(dòng)駕駛車輛中并靜默運(yùn)行掖举,無需向汽車發(fā)出命令。將網(wǎng)絡(luò)的輸出與傳統(tǒng)網(wǎng)絡(luò)娜庇、激光雷達(dá)和駕駛員行為的輸出進(jìn)行比較塔次。
特斯拉公司的開發(fā)團(tuán)隊(duì)經(jīng)歷了七次數(shù)據(jù)工程迭代。他們從一個(gè)初始數(shù)據(jù)集開始名秀,在該數(shù)據(jù)集上訓(xùn)練神經(jīng)網(wǎng)絡(luò)励负。然后,他們?cè)谡鎸?shí)汽車上以影子模式部署深度學(xué)習(xí)匕得,并使用觸發(fā)器來檢測(cè)不一致继榆、錯(cuò)誤和特殊場(chǎng)景。然后再進(jìn)行修改以糾正錯(cuò)誤耗跛,并在必要時(shí)將新數(shù)據(jù)添加到數(shù)據(jù)集中裕照。
Karpathy說,“我們一遍又一遍地進(jìn)行修改和調(diào)整调塌,直到神經(jīng)網(wǎng)絡(luò)變得非常好為止晋南。”
因此羔砾,該架構(gòu)可以更好地描述為具有巧妙分工的半自動(dòng)標(biāo)記系統(tǒng)负间,其中神經(jīng)網(wǎng)絡(luò)執(zhí)行重復(fù)性工作,工作人員處理高級(jí)認(rèn)知問題和極端情況姜凄。
有趣的是政溃,當(dāng)一位與會(huì)者問Karpathy是否可以自動(dòng)生成觸發(fā)器時(shí),他說态秧,“生成自動(dòng)化觸發(fā)器是一個(gè)非常棘手的場(chǎng)景董虱,因?yàn)榭梢該碛型ㄓ糜|發(fā)器,但它們并不會(huì)正確表示錯(cuò)誤模式。例如愤诱,很難自動(dòng)觸發(fā)進(jìn)入和退出隧道的觸發(fā)器云头。而作為人類是靠自己的直覺處理,這是一個(gè)挑戰(zhàn)......目前尚不清楚這將如何運(yùn)作淫半±;保”
分層深度學(xué)習(xí)架構(gòu)
特斯拉的自動(dòng)駕駛開發(fā)團(tuán)隊(duì)需要一個(gè)非常高效且設(shè)計(jì)精良的神經(jīng)網(wǎng)絡(luò),以充分利用他們收集的高質(zhì)量數(shù)據(jù)集科吭。
該公司創(chuàng)建了一個(gè)分層深度學(xué)習(xí)架構(gòu)昏滴,由不同的神經(jīng)網(wǎng)絡(luò)組成,這些神經(jīng)網(wǎng)絡(luò)處理信息并將其輸出結(jié)果提供給下一組網(wǎng)絡(luò)对人。
深度學(xué)習(xí)模型使用卷積神經(jīng)網(wǎng)絡(luò)從安裝在汽車周圍的8個(gè)攝像頭的視頻中提取特征谣殊,并使用神經(jīng)網(wǎng)絡(luò)將它們?nèi)诤显谝黄稹H缓髮⑺鼈兛鐣r(shí)間進(jìn)行融合规伐,這對(duì)于行進(jìn)軌跡預(yù)測(cè)和平滑推理不一致性等任務(wù)非常重要蟹倾。然后將空間和時(shí)間特征輸入到神經(jīng)網(wǎng)絡(luò)的分支結(jié)構(gòu)中,Karpathy將其描述為頭部猖闪、軀干和終端鲜棠。
Karpathy說:“采用這種分支結(jié)構(gòu)的原因是因?yàn)檩敵鼋Y(jié)果的數(shù)量巨大,而且不能為每個(gè)輸出都配備一個(gè)單一的神經(jīng)網(wǎng)絡(luò)培慌』砺剑”
層次結(jié)構(gòu)可以為不同的任務(wù)重用組件,并在不同的推理路徑之間實(shí)現(xiàn)特征共享吵护。網(wǎng)絡(luò)模塊化架構(gòu)的另一個(gè)好處是分布式開發(fā)的可能性盒音。特斯拉公司目前雇傭的機(jī)器學(xué)習(xí)工程師團(tuán)隊(duì)致力于自動(dòng)駕駛神經(jīng)網(wǎng)絡(luò)的研究。他們每個(gè)人都開發(fā)神經(jīng)網(wǎng)絡(luò)的一個(gè)小組件馅而,并將開發(fā)結(jié)果插入到更大的神經(jīng)網(wǎng)絡(luò)中祥诽。
Karpathy說,“我們的開發(fā)團(tuán)隊(duì)大約有20人瓮恭,他們正在全身心地訓(xùn)練神經(jīng)網(wǎng)絡(luò)雄坪。”
垂直整合
在計(jì)算機(jī)視覺和模式識(shí)別會(huì)議(CVPR)的演講中屯蹦,Karpathy分享了有關(guān)特斯拉公司用來訓(xùn)練和微調(diào)其深度學(xué)習(xí)模型的超級(jí)計(jì)算機(jī)的一些細(xì)節(jié)维哈。
其計(jì)算集群由80個(gè)節(jié)點(diǎn)組成,每個(gè)節(jié)點(diǎn)包含8個(gè)具有80GB顯存的Nvidia A100 GPU登澜,總計(jì)采用5,760個(gè)GPU和超過450TB的內(nèi)存阔挠。這臺(tái)超級(jí)計(jì)算機(jī)還擁有10PB的NVME超高速存儲(chǔ)和640tbps的網(wǎng)絡(luò)容量,可以連接所有節(jié)點(diǎn)脑蠕,并允許對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行高效的分布式訓(xùn)練购撼。
Karpathy說:“特斯拉公司還擁有并制造安裝在其汽車內(nèi)的人工智能芯片。這些芯片是專門為神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)的,我們希望它能用于全自動(dòng)駕駛應(yīng)用份招∏薪遥”
特斯拉公司的一大優(yōu)勢(shì)在于其垂直整合的特性。特斯拉公司擁有整個(gè)自動(dòng)駕駛汽車技術(shù)堆棧锁摔,該公司生產(chǎn)電動(dòng)汽車和用于自動(dòng)駕駛功能的硬件。它處于獨(dú)特的位置哼审,可以從已銷售的數(shù)百萬輛汽車中收集各種遙測(cè)和視頻數(shù)據(jù)谐腰。該公司還在其專有數(shù)據(jù)集、其特殊的內(nèi)部計(jì)算集群上創(chuàng)建和訓(xùn)練其神經(jīng)網(wǎng)絡(luò)涩盾,并通過對(duì)其汽車的影子測(cè)試來驗(yàn)證和微調(diào)這些神經(jīng)網(wǎng)絡(luò)十气。當(dāng)然,該公司還擁有一支由機(jī)器學(xué)習(xí)工程師春霍、研究人員和硬件設(shè)計(jì)師組成的才華橫溢的團(tuán)隊(duì)砸西,可以將所有部分組合在一起。
Karpathy說址儒,“我們可以在該堆棧的所有層進(jìn)行協(xié)同設(shè)計(jì)和工程芹枷,并且沒有第三方的干涉,可以完全掌握自己的命運(yùn)莲趣,我認(rèn)為這太不可思議了鸳慈。”
這種創(chuàng)建數(shù)據(jù)喧伞、調(diào)整機(jī)器學(xué)習(xí)模型并將其部署在許多汽車上的垂直整合和重復(fù)循環(huán)走芋,使特斯拉公司處于實(shí)現(xiàn)視覺自動(dòng)駕駛汽車功能的獨(dú)特市場(chǎng)位置。Karpathy在其演講中展示了幾個(gè)示例潘鲫,其中新的神經(jīng)網(wǎng)絡(luò)的性能超過了與激光雷達(dá)信息結(jié)合使用的傳統(tǒng)機(jī)器學(xué)習(xí)模型翁逞。
正如Karpathy所說,如果這個(gè)系統(tǒng)繼續(xù)改進(jìn)溉仑,特斯拉公司可能會(huì)走上淘汰激光雷達(dá)的道路挖函,而且現(xiàn)在沒有其他公司能夠復(fù)制特斯拉公司的方法。
有待解決的一些問題
但仍然有一些沒有解決的問題彼念,例如挪圾,深度學(xué)習(xí)在目前的狀態(tài)下能否克服自動(dòng)駕駛的所有挑戰(zhàn)?當(dāng)然,對(duì)象檢測(cè)以及速度和范圍估計(jì)在駕駛中起著重要作用逐沙。但是人類視覺還執(zhí)行許多其他復(fù)雜的功能哲思,科學(xué)家將其稱為視覺的“暗物質(zhì)”。這些都是對(duì)不同環(huán)境的視覺輸入和導(dǎo)航進(jìn)行有意識(shí)和潛意識(shí)分析的重要組成部分吩案。
深度學(xué)習(xí)模型也難以做出因果推斷棚赔,當(dāng)模型面臨他們以前從未見過的新情況時(shí),這可能是一個(gè)巨大的障礙。因此靠益,雖然特斯拉公司設(shè)法創(chuàng)建了一個(gè)非常龐大和多樣化的數(shù)據(jù)集丧肴,但開放的道路也是非常復(fù)雜的環(huán)境,新的和不可預(yù)測(cè)的事情隨時(shí)可能發(fā)生胧后。
人工智能社區(qū)在是否需要將因果關(guān)系和推理明確集成到深度神經(jīng)網(wǎng)絡(luò)中芋浮,或者是否可以通過“直接擬合”克服因果關(guān)系障礙的問題上存在分歧,在這種情況下壳快,大型且分布良好的數(shù)據(jù)集足以達(dá)到通用深度學(xué)習(xí)的水平纸巷。特斯拉公司基于視覺的自動(dòng)駕駛團(tuán)隊(duì)似乎更喜歡后者(盡管他們完全控制技術(shù)堆棧,但在未來將會(huì)嘗試采用新的神經(jīng)網(wǎng)絡(luò)架構(gòu))眶痰。而這項(xiàng)技術(shù)能否經(jīng)受時(shí)間的考驗(yàn)瘤旨,人們將拭目以待。