簡單說一下這篇文章的背景:從我去年(2015年)回到微軟亞洲研究院之后接觸到很多聰明的實習(xí)生。一方面感受到他們對計算機視覺研究的熱情拄踪,另方面也有感于他們對計算機視覺研究認(rèn)知的局限性,或者說大一點贺待,是基本研究方法和思路上的局限性凭戴,就有想法要對如何做好計算機視覺的研究寫點什么,但一直也沒有找到合適的機會叼风。最近計算機視覺領(lǐng)域國際權(quán)威、加州大學(xué)洛杉磯分校的朱松純老師發(fā)表了一篇關(guān)于計算視覺的三個起源和人工智能的評論匹摇,引起了很大的反響咬扇。朱松純老師的評論全面深刻,我想借著這個機會廊勃,結(jié)合朱老師評論的內(nèi)容和我在計算及視覺領(lǐng)域15年的研究經(jīng)歷懈贺,也來談?wù)勅绾巫龊糜嬎銠C視覺的研究经窖,希望對領(lǐng)域內(nèi)的學(xué)生和年青的研究員能有所幫助。
“如何做好計算機視覺的研究梭灿?”
要回答這個問題画侣,我們先要對這個問題的關(guān)鍵詞進行分析:如果去掉“計算機視覺”這個限定詞,這問題就變成了“如何做好研究堡妒?”那么配乱,要回答這個問題,我們就要知道“什么是好的研究皮迟?”而要定義什么是好的研究搬泥,必須回到根本,先要知道“什么是研究伏尼?”
我們的討論就從這個問題開始忿檩。
什么是研究?
一個被普遍接受的對研究的廣義定義為:研究是為了產(chǎn)生新的知識或者是為已有的知識設(shè)計新的應(yīng)用的系統(tǒng)性的工作爆阶。因為我們今天的討論其實更多集中在科學(xué)研究上燥透,先確定狹義的研究的定義為:利用科學(xué)的方法來調(diào)查解釋一個現(xiàn)象或者獲取新的知識。
綜合這兩個定義辨图,可以看到科學(xué)研究從本質(zhì)上是由三個基本的要素構(gòu)成:1) 目的:產(chǎn)生新的知識或者是設(shè)計出新的應(yīng)用; 2)手段:科學(xué)的方法班套。缺少這兩個要素任何之一都不構(gòu)成科學(xué)研究; 3) 成果:新的知識。所謂新的知識故河,必須是前人不知道的東西吱韭。
我們很多同學(xué)和年輕的研究員認(rèn)為研究就是寫論文、研究成果就是論文忧勿,這其實是在觀念上走進了一個誤區(qū)杉女。論文是系統(tǒng)闡述新的知識、新的應(yīng)用鸳吸,以及闡述獲取這個新知識或者新應(yīng)用用到了什么樣的科學(xué)方法的一個載體熏挎。論文,作為闡述研究成果的主要手段晌砾,必須經(jīng)過同行的評議通過才能正式發(fā)表和被認(rèn)可坎拐。
在人工智能進入第三個熱潮之際,我們看到各種各樣關(guān)于AI的各種媒體報道層出不窮养匈,一方面哼勇,這對大眾普及了AI各方面的知識,是積極的呕乎。但從另一個方面講积担,很多觀點沒有經(jīng)過仔細的推敲,也沒有同行的評議猬仁,一些謬誤或者是夸大的觀點可能因為廣泛傳播而被大眾接受帝璧,結(jié)果產(chǎn)生負(fù)面的社會影響先誉。這就提醒我們相關(guān)領(lǐng)域的研究人員,在對大眾媒體去做一些評論的時候的烁,必須仔細斟酌褐耳,盡量不傳播沒有得到檢驗的觀點。
這就談到第二個問題:
什么是好的研究渴庆?
不同領(lǐng)域的研究員對這個問題可能會有不同的看法铃芦。
從計算機科學(xué)的角度來講,尤其是計算機視覺的研究襟雷,無論是理論的還是實踐的刃滓,我們的研究成果最終是要解決現(xiàn)實世界的問題的。在這個方面嗤军,我印象比較深刻的還是我在西安交通大學(xué)讀研究生的時候注盈,沈向洋博士2001年在西安交大做報告提到的一個觀點:最好的研究員發(fā)現(xiàn)新問題;好的研究員創(chuàng)造新方法解好問題叙赚;一般的研究員跟隨別人的方法解問題——大家在多次這里看到“新”這個關(guān)鍵詞,創(chuàng)新是研究的本質(zhì)僚饭。
有了這些鋪墊震叮,我們首先定義什么是最好的研究。通常認(rèn)為一個領(lǐng)域中對于某一個問題最好的研究工作有三種:第一篇論文 (The First Paper)鳍鸵,最好的一篇論文 (The Best Paper)苇瓣,以及最后一篇論文(The Last Paper)。這第一篇論文的含義是說這篇論文率先提出了一個好的問題和方向偿乖。最好的一篇論文是什么击罪?那一定是開創(chuàng)性地提出了一種解法,啟發(fā)了最終解決這個問題的途徑贪薪。至于最后一篇論文媳禁,那一定是徹底把這個問題解決了,從此以后這個問題不再需要繼續(xù)做進一步的研究画切。
從計算機視覺領(lǐng)域舉一個具體的例子來講竣稽,Harris Corner Detector屬于最早的一批在圖像中檢測角點的論文,可以歸為第一篇之列霍弹。David Lowe博士的SIFT特征檢測和局部描述子毫别,可以歸為在這個方向上最好的論文之列。那么這個方向的最后一篇呢典格? 我認(rèn)為可能還沒有出現(xiàn)岛宦。具體到我自己的研究工作,在局部描述子這個方向上耍缴,我跟我的同事Matthew Brown和Simon Winder在2007年到2009年之間所做的一系列用機器學(xué)習(xí)的方法來建立描述子的工作砾肺,也實際上為提高局部描述子的性能提供了一個新的思路和方法齐佳。
對于我們很多研究員和學(xué)生來講,一輩子可能都做不到這三種最好的研究工作之一债沮。那是不是就等于說你不能做好的研究工作或者根本不用考慮做研究了呢炼吴?肯定不是這樣∫唏茫科學(xué)研究是一個共同體硅蹦。這些最好的研究工作也是在前面很多很多非常扎實(solid)的研究工作的基礎(chǔ)上發(fā)展出來的。因此闷煤,對于年青的研究員和學(xué)生而言童芹,應(yīng)該胸懷大志,去追求做最好的研究工作鲤拿,但從實際執(zhí)行上來講假褪,還是要把一項一項具體的工作先做扎實了。
怎么做到把研究工作做扎實了近顷?首先生音,你必須對你要解的問題有一個全面深刻的了解,包括為什么要解這個問題窒升、解這個問題有什么意義呢缀遍、以前有沒有試圖解決同樣或者類似問題的先例,如果有饱须,你就要全面了解前人都提出了什么樣的解法域醇、他們的解法都有什么樣的優(yōu)勢和缺陷……最后,你的解法解決了前面這些解法不能解決的問題呢蓉媳,或者是你的解法處理了什么樣的他們不能處理的缺陷了譬挚?這些問題的答案如果都有了,那么酪呻,在寫論文的過程中要注意的就是减宣,1)你的假設(shè)是什么?2)你怎么驗證了你的假設(shè)号杠?這個驗證既可以是理論上的證明蚪腋,也可以是實驗的驗證。我們很多學(xué)生和年青的研究員姨蟋,寫論文的時候沒有找到內(nèi)在的邏輯關(guān)系屉凯,很多觀點都是似是而非⊙廴埽或者說重一點悠砚,在論文撰寫方面的訓(xùn)練嚴(yán)重不足。你的研究如果到了寫論文的階段堂飞,那就必須要有明確的觀點提出來灌旧。這個觀點必須明確無誤绑咱,只有這樣你才能被稱為形成了新的知識。你的每一個觀點都必須在理論上或者是實驗中得到驗證枢泰。另外描融,論文的撰寫是為了讓人看懂,不是讓人看不懂衡蚂,所以我們在撰寫過程中必須盡量保證不去假設(shè)讀者已經(jīng)擁有了某些方面的知識窿克。做好了這些,基本上你就有很大的可能性能夠做出扎實(solid)的研究工作毛甲。
然后回到我們討論的主題:
如何做好計算機視覺的研究工作年叮?
其實,要回答這個問題玻募,將我上面講的所有觀點加上“計算機視覺領(lǐng)域”這個限定詞就行了只损。我這兒結(jié)合計算機視覺研究的一些現(xiàn)狀及朱松純老師的一些觀點來進一步談?wù)勎业挠^點。
首先談?wù)勎矣^察到的一些現(xiàn)象七咧。很多年輕的學(xué)生跃惫,現(xiàn)在討論問題的時候都用這樣的談話:我發(fā)現(xiàn)用FC6層的特征,比用FC7層的特征坑雅,在某個圖像數(shù)據(jù)集上比現(xiàn)在最好的算法提高了1.5%的識別精度辈挂,老師我們可以寫論文了(如果大家不能理解這句話,F(xiàn)C6和FC7是表示AlexNet的兩個中間輸出層)裹粤。我想請問,你在這個過程中發(fā)現(xiàn)了什么樣的普適的新的知識嗎蜂林,又或者遥诉,在不是普適的情況下,你在什么限定條件下一定能夠看到這樣的識別精度提高了噪叙?
不錯矮锈,提高識別精度是一個很好的目標(biāo),但要注意睁蕾,計算機視覺的研究是要解決識別的問題苞笨,不是解某一個圖像數(shù)據(jù)集。這些圖像數(shù)據(jù)集提供了很好的驗證你的假設(shè)和方法的手段子眶,但如果你沒有遵循科學(xué)的方法和和手段去設(shè)計你的算法和實驗瀑凝,你也不可能得到一個科學(xué)的結(jié)論,從而也不能產(chǎn)生新的知識臭杰,更不用談對這個領(lǐng)域做出貢獻粤咪。朱松純老師在他的評論中提到,很多學(xué)生認(rèn)為渴杆,計算機視覺現(xiàn)在就是調(diào)深度神經(jīng)網(wǎng)絡(luò)的參數(shù)寥枝,也就是說的這個問題宪塔。
所以,具體到對于剛開始從事計算機視覺研究的學(xué)生來講囊拜,要做好這方面的研究某筐,我覺得第一步還是要系統(tǒng)學(xué)習(xí)一下計算機視覺的課程,全面了解一下計算機視覺這個領(lǐng)域的來龍去脈冠跷、這個領(lǐng)域都有哪些基本的問題南誊、哪些問題已經(jīng)解得比較成熟而哪些問題還在初級階段……這里,推薦所有的學(xué)生學(xué)習(xí)兩本經(jīng)典教材《Computer Vision: A Modern Approach》和《Computer Vision: Algorithms and Applications》蔽莱,可以先讀完第一本再讀第二本弟疆。
只有對這個領(lǐng)域有了一個初步的全面了解,你才能夠找到自己感興趣的那個問題盗冷。在眾多的問題當(dāng)中怠苔,你是希望做三維重建,還是做圖像識別仪糖、物體跟蹤柑司,又或是做計算攝影呢?做研究其實不是一個完全享樂的的過程锅劝,你必須要有足夠的興趣來保證你能持續(xù)地走下去攒驰,這在你感覺自己當(dāng)前研究的思路走不下去的時候尤其具有重要意義。當(dāng)你確定你感興趣的問題故爵,你應(yīng)該首先全面調(diào)研一下這個問題的來龍去脈玻粪。這就意味著你不能只讀過去五年的論文。你可以從過去一年的論文開始诬垂,慢慢追溯回到過去很久的相關(guān)的論文劲室。有些時候,你會驚訝地發(fā)現(xiàn)前人想問題的深度结窘。研究的英文單詞是Research很洋,拆開是Re-Search,用中文直譯就是重新搜索和發(fā)現(xiàn)隧枫,而不是直接發(fā)現(xiàn)喉磁,其實就是說你要首先對這個問題做追本溯源。朱松純老師提到的我們很多學(xué)生現(xiàn)在不讀五年以前的論文官脓,說的也是這個道理协怒。
當(dāng)你做好了這些,你必須鉆進計算視覺的一個小的領(lǐng)域确买。人的精力是有限的斤讥,這就意味著你不可能把很多事情同時做好,所以在你選好方向之后,就要把你的精力集中在你感興趣的一個問題上芭商, 努力成為這個方面的專家派草。研究是一項長跑,很多時候铛楣,你在一個方向上比別人堅持久一點近迁, 你就有機會超越他而成為某個方面的專家。
最后簸州,我也來談?wù)勆疃葘W(xué)習(xí)對計算機視覺的影響鉴竭。在這里,我對馬里蘭大學(xué)Rama Chellapa教授在Tom Huang教授80歲生日論壇上表達的觀點非常認(rèn)可岸浑,他認(rèn)為搏存,深度學(xué)習(xí)網(wǎng)絡(luò)就像一個Pasta Machine:你把該放的東西放進去,它能給你產(chǎn)生好吃的Pasta矢洲。同時它也是一個Equalizer:無論你在計算機視覺領(lǐng)域有40年的經(jīng)驗還是0年的經(jīng)驗璧眠,只要你會用Caffee,你在一些問題读虏,比方說圖像識別上责静,都能產(chǎn)生差不多的結(jié)果。他開玩笑說這有點傷自尊 (It hurts my ego!)盖桥,但我們還是應(yīng)該把它作為一個好的工具擁抱它灾螃。我想,他的言外之意揩徊,是我們的研究應(yīng)該做得更深腰鬼,要去理解這個工具為什么能夠工作得比較好,從而產(chǎn)生新的知識去指導(dǎo)將來的研究和應(yīng)用塑荒。
我認(rèn)為垃喊,對于年輕的學(xué)生來講,從深度學(xué)習(xí)的方法開始學(xué)習(xí)沒有什么問題袜炕,但必須要進一步去了解一下其他的數(shù)學(xué)和算法工具,像統(tǒng)計貝葉斯的方法初家、優(yōu)化的方法偎窘、信號處理的方法等等等的。計算機視覺的問題溜在,其本質(zhì)是不適定的反問題陌知,解這一類問題需要多種方法的結(jié)合。這里面有深度學(xué)習(xí)解得比較好的問題掖肋,像圖像識別仆葡,也有深度學(xué)習(xí)解不了的問題,像三維重建和識別。
任何研究領(lǐng)域包括計算機視覺的研究沿盅,對處在研究初期的學(xué)生而言把篓, 更重要的是掌握足夠的數(shù)學(xué)工具,培養(yǎng)一種正式思維(Formal Thinking)的能力腰涧,這樣韧掩,遇到實際的問題就能以一種理論上正確的思路去解決這個問題。
作為結(jié)束語窖铡,我想對在從事或者有志于從事計算機視覺研究的學(xué)生說疗锐,計算機視覺的研究處在一個非常好的時期,有很多我們原來解不了的問題現(xiàn)在能夠解得比較好了费彼,像人臉識別滑臊,盡管我們其實還沒有從真正意義上達到人類視覺系統(tǒng)對人臉識別的魯棒程度。但我們離真正讓計算機能夠像人看和感知這個世界還有很遠的距離箍铲。在我們達到這個目標(biāo)之前雇卷,深度學(xué)習(xí)的方法可能是這個過程中一個重要的墊腳石,同時我們還要將更多的新的方法和工具帶入這個領(lǐng)域來進一步推動這個領(lǐng)域的發(fā)展虹钮。
作者簡介
華剛博士是微軟亞洲研究院資深研究員聋庵,現(xiàn)任微軟亞洲研究院計算視覺組負(fù)責(zé)人。他的研究重點是計算機視覺芙粱、模式識別祭玉、機器學(xué)習(xí)、人工智能和機器人春畔,以及相關(guān)技術(shù)在云和移動智能領(lǐng)域的創(chuàng)新應(yīng)用脱货。他因在圖像和視頻中無限制環(huán)境人臉識別研究做出的突出貢獻,于2015年被國際模式識別聯(lián)合會(International Association on Pattern Recognition)授予”生物特征識別杰出青年研究員”獎勵律姨,因其在計算機視覺和多媒體研究方面的杰出貢獻振峻,于2016年被遴選為國際模式識別聯(lián)合會院士(IAPR Fellow)和國際計算機聯(lián)合會杰出科學(xué)家(ACM Distinguished Scientist) 。择份。華剛博士已在國際頂級會議和期刊上發(fā)表了120多篇同行評審論文扣孟。他將擔(dān)任2019國際模式識別和計算機視覺大會 (CVPR 2019)的程序主席,以及CVPR 2017和ACM MM 2017的領(lǐng)域主席荣赶。
此前華剛博士曾擔(dān)任CVPR 2014凤价、ICCV 2011、ACM MM 2011/ 2012/ 2015拔创、ICIP 2012/2013/2015/2016利诺、ICASSP 2012/ 2013等十多個頂級國際會議的領(lǐng)域主席,以及IEEE Trans. on Image Processing(2010-2014)編委剩燥。目前慢逾,華剛博士還擔(dān)任著IEEE Trans. on Image Processing、IEEE Trans. on Circuits Systems and Video Technologies、IEEE Multimedia侣滩、CVIU口注、MVA和VCJ的編委。