Neil Zhu晤揣,簡書ID Not_GOD,University AI 創(chuàng)始人 & Chief Scientist朱灿,致力于推進(jìn)世界人工智能化進(jìn)程昧识。制定并實施 UAI 中長期增長戰(zhàn)略和目標(biāo),帶領(lǐng)團(tuán)隊快速成長為人工智能領(lǐng)域最專業(yè)的力量盗扒。
作為行業(yè)領(lǐng)導(dǎo)者跪楞,他和UAI一起在2014年創(chuàng)建了TASA(中國最早的人工智能社團(tuán)), DL Center(深度學(xué)習(xí)知識中心全球價值網(wǎng)絡(luò)),AI growth(行業(yè)智庫培訓(xùn))等侣灶,為中國的人工智能人才建設(shè)輸送了大量的血液和養(yǎng)分甸祭。此外,他還參與或者舉辦過各類國際性的人工智能峰會和活動褥影,產(chǎn)生了巨大的影響力池户,書寫了60萬字的人工智能精品技術(shù)內(nèi)容,生產(chǎn)翻譯了全球第一本深度學(xué)習(xí)入門書《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》凡怎,生產(chǎn)的內(nèi)容被大量的專業(yè)垂直公眾號和媒體轉(zhuǎn)載與連載校焦。曾經(jīng)受邀為國內(nèi)頂尖大學(xué)制定人工智能學(xué)習(xí)規(guī)劃和教授人工智能前沿課程,均受學(xué)生和老師好評统倒。
Roundtable discussion at the 6th IMS--ISBA meeting on “Data Science in the next 50 years”
Max Welling, University of Amsterdam
December 28, 2015
原文
有人曾經(jīng)讓我給出一些關(guān)于“未來 50 年的數(shù)據(jù)科學(xué)”話題的看法斟湃,特別是機(jī)器學(xué)習(xí)和統(tǒng)計學(xué)之間的關(guān)系。機(jī)器學(xué)習(xí)檐薯,相比統(tǒng)計學(xué)是一門更加年輕的學(xué)科凝赛。前者構(gòu)建在統(tǒng)計學(xué)的基礎(chǔ)之上注暗,在若干年的發(fā)展過程也吸收了大量的統(tǒng)計學(xué)的哲學(xué)思想和眾多的技術(shù)。例如墓猎,在機(jī)器學(xué)習(xí)中捆昏,我們幾乎都在跟隨 極大似然估計 或者 Bayesian 規(guī)則來進(jìn)行估計,然后用 EM 方法來處理隱含變量毙沾。同樣骗卜,機(jī)器學(xué)習(xí)前面一次熱潮(在深度學(xué)習(xí)前面那次)就是關(guān)于無參貝葉斯方法,其實就是統(tǒng)計學(xué)的核心領(lǐng)域左胞。同時寇仓,這兩者之間也存在文化上的差異:統(tǒng)計學(xué)更加聚焦在統(tǒng)計推斷上,也就是說通過隨機(jī)樣本來對總體的屬性進(jìn)行解釋和測試烤宙,而機(jī)器學(xué)習(xí)則是更加關(guān)心預(yù)測遍烦,甚至預(yù)測的機(jī)制無法真正解釋清楚(所謂的黑盒預(yù)測)。
在今天看到的往深度學(xué)習(xí)的偏移的范式給出了關(guān)于機(jī)器學(xué)習(xí)和統(tǒng)計學(xué)之間的文化鴻溝的一個優(yōu)雅的描述躺枕。在圖模型和無參數(shù)方法成為主要工具服猪,而如 EM 和 MCMC 學(xué)習(xí)推斷方法占據(jù)主要地位期間,兩個學(xué)科進(jìn)行了十多年的融合拐云。
深度學(xué)習(xí)的成功可以用三個因素來解釋:
- 規(guī)陌罩恚化計算(例如,使用 GPU)
- 收集和處理海量數(shù)據(jù)
- 使用海量參數(shù)的模型叉瘩,即使他們無法識別和解釋
由于他們的關(guān)于計算機(jī)科學(xué)(非數(shù)學(xué))的教育膳帕,因素 1 和 2 成為了機(jī)器學(xué)習(xí)專家們的第二天性。因素 3 是 1 和 2 的結(jié)果薇缅,也是一種對準(zhǔn)確預(yù)測結(jié)果而非統(tǒng)計推斷的重視危彩。深度學(xué)習(xí)的范式越來越多地成為:搜集海量數(shù)據(jù),確定需要優(yōu)化的代價函數(shù)捅暴,設(shè)計一個神經(jīng)網(wǎng)絡(luò)使得梯度可以“end-to-end”傳播恬砂,最后應(yīng)用某種隨機(jī)梯度下降的版本來最小化代價函數(shù)直到結(jié)束。不管你喜不喜歡蓬痒,這個令人吃驚的效果就是在預(yù)測的這個場景下還沒有出現(xiàn)能夠戰(zhàn)勝這個范式的方法泻骤。
在圖模型流行的十年后,鐘擺似乎已經(jīng)從統(tǒng)計理論擺到了計算方面梧奢。對于數(shù)十億的神經(jīng)網(wǎng)絡(luò)參數(shù)的解釋好像也沒有什么希望狱掂。甚至?xí)磺樵溉Y(jié)果進(jìn)行某種校準(zhǔn)的工作,來嘗試量化預(yù)測的不確定性亲轨。
不過趋惨,我猜測這兩個學(xué)科其實不會分開。他們代表了數(shù)據(jù)科學(xué)的兩個關(guān)鍵部分惦蚊,肯定是會長期整合在一起發(fā)展的器虾。(并且讯嫂,如果我們不刻意去區(qū)分這兩個學(xué)科成不同的院系,可能會更有幫助兆沙。)對統(tǒng)計學(xué)家欧芽,我想說的是:如今再去小瞧可供分析的海量數(shù)據(jù)就很不妥了(實際上很多統(tǒng)計學(xué)家都是這樣的)。分析海量數(shù)據(jù)葛圃,我們需要關(guān)系存儲和分布式計算千扔。我們常常聽到統(tǒng)計學(xué)系里面的研究者在抱怨他們學(xué)生的編程能力。所以將計算機(jī)科學(xué)的課程安插到統(tǒng)計學(xué)的課程設(shè)計中是很合理的選擇库正。還有那些復(fù)雜的黑盒預(yù)測模型呢曲楚?實際上這取決于問題本身,但是在假設(shè)真實世界就是無限復(fù)雜的前提下褥符,模型的復(fù)雜性應(yīng)該隨著數(shù)據(jù)的規(guī)模擴(kuò)展其實也就是我們需要付出的代價了龙誊。
一個讓統(tǒng)計學(xué)和計算機(jī)科學(xué)完美結(jié)合的場景就是以模擬為形式的模型。實際上属瓣,這是大多數(shù)科學(xué)學(xué)科表達(dá)關(guān)于一個問題領(lǐng)域(如天氣預(yù)報)的專家知識的方式载迄。所有變量都有清晰的語義解釋讯柔,并且統(tǒng)計學(xué)家的任務(wù)是在這些變量上進(jìn)行推斷抡蛙。不過,這個任務(wù)需要大量的計算資源魂迄,還有關(guān)于在哪些地方使用以及如何使用這些已有的計算資源的細(xì)致考量粗截。這個領(lǐng)域在統(tǒng)計學(xué)中被稱作“近似貝葉斯計算”(Approximate Bayesian Computation)。在機(jī)器學(xué)習(xí)領(lǐng)域捣炬,一個新出現(xiàn)的范式——概率程序設(shè)計熊昌,就是用來解決同樣的推斷任務(wù),同時帶來一種專門的程序設(shè)計語言(比如說湿酸,基于圖模型的)來表達(dá)這些模型婿屹。
一個關(guān)鍵的問題是,統(tǒng)計學(xué)和機(jī)器學(xué)習(xí)會不會在深度學(xué)習(xí)這個領(lǐng)域進(jìn)行融合呢推溃?換言之昂利,統(tǒng)計學(xué)家會不會采用嚴(yán)重依賴計算的深度學(xué)習(xí)范式,而機(jī)器學(xué)習(xí)專家采用某些統(tǒng)計工具來豐富已有的領(lǐng)域呢铁坎?我認(rèn)為會蜂奸,我來說一下原因。盡管現(xiàn)在對某些特定的應(yīng)用簡單的預(yù)測方法就足夠了硬萍,但是還有很多情景中不是這樣的扩所。例如在網(wǎng)頁上預(yù)測如何投放廣告。理論上講朴乖,僅僅通過作出準(zhǔn)確的預(yù)測祖屏,就可以獲得回報助赞。不過,確定那些導(dǎo)致某些結(jié)果的因素(這其實是一種統(tǒng)計推斷的形式)會給出洞察并幫助設(shè)計出對不同的場景更加健壯的預(yù)測工具袁勺。還有嫉拐,對校準(zhǔn)的不確定性估計的采用將會幫助我們確定預(yù)測需要的是基于 covariates (基于內(nèi)容的過濾)還是 用戶點擊行為(協(xié)同過濾)。另外魁兼,這還能夠幫助平衡利用(提供我們知道用戶會喜歡的廣告)和探索(提供我們能夠?qū)W習(xí)關(guān)于用戶的某些知識的廣告)婉徘。
更加一般地說,我們在真實場景中采用預(yù)測工具時候——比如說咐汞,讓他們和人類進(jìn)行交互盖呼,基于這些預(yù)測工具來產(chǎn)生決策——需要統(tǒng)計工具(例如,因果推理化撕,校準(zhǔn) error-bars)几晤。打個比方,內(nèi)科醫(yī)生想要理解為何一個算法認(rèn)為這個病人會發(fā)展出 Alzheimer 疾病植阴,他/她還想知道到這個預(yù)測結(jié)果正確的概率是多少蟹瘾。同樣,自動駕駛汽車需要知道什么時候難以掌握當(dāng)前的道路狀況能夠準(zhǔn)確地把汽車控制權(quán)交還給人類司機(jī)掠手。因此憾朴,對很多的應(yīng)用,為了成功地和人類進(jìn)行交互喷鸽,機(jī)器需要對人類解釋它們的推理(包含一些量化的置信度)众雷。
最后,機(jī)器學(xué)習(xí)專家更加傾向于對建模的應(yīng)用方法論方面的專注做祝。(盡管在機(jī)器學(xué)習(xí)理論中的確有一整個子領(lǐng)域在處理理論問題)砾省。所以,會有很多已被承認(rèn)的方法事實上只有有限的理論基礎(chǔ)混槐,或者說编兄,理論性質(zhì)并沒有得到深入的研究。例如声登,在很多研究者在使用或者發(fā)展半監(jiān)督學(xué)習(xí)方法時狠鸳,并不很清楚他們工作基于什么條件進(jìn)行的。所以這個方面捌刮,其實統(tǒng)計學(xué)家能夠給機(jī)器學(xué)習(xí)帶來更多的理論上的貢獻(xiàn)碰煌。
在數(shù)據(jù)科學(xué)領(lǐng)域中其實還有很多令人好奇的關(guān)于統(tǒng)計學(xué)和機(jī)器學(xué)習(xí)交叉的問題,例如:
- 公平?jīng)Q策制定
- 數(shù)據(jù)的偏差清除
- 隱私保護(hù)預(yù)測
- 因果性中關(guān)聯(lián)的明晰化
- 可靠的高維度空間中的統(tǒng)計過程
...
我希望绅作,這兩個學(xué)科能夠不斷認(rèn)識到自身工具間的互補(bǔ)性芦圾,然后在未來的研究中能夠產(chǎn)生更多合作的成果。