[譯] Are ML and Statistics Complementary?

Neil Zhu晤揣,簡書ID Not_GOD,University AI 創(chuàng)始人 & Chief Scientist朱灿,致力于推進(jìn)世界人工智能化進(jìn)程昧识。制定并實施 UAI 中長期增長戰(zhàn)略和目標(biāo),帶領(lǐng)團(tuán)隊快速成長為人工智能領(lǐng)域最專業(yè)的力量盗扒。
作為行業(yè)領(lǐng)導(dǎo)者跪楞,他和UAI一起在2014年創(chuàng)建了TASA(中國最早的人工智能社團(tuán)), DL Center(深度學(xué)習(xí)知識中心全球價值網(wǎng)絡(luò)),AI growth(行業(yè)智庫培訓(xùn))等侣灶,為中國的人工智能人才建設(shè)輸送了大量的血液和養(yǎng)分甸祭。此外,他還參與或者舉辦過各類國際性的人工智能峰會和活動褥影,產(chǎn)生了巨大的影響力池户,書寫了60萬字的人工智能精品技術(shù)內(nèi)容,生產(chǎn)翻譯了全球第一本深度學(xué)習(xí)入門書《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》凡怎,生產(chǎn)的內(nèi)容被大量的專業(yè)垂直公眾號和媒體轉(zhuǎn)載與連載校焦。曾經(jīng)受邀為國內(nèi)頂尖大學(xué)制定人工智能學(xué)習(xí)規(guī)劃和教授人工智能前沿課程,均受學(xué)生和老師好評统倒。

Roundtable discussion at the 6th IMS--ISBA meeting on “Data Science in the next 50 years”
Max Welling, University of Amsterdam
December 28, 2015

原文

有人曾經(jīng)讓我給出一些關(guān)于“未來 50 年的數(shù)據(jù)科學(xué)”話題的看法斟湃,特別是機(jī)器學(xué)習(xí)和統(tǒng)計學(xué)之間的關(guān)系。機(jī)器學(xué)習(xí)檐薯,相比統(tǒng)計學(xué)是一門更加年輕的學(xué)科凝赛。前者構(gòu)建在統(tǒng)計學(xué)的基礎(chǔ)之上注暗,在若干年的發(fā)展過程也吸收了大量的統(tǒng)計學(xué)的哲學(xué)思想和眾多的技術(shù)。例如墓猎,在機(jī)器學(xué)習(xí)中捆昏,我們幾乎都在跟隨 極大似然估計 或者 Bayesian 規(guī)則來進(jìn)行估計,然后用 EM 方法來處理隱含變量毙沾。同樣骗卜,機(jī)器學(xué)習(xí)前面一次熱潮(在深度學(xué)習(xí)前面那次)就是關(guān)于無參貝葉斯方法,其實就是統(tǒng)計學(xué)的核心領(lǐng)域左胞。同時寇仓,這兩者之間也存在文化上的差異:統(tǒng)計學(xué)更加聚焦在統(tǒng)計推斷上,也就是說通過隨機(jī)樣本來對總體的屬性進(jìn)行解釋和測試烤宙,而機(jī)器學(xué)習(xí)則是更加關(guān)心預(yù)測遍烦,甚至預(yù)測的機(jī)制無法真正解釋清楚(所謂的黑盒預(yù)測)。

在今天看到的往深度學(xué)習(xí)的偏移的范式給出了關(guān)于機(jī)器學(xué)習(xí)和統(tǒng)計學(xué)之間的文化鴻溝的一個優(yōu)雅的描述躺枕。在圖模型和無參數(shù)方法成為主要工具服猪,而如 EMMCMC 學(xué)習(xí)推斷方法占據(jù)主要地位期間,兩個學(xué)科進(jìn)行了十多年的融合拐云。

深度學(xué)習(xí)的成功可以用三個因素來解釋:

  1. 規(guī)陌罩恚化計算(例如,使用 GPU)
  2. 收集和處理海量數(shù)據(jù)
  3. 使用海量參數(shù)的模型叉瘩,即使他們無法識別和解釋

由于他們的關(guān)于計算機(jī)科學(xué)(非數(shù)學(xué))的教育膳帕,因素 1 和 2 成為了機(jī)器學(xué)習(xí)專家們的第二天性。因素 3 是 1 和 2 的結(jié)果薇缅,也是一種對準(zhǔn)確預(yù)測結(jié)果而非統(tǒng)計推斷的重視危彩。深度學(xué)習(xí)的范式越來越多地成為:搜集海量數(shù)據(jù),確定需要優(yōu)化的代價函數(shù)捅暴,設(shè)計一個神經(jīng)網(wǎng)絡(luò)使得梯度可以“end-to-end”傳播恬砂,最后應(yīng)用某種隨機(jī)梯度下降的版本來最小化代價函數(shù)直到結(jié)束。不管你喜不喜歡蓬痒,這個令人吃驚的效果就是在預(yù)測的這個場景下還沒有出現(xiàn)能夠戰(zhàn)勝這個范式的方法泻骤。

在圖模型流行的十年后,鐘擺似乎已經(jīng)從統(tǒng)計理論擺到了計算方面梧奢。對于數(shù)十億的神經(jīng)網(wǎng)絡(luò)參數(shù)的解釋好像也沒有什么希望狱掂。甚至?xí)磺樵溉Y(jié)果進(jìn)行某種校準(zhǔn)的工作,來嘗試量化預(yù)測的不確定性亲轨。

不過趋惨,我猜測這兩個學(xué)科其實不會分開。他們代表了數(shù)據(jù)科學(xué)的兩個關(guān)鍵部分惦蚊,肯定是會長期整合在一起發(fā)展的器虾。(并且讯嫂,如果我們不刻意去區(qū)分這兩個學(xué)科成不同的院系,可能會更有幫助兆沙。)對統(tǒng)計學(xué)家欧芽,我想說的是:如今再去小瞧可供分析的海量數(shù)據(jù)就很不妥了(實際上很多統(tǒng)計學(xué)家都是這樣的)。分析海量數(shù)據(jù)葛圃,我們需要關(guān)系存儲和分布式計算千扔。我們常常聽到統(tǒng)計學(xué)系里面的研究者在抱怨他們學(xué)生的編程能力。所以將計算機(jī)科學(xué)的課程安插到統(tǒng)計學(xué)的課程設(shè)計中是很合理的選擇库正。還有那些復(fù)雜的黑盒預(yù)測模型呢曲楚?實際上這取決于問題本身,但是在假設(shè)真實世界就是無限復(fù)雜的前提下褥符,模型的復(fù)雜性應(yīng)該隨著數(shù)據(jù)的規(guī)模擴(kuò)展其實也就是我們需要付出的代價了龙誊。

一個讓統(tǒng)計學(xué)和計算機(jī)科學(xué)完美結(jié)合的場景就是以模擬為形式的模型。實際上属瓣,這是大多數(shù)科學(xué)學(xué)科表達(dá)關(guān)于一個問題領(lǐng)域(如天氣預(yù)報)的專家知識的方式载迄。所有變量都有清晰的語義解釋讯柔,并且統(tǒng)計學(xué)家的任務(wù)是在這些變量上進(jìn)行推斷抡蛙。不過,這個任務(wù)需要大量的計算資源魂迄,還有關(guān)于在哪些地方使用以及如何使用這些已有的計算資源的細(xì)致考量粗截。這個領(lǐng)域在統(tǒng)計學(xué)中被稱作“近似貝葉斯計算”(Approximate Bayesian Computation)。在機(jī)器學(xué)習(xí)領(lǐng)域捣炬,一個新出現(xiàn)的范式——概率程序設(shè)計熊昌,就是用來解決同樣的推斷任務(wù),同時帶來一種專門的程序設(shè)計語言(比如說湿酸,基于圖模型的)來表達(dá)這些模型婿屹。

一個關(guān)鍵的問題是,統(tǒng)計學(xué)和機(jī)器學(xué)習(xí)會不會在深度學(xué)習(xí)這個領(lǐng)域進(jìn)行融合呢推溃?換言之昂利,統(tǒng)計學(xué)家會不會采用嚴(yán)重依賴計算的深度學(xué)習(xí)范式,而機(jī)器學(xué)習(xí)專家采用某些統(tǒng)計工具來豐富已有的領(lǐng)域呢铁坎?我認(rèn)為會蜂奸,我來說一下原因。盡管現(xiàn)在對某些特定的應(yīng)用簡單的預(yù)測方法就足夠了硬萍,但是還有很多情景中不是這樣的扩所。例如在網(wǎng)頁上預(yù)測如何投放廣告。理論上講朴乖,僅僅通過作出準(zhǔn)確的預(yù)測祖屏,就可以獲得回報助赞。不過,確定那些導(dǎo)致某些結(jié)果的因素(這其實是一種統(tǒng)計推斷的形式)會給出洞察并幫助設(shè)計出對不同的場景更加健壯的預(yù)測工具袁勺。還有嫉拐,對校準(zhǔn)的不確定性估計的采用將會幫助我們確定預(yù)測需要的是基于 covariates (基于內(nèi)容的過濾)還是 用戶點擊行為(協(xié)同過濾)。另外魁兼,這還能夠幫助平衡利用(提供我們知道用戶會喜歡的廣告)和探索(提供我們能夠?qū)W習(xí)關(guān)于用戶的某些知識的廣告)婉徘。

更加一般地說,我們在真實場景中采用預(yù)測工具時候——比如說咐汞,讓他們和人類進(jìn)行交互盖呼,基于這些預(yù)測工具來產(chǎn)生決策——需要統(tǒng)計工具(例如,因果推理化撕,校準(zhǔn) error-bars)几晤。打個比方,內(nèi)科醫(yī)生想要理解為何一個算法認(rèn)為這個病人會發(fā)展出 Alzheimer 疾病植阴,他/她還想知道到這個預(yù)測結(jié)果正確的概率是多少蟹瘾。同樣,自動駕駛汽車需要知道什么時候難以掌握當(dāng)前的道路狀況能夠準(zhǔn)確地把汽車控制權(quán)交還給人類司機(jī)掠手。因此憾朴,對很多的應(yīng)用,為了成功地和人類進(jìn)行交互喷鸽,機(jī)器需要對人類解釋它們的推理(包含一些量化的置信度)众雷。

最后,機(jī)器學(xué)習(xí)專家更加傾向于對建模的應(yīng)用方法論方面的專注做祝。(盡管在機(jī)器學(xué)習(xí)理論中的確有一整個子領(lǐng)域在處理理論問題)砾省。所以,會有很多已被承認(rèn)的方法事實上只有有限的理論基礎(chǔ)混槐,或者說编兄,理論性質(zhì)并沒有得到深入的研究。例如声登,在很多研究者在使用或者發(fā)展半監(jiān)督學(xué)習(xí)方法時狠鸳,并不很清楚他們工作基于什么條件進(jìn)行的。所以這個方面捌刮,其實統(tǒng)計學(xué)家能夠給機(jī)器學(xué)習(xí)帶來更多的理論上的貢獻(xiàn)碰煌。

在數(shù)據(jù)科學(xué)領(lǐng)域中其實還有很多令人好奇的關(guān)于統(tǒng)計學(xué)和機(jī)器學(xué)習(xí)交叉的問題,例如:

  1. 公平?jīng)Q策制定
  2. 數(shù)據(jù)的偏差清除
  3. 隱私保護(hù)預(yù)測
  4. 因果性中關(guān)聯(lián)的明晰化
  5. 可靠的高維度空間中的統(tǒng)計過程
    ...

我希望绅作,這兩個學(xué)科能夠不斷認(rèn)識到自身工具間的互補(bǔ)性芦圾,然后在未來的研究中能夠產(chǎn)生更多合作的成果。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末俄认,一起剝皮案震驚了整個濱河市个少,隨后出現(xiàn)的幾起案子洪乍,更是在濱河造成了極大的恐慌,老刑警劉巖夜焦,帶你破解...
    沈念sama閱讀 217,826評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件壳澳,死亡現(xiàn)場離奇詭異,居然都是意外死亡茫经,警方通過查閱死者的電腦和手機(jī)巷波,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,968評論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來卸伞,“玉大人抹镊,你說我怎么就攤上這事』绨粒” “怎么了垮耳?”我有些...
    開封第一講書人閱讀 164,234評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長遂黍。 經(jīng)常有香客問我终佛,道長,這世上最難降的妖魔是什么雾家? 我笑而不...
    開封第一講書人閱讀 58,562評論 1 293
  • 正文 為了忘掉前任铃彰,我火速辦了婚禮,結(jié)果婚禮上榜贴,老公的妹妹穿的比我還像新娘豌研。我一直安慰自己妹田,他們只是感情好唬党,可當(dāng)我...
    茶點故事閱讀 67,611評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著鬼佣,像睡著了一般驶拱。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上晶衷,一...
    開封第一講書人閱讀 51,482評論 1 302
  • 那天蓝纲,我揣著相機(jī)與錄音,去河邊找鬼晌纫。 笑死税迷,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的锹漱。 我是一名探鬼主播箭养,決...
    沈念sama閱讀 40,271評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼哥牍!你這毒婦竟也來了毕泌?” 一聲冷哼從身側(cè)響起喝检,我...
    開封第一講書人閱讀 39,166評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎撼泛,沒想到半個月后挠说,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,608評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡愿题,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,814評論 3 336
  • 正文 我和宋清朗相戀三年损俭,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片潘酗。...
    茶點故事閱讀 39,926評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡撩炊,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出崎脉,到底是詐尸還是另有隱情拧咳,我是刑警寧澤,帶...
    沈念sama閱讀 35,644評論 5 346
  • 正文 年R本政府宣布囚灼,位于F島的核電站骆膝,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏灶体。R本人自食惡果不足惜阅签,卻給世界環(huán)境...
    茶點故事閱讀 41,249評論 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望蝎抽。 院中可真熱鬧政钟,春花似錦、人聲如沸樟结。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,866評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽瓢宦。三九已至碎连,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間驮履,已是汗流浹背鱼辙。 一陣腳步聲響...
    開封第一講書人閱讀 32,991評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留玫镐,地道東北人倒戏。 一個月前我還...
    沈念sama閱讀 48,063評論 3 370
  • 正文 我出身青樓,卻偏偏與公主長得像恐似,于是被迫代替她去往敵國和親杜跷。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,871評論 2 354

推薦閱讀更多精彩內(nèi)容