[譯] Are ML and Statistics Complementary?

Neil Zhu晤揣，簡書ID Not_GOD，University AI 創(chuàng)始人 & Chief Scientist朱灿，致力于推進(jìn)世界人工智能化進(jìn)程昧识。制定并實施 UAI 中長期增長戰(zhàn)略和目標(biāo)，帶領(lǐng)團(tuán)隊快速成長為人工智能領(lǐng)域最專業(yè)的力量盗扒。
作為行業(yè)領(lǐng)導(dǎo)者跪楞，他和UAI一起在2014年創(chuàng)建了TASA（中國最早的人工智能社團(tuán)）, DL Center（深度學(xué)習(xí)知識中心全球價值網(wǎng)絡(luò)），AI growth（行業(yè)智庫培訓(xùn)）等侣灶，為中國的人工智能人才建設(shè)輸送了大量的血液和養(yǎng)分甸祭。此外，他還參與或者舉辦過各類國際性的人工智能峰會和活動褥影，產(chǎn)生了巨大的影響力池户，書寫了60萬字的人工智能精品技術(shù)內(nèi)容，生產(chǎn)翻譯了全球第一本深度學(xué)習(xí)入門書《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》凡怎，生產(chǎn)的內(nèi)容被大量的專業(yè)垂直公眾號和媒體轉(zhuǎn)載與連載校焦。曾經(jīng)受邀為國內(nèi)頂尖大學(xué)制定人工智能學(xué)習(xí)規(guī)劃和教授人工智能前沿課程，均受學(xué)生和老師好評统倒。

Roundtable discussion at the 6th IMS--ISBA meeting on “Data Science in the next 50 years”
Max Welling, University of Amsterdam
December 28, 2015

原文

有人曾經(jīng)讓我給出一些關(guān)于“未來 50 年的數(shù)據(jù)科學(xué)”話題的看法斟湃，特別是機(jī)器學(xué)習(xí)和統(tǒng)計學(xué)之間的關(guān)系。機(jī)器學(xué)習(xí)檐薯，相比統(tǒng)計學(xué)是一門更加年輕的學(xué)科凝赛。前者構(gòu)建在統(tǒng)計學(xué)的基礎(chǔ)之上注暗，在若干年的發(fā)展過程也吸收了大量的統(tǒng)計學(xué)的哲學(xué)思想和眾多的技術(shù)。例如墓猎，在機(jī)器學(xué)習(xí)中捆昏，我們幾乎都在跟隨 極大似然估計 或者 Bayesian 規(guī)則來進(jìn)行估計，然后用 EM 方法來處理隱含變量毙沾。同樣骗卜，機(jī)器學(xué)習(xí)前面一次熱潮（在深度學(xué)習(xí)前面那次）就是關(guān)于無參貝葉斯方法，其實就是統(tǒng)計學(xué)的核心領(lǐng)域左胞。同時寇仓，這兩者之間也存在文化上的差異：統(tǒng)計學(xué)更加聚焦在統(tǒng)計推斷上，也就是說通過隨機(jī)樣本來對總體的屬性進(jìn)行解釋和測試烤宙，而機(jī)器學(xué)習(xí)則是更加關(guān)心預(yù)測遍烦，甚至預(yù)測的機(jī)制無法真正解釋清楚（所謂的黑盒預(yù)測）。

在今天看到的往深度學(xué)習(xí)的偏移的范式給出了關(guān)于機(jī)器學(xué)習(xí)和統(tǒng)計學(xué)之間的文化鴻溝的一個優(yōu)雅的描述躺枕。在圖模型和無參數(shù)方法成為主要工具服猪，而如 EM 和 MCMC 學(xué)習(xí)推斷方法占據(jù)主要地位期間，兩個學(xué)科進(jìn)行了十多年的融合拐云。

深度學(xué)習(xí)的成功可以用三個因素來解釋：

規(guī)陌罩恚化計算（例如，使用 GPU）
收集和處理海量數(shù)據(jù)
使用海量參數(shù)的模型叉瘩，即使他們無法識別和解釋

由于他們的關(guān)于計算機(jī)科學(xué)（非數(shù)學(xué)）的教育膳帕，因素 1 和 2 成為了機(jī)器學(xué)習(xí)專家們的第二天性。因素 3 是 1 和 2 的結(jié)果薇缅，也是一種對準(zhǔn)確預(yù)測結(jié)果而非統(tǒng)計推斷的重視危彩。深度學(xué)習(xí)的范式越來越多地成為：搜集海量數(shù)據(jù)，確定需要優(yōu)化的代價函數(shù)捅暴，設(shè)計一個神經(jīng)網(wǎng)絡(luò)使得梯度可以“end-to-end”傳播恬砂，最后應(yīng)用某種隨機(jī)梯度下降的版本來最小化代價函數(shù)直到結(jié)束。不管你喜不喜歡蓬痒，這個令人吃驚的效果就是在預(yù)測的這個場景下還沒有出現(xiàn)能夠戰(zhàn)勝這個范式的方法泻骤。

在圖模型流行的十年后，鐘擺似乎已經(jīng)從統(tǒng)計理論擺到了計算方面梧奢。對于數(shù)十億的神經(jīng)網(wǎng)絡(luò)參數(shù)的解釋好像也沒有什么希望狱掂。甚至?xí)磺樵溉Y(jié)果進(jìn)行某種校準(zhǔn)的工作，來嘗試量化預(yù)測的不確定性亲轨。

不過趋惨，我猜測這兩個學(xué)科其實不會分開。他們代表了數(shù)據(jù)科學(xué)的兩個關(guān)鍵部分惦蚊，肯定是會長期整合在一起發(fā)展的器虾。（并且讯嫂，如果我們不刻意去區(qū)分這兩個學(xué)科成不同的院系，可能會更有幫助兆沙。）對統(tǒng)計學(xué)家欧芽，我想說的是：如今再去小瞧可供分析的海量數(shù)據(jù)就很不妥了（實際上很多統(tǒng)計學(xué)家都是這樣的）。分析海量數(shù)據(jù)葛圃，我們需要關(guān)系存儲和分布式計算千扔。我們常常聽到統(tǒng)計學(xué)系里面的研究者在抱怨他們學(xué)生的編程能力。所以將計算機(jī)科學(xué)的課程安插到統(tǒng)計學(xué)的課程設(shè)計中是很合理的選擇库正。還有那些復(fù)雜的黑盒預(yù)測模型呢曲楚？實際上這取決于問題本身，但是在假設(shè)真實世界就是無限復(fù)雜的前提下褥符，模型的復(fù)雜性應(yīng)該隨著數(shù)據(jù)的規(guī)模擴(kuò)展其實也就是我們需要付出的代價了龙誊。

一個讓統(tǒng)計學(xué)和計算機(jī)科學(xué)完美結(jié)合的場景就是以模擬為形式的模型。實際上属瓣，這是大多數(shù)科學(xué)學(xué)科表達(dá)關(guān)于一個問題領(lǐng)域（如天氣預(yù)報）的專家知識的方式载迄。所有變量都有清晰的語義解釋讯柔，并且統(tǒng)計學(xué)家的任務(wù)是在這些變量上進(jìn)行推斷抡蛙。不過，這個任務(wù)需要大量的計算資源魂迄，還有關(guān)于在哪些地方使用以及如何使用這些已有的計算資源的細(xì)致考量粗截。這個領(lǐng)域在統(tǒng)計學(xué)中被稱作“近似貝葉斯計算”（Approximate Bayesian Computation）。在機(jī)器學(xué)習(xí)領(lǐng)域捣炬，一個新出現(xiàn)的范式——概率程序設(shè)計熊昌，就是用來解決同樣的推斷任務(wù)，同時帶來一種專門的程序設(shè)計語言（比如說湿酸，基于圖模型的）來表達(dá)這些模型婿屹。

一個關(guān)鍵的問題是，統(tǒng)計學(xué)和機(jī)器學(xué)習(xí)會不會在深度學(xué)習(xí)這個領(lǐng)域進(jìn)行融合呢推溃？換言之昂利，統(tǒng)計學(xué)家會不會采用嚴(yán)重依賴計算的深度學(xué)習(xí)范式，而機(jī)器學(xué)習(xí)專家采用某些統(tǒng)計工具來豐富已有的領(lǐng)域呢铁坎？我認(rèn)為會蜂奸，我來說一下原因。盡管現(xiàn)在對某些特定的應(yīng)用簡單的預(yù)測方法就足夠了硬萍，但是還有很多情景中不是這樣的扩所。例如在網(wǎng)頁上預(yù)測如何投放廣告。理論上講朴乖，僅僅通過作出準(zhǔn)確的預(yù)測祖屏，就可以獲得回報助赞。不過，確定那些導(dǎo)致某些結(jié)果的因素（這其實是一種統(tǒng)計推斷的形式）會給出洞察并幫助設(shè)計出對不同的場景更加健壯的預(yù)測工具袁勺。還有嫉拐，對校準(zhǔn)的不確定性估計的采用將會幫助我們確定預(yù)測需要的是基于 covariates （基于內(nèi)容的過濾）還是用戶點擊行為（協(xié)同過濾）。另外魁兼，這還能夠幫助平衡利用（提供我們知道用戶會喜歡的廣告）和探索（提供我們能夠?qū)W習(xí)關(guān)于用戶的某些知識的廣告）婉徘。

更加一般地說，我們在真實場景中采用預(yù)測工具時候——比如說咐汞，讓他們和人類進(jìn)行交互盖呼，基于這些預(yù)測工具來產(chǎn)生決策——需要統(tǒng)計工具（例如，因果推理化撕，校準(zhǔn) error-bars）几晤。打個比方，內(nèi)科醫(yī)生想要理解為何一個算法認(rèn)為這個病人會發(fā)展出 Alzheimer 疾病植阴，他/她還想知道到這個預(yù)測結(jié)果正確的概率是多少蟹瘾。同樣，自動駕駛汽車需要知道什么時候難以掌握當(dāng)前的道路狀況能夠準(zhǔn)確地把汽車控制權(quán)交還給人類司機(jī)掠手。因此憾朴，對很多的應(yīng)用，為了成功地和人類進(jìn)行交互喷鸽，機(jī)器需要對人類解釋它們的推理（包含一些量化的置信度）众雷。

最后，機(jī)器學(xué)習(xí)專家更加傾向于對建模的應(yīng)用方法論方面的專注做祝。（盡管在機(jī)器學(xué)習(xí)理論中的確有一整個子領(lǐng)域在處理理論問題）砾省。所以，會有很多已被承認(rèn)的方法事實上只有有限的理論基礎(chǔ)混槐，或者說编兄，理論性質(zhì)并沒有得到深入的研究。例如声登，在很多研究者在使用或者發(fā)展半監(jiān)督學(xué)習(xí)方法時狠鸳，并不很清楚他們工作基于什么條件進(jìn)行的。所以這個方面捌刮，其實統(tǒng)計學(xué)家能夠給機(jī)器學(xué)習(xí)帶來更多的理論上的貢獻(xiàn)碰煌。

在數(shù)據(jù)科學(xué)領(lǐng)域中其實還有很多令人好奇的關(guān)于統(tǒng)計學(xué)和機(jī)器學(xué)習(xí)交叉的問題，例如：

公平?jīng)Q策制定
數(shù)據(jù)的偏差清除
隱私保護(hù)預(yù)測
因果性中關(guān)聯(lián)的明晰化
可靠的高維度空間中的統(tǒng)計過程
...

我希望绅作，這兩個學(xué)科能夠不斷認(rèn)識到自身工具間的互補(bǔ)性芦圾，然后在未來的研究中能夠產(chǎn)生更多合作的成果。

最后編輯于：2017.11.27 05:30:46

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末俄认，一起剝皮案震驚了整個濱河市个少，隨后出現(xiàn)的幾起案子洪乍，更是在濱河造成了極大的恐慌，老刑警劉巖夜焦，帶你破解...
沈念sama閱讀 217,826評論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件壳澳，死亡現(xiàn)場離奇詭異，居然都是意外死亡茫经，警方通過查閱死者的電腦和手機(jī)巷波，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,968評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來卸伞，“玉大人抹镊，你說我怎么就攤上這事』绨粒” “怎么了垮耳？”我有些...
開封第一講書人閱讀 164,234評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長遂黍。經(jīng)常有香客問我终佛，道長，這世上最難降的妖魔是什么雾家？我笑而不...
開封第一講書人閱讀 58,562評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任铃彰，我火速辦了婚禮，結(jié)果婚禮上榜贴，老公的妹妹穿的比我還像新娘豌研。我一直安慰自己妹田，他們只是感情好唬党，可當(dāng)我...
茶點故事閱讀 67,611評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著鬼佣，像睡著了一般驶拱。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上晶衷，一...
開封第一講書人閱讀 51,482評論 1贊 302
城市分裂傳說
那天蓝纲，我揣著相機(jī)與錄音，去河邊找鬼晌纫。笑死税迷，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的锹漱。我是一名探鬼主播箭养，決...
沈念sama閱讀 40,271評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼哥牍！你這毒婦竟也來了毕泌？” 一聲冷哼從身側(cè)響起喝检，我...
開封第一講書人閱讀 39,166評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎撼泛，沒想到半個月后挠说，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,608評論 1贊 314
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡愿题，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,814評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年损俭，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片潘酗。...
茶點故事閱讀 39,926評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡撩炊，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出崎脉，到底是詐尸還是另有隱情拧咳，我是刑警寧澤，帶...
沈念sama閱讀 35,644評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布囚灼，位于F島的核電站骆膝，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏灶体。R本人自食惡果不足惜阅签，卻給世界環(huán)境...
茶點故事閱讀 41,249評論 3贊 329
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望蝎抽。院中可真熱鬧政钟，春花似錦、人聲如沸樟结。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,866評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽瓢宦。三九已至碎连，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間驮履，已是汗流浹背鱼辙。一陣腳步聲響...
開封第一講書人閱讀 32,991評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留玫镐，地道東北人倒戏。一個月前我還...
沈念sama閱讀 48,063評論 3贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長得像恐似，于是被迫代替她去往敵國和親杜跷。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 44,871評論 2贊 354

[譯] Are ML and Statistics Complementary?

原文

推薦閱讀更多精彩內(nèi)容