【轉(zhuǎn)】深度學(xué)習(xí)難在哪里荐类?

知乎討論:“Deep Learning 的專家如此急缺,它難在何處蹂随?”

這篇文章是對知乎上大家討論結(jié)果的一個匯總和備忘十嘿。初讀時感覺直擊心扉,讀完后忍不住想把文中的觀點(diǎn)分享給我身邊的每個人岳锁。作為一個入門深度學(xué)習(xí)兩年的研二學(xué)生绩衷,對文中深度學(xué)習(xí)是一門工程性學(xué)科的觀點(diǎn)深表贊同。本文主要作為個人的閱讀記錄所用浸锨,以避免以后想要查看但又找不到時的追悔莫及唇聘。

問題描述

不可否認(rèn),人工神經(jīng)網(wǎng)絡(luò)中有一些思想是很巧妙的柱搜。但正如SVM, Linear Regression, Decision Tree, Boosting Tree一樣迟郎,他們都有各自巧妙的思想,但數(shù)學(xué)并不復(fù)雜聪蘸。通過具象來深入理解其原理和調(diào)參也并不復(fù)雜宪肖。機(jī)器學(xué)習(xí)作為一種計算機(jī)科學(xué)分支表制,其數(shù)學(xué)概念的復(fù)雜度低于統(tǒng)計學(xué)。機(jī)器學(xué)習(xí)用的是比較直觀的想法控乾,有許多trick么介,例如loss function, kernel,activation function蜕衡,back propagation壤短。

  • 那么,機(jī)器學(xué)習(xí)或者深度學(xué)習(xí)慨仿,難點(diǎn)究竟在哪里呢久脯?
    1 是數(shù)學(xué)基礎(chǔ)的嚴(yán)格化?
    2 是代碼結(jié)構(gòu)的優(yōu)化镰吆?
    3 還是在于發(fā)現(xiàn)一些新的trick呢帘撰?
    4 針對具體問題設(shè)計合適的模型,決定合適的參數(shù)万皿?
    5 是否人工神經(jīng)網(wǎng)絡(luò)過于復(fù)雜,難以用傳統(tǒng)手段分析蹬耘,以至于我們還無法把握它工作的核心機(jī)制唤衫?

回答集錦

回答一:深度學(xué)習(xí)本質(zhì)上是工程學(xué)科婆赠,而不是自然學(xué)科绵脯。

上來先亮明我的觀點(diǎn):實(shí)際缺乏的不是Deep Learning的人才,而是可以實(shí)際解決問題的人才赃承。而實(shí)際可以解決問題的人才不管在什么時代都是稀缺資源。

看題主這問法悴侵,潛意識里的一個概念就是數(shù)學(xué)不難的東西都是小兒科瞧剖。我是一直鮮明反對這樣的觀點(diǎn)的可免。我一貫堅持的哲學(xué)是混哪個圈子請先用心體會這個圈子的研究邏輯,而不是拿著自己的邏輯到處judge捉撮。Deep Learning本質(zhì)上是工程學(xué)科妇垢,而不是自然學(xué)科肉康。這個性質(zhì)天生決定這個圈子的人更加關(guān)注的是解決問題灼舍,或者換句話說如果必須要二選一骑素,理論要為實(shí)踐讓路。這種研究的哲學(xué)和做統(tǒng)計等等看上去很相關(guān)的學(xué)科有著本質(zhì)區(qū)別:一個理論再優(yōu)美献丑,bound證明得再漂亮然而實(shí)際不work在這些人眼里并沒有太大價值阳距。這背后本質(zhì)的區(qū)別在于,統(tǒng)計或者理論機(jī)器學(xué)習(xí)這些學(xué)科為了有漂亮的理論不得不對現(xiàn)實(shí)世界做出大量簡化卒茬,而真正做問題的人咖熟,是不可能對現(xiàn)實(shí)世界做出任何妥協(xié)的。對于工程學(xué)科而言郭赐,只有很少數(shù)的方法确沸,是可以在理論和實(shí)踐上高度統(tǒng)一的。

另外一個方面观谦,工程學(xué)科的本質(zhì)使得Deep Learning更在意實(shí)際動手的實(shí)現(xiàn)桨菜。你說RCNN有什么難的嗎?不就是生成個proposal再分類下嘛泻红。Fast RCNN又有啥呢霞掺?不就是個可以BP的SPP嘛。我很不想說Idea is cheap這句話凶异,但是Show me the results的重要性不言而喻。RCNN不是第一個用CNN做detection的paper剩彬,而是第一個用CNN把detection做work的paper喉恋,第一個證明CNN的feature不僅僅可以做分類的paper。單就這一點(diǎn)就足可以奠定這個工作在整個CV發(fā)展史上的地位轻黑。記得當(dāng)初Ross在CMU給talk的時候,我當(dāng)時的老板做介紹的時候打趣了一句:**He is the only man can make things work in computer vision. **這個評價在我看來馆揉,已經(jīng)是頂級的了抖拦。以至于后來有人問我說你對自己期待是什么樣子,我的回答就是做啥啥work噩茄。 XD

說了這么多复颈,最后來回答下問題:
Deep Learning本身并不難,難的是你吃透問題凿菩,可以用Deep Learning的邏輯去思考你自己的問題芹彬,有針對性地設(shè)計模型舒帮;難的是你有分析問題和結(jié)果的能力,遇到負(fù)面結(jié)果不是抓瞎玩郊。
另外說Deep Learning就是調(diào)參數(shù)的译红,那也是不會調(diào)參兴溜,調(diào)參也是要按照基本法的俺苌隆诗宣!

作者:Naiyan Wang想诅,CS PhD, 機(jī)器學(xué)習(xí)與計算機(jī)視覺

回答二:研究人員的多少受各種因素的影響,能在最黑暗的時光堅持自己信仰的人是值得敬佩的篮灼。

首先必須要澄清的一點(diǎn)是徘禁,深度學(xué)習(xí)專家急缺可能是事實(shí)送朱,然而它難,并不是事實(shí)它改。就像題主說到的商乎,相對于從前的許多機(jī)器學(xué)習(xí)方法,深度學(xué)習(xí)確實(shí)不需要什么高深的數(shù)學(xué)內(nèi)容鲜戒,這一點(diǎn)是沒錯的遏餐。那么如果是這樣赢底,那么為什么研究的人(暫時)看起來沒有想象的多呢?

深度學(xué)習(xí)是一個學(xué)術(shù)概念粹庞,要搞清楚這個問題庞溜,就需要了解這個東西的學(xué)術(shù)背景碑定。如同大家可能在其它新聞稿之類的地方能看到的又官,神經(jīng)網(wǎng)絡(luò)的概念幾十年前就有了六敬,那個時候就已經(jīng)火了一陣了商虐,然而后來又被其它方法(比如SVM)超越,之后沉寂了一段時間典勇,到大約11年左右開始爆發(fā)割笙,到現(xiàn)在算是受到各界注意力匯聚的頂點(diǎn)了眯亦。

做為語音領(lǐng)域研究的工作者,對于上面描述的這些變化其實(shí)是非常敏感的乱顾。正是因?yàn)?1年微軟在大規(guī)模連續(xù)語音識別上的突破性進(jìn)展宫静,(參見語音識別技術(shù)突飛猛進(jìn))拉開了國際上各家在深度學(xué)習(xí)上面軍備競賽的序幕孤里,比如百度IDL的成立,谷歌收購Deepmind说搅,DNNReserch等虏等。當(dāng)然這也是導(dǎo)致我毅然決然向?qū)熞髲氖逻@個方向研究的原因博其。

實(shí)際上現(xiàn)在深度學(xué)習(xí)的幾乎所有最重要理論早在八十年代就確定下來了,那么為什么這么多的進(jìn)展最近幾年才出現(xiàn)?
現(xiàn)在我們已經(jīng)知道峰髓,因?yàn)槟莻€時候計算機(jī)速度太慢,無法支持足夠大規(guī)模的神經(jīng)網(wǎng)絡(luò)疾掰,而由于摩爾定律在一段時間內(nèi)的作用徐紧,已經(jīng)在幾十年內(nèi)使得計算速度得到了數(shù)百萬倍的提升并级,而這數(shù)百萬倍的提升本身其實(shí)是一個持續(xù)而漫長的過程,所以計算速度方面的原因只能回的的是“為什么它出現(xiàn)了”稻励,而不能回答“為什么它在最近幾年以如此密集的方式出現(xiàn)”愈涩。

如同理解經(jīng)濟(jì)現(xiàn)象不要只講大道理履婉,必須回到每個人實(shí)際面臨的選擇情景一樣,要回答這個問題就必須回到每個研究者所面臨的實(shí)際情景中辑奈。

假設(shè)在另一個時空中狸棍,我依然是我草戈,依然陰差陽錯以語音研究開始了我的研究生生涯,只不過這時是20世紀(jì)90年代丙猬。經(jīng)過充分的調(diào)研后费韭,我發(fā)現(xiàn)大體上有兩種研究思路值得注意:一種叫做A星持,比較主流,效果很好揪垄,有一些現(xiàn)成的工具使用;另一種叫做神經(jīng)網(wǎng)絡(luò)捡鱼,本身想法很有意思驾诈,但是受關(guān)注較少溶浴。這個時候看似有兩種選擇戳葵,其實(shí)我在這個情景中是沒有選擇的。

這是因?yàn)?strong>每個做研究的都是實(shí)實(shí)在在的人生蚁,他們有畢業(yè)戏自,評職稱擅笔,評教授,生活的壓力念脯。如果那個時空里的我堅定的選擇了進(jìn)行神經(jīng)網(wǎng)絡(luò)的研究弯淘,當(dāng)我們現(xiàn)在回過頭來看的時候庐橙,可能用1-2年時間,堅持跑完一個足夠大規(guī)模的試驗(yàn)转培,也許能發(fā)現(xiàn)不一樣的東西浆竭。但是這又怎么可能呢?導(dǎo)師會給你壓力缤沦,同行會給你壓力易稠,學(xué)校會給你壓力驶社,而且在這1-2年沒有任何結(jié)果的過程中测萎,你不可能不懷疑自己硅瞧,因?yàn)檠芯烤褪且粋€在黑暗中摸索的階段,現(xiàn)在回頭看認(rèn)為曾經(jīng)需要1-2年或辖,在那樣的情景中是根本無法知道的枣接,完全有可能1-2年搭進(jìn)去什么都沒有但惶,3-4年還是什么都沒有。這就好像男生追女生县爬,女生奇怪男生追了一半為啥不追了财喳,男生卻會覺得連十分之一都不到一樣碉钠。相比于堅持喊废,放棄換一個方向才是更理性的選擇。

所以能夠撐過神經(jīng)網(wǎng)絡(luò)最黑暗時光的人工闺,一定是極少數(shù)抱有絕對信仰的人,比如Hinton, Lecun, Bengio雷厂,他們憑借已經(jīng)取得的成就改鲫,在沒有來自其它方面壓力的時候林束,才能走下去壶冒。這就是為什么這樣的人一定很少的原因。

神經(jīng)網(wǎng)路的嚴(yán)冬

然而回答到這里只是事情的前一半部分烟零。

一件需要意識到的事情是锨阿,神經(jīng)網(wǎng)絡(luò)性宏,做為一種研究方向毫胜,有過這樣一種跌宕起伏的發(fā)展過程,為什么其它理論就不能有呢荐吉?所以很有可能其它機(jī)器學(xué)習(xí)派別在未來再度超越的样屠,這是完全有可能的缺脉,這就是科學(xué)攻礼。

所以,這就是為什么即使到今天知举,深度學(xué)習(xí)依然只是一個機(jī)器學(xué)習(xí)分支的原因。依然有人不喜歡它逛钻,依然有人愿意堅持自己的方向曙痘。這是完全值得尊敬的欲账,也是合理的赛不,因?yàn)楦闵窠?jīng)網(wǎng)絡(luò)的人曾經(jīng)就是這樣的一幫人罢洲,才有了現(xiàn)在我們看到的深度學(xué)習(xí)的繁榮惹苗。

作者:馬爾可夫妖

回答三:從科學(xué)發(fā)展的角度解讀深度學(xué)習(xí)當(dāng)前的發(fā)展境況

科學(xué)是一個不斷發(fā)展的過程桩蓉。深度學(xué)習(xí)在現(xiàn)階段對于其適用性的實(shí)踐工作還沒有走到盡頭,正是需要由實(shí)驗(yàn)出發(fā)去尋找其適用性邊界的階段洽瞬。等到足夠的實(shí)驗(yàn)結(jié)果能夠說明其適用范圍伙窃,屆時理論工作自然會逐漸出現(xiàn)和完善样漆。這個規(guī)律在別的學(xué)科中也存在放祟,例如物理在18-19世紀(jì)也經(jīng)歷過這么一個階段,并且一定程度上天體物理鞋喇、高能物理等在現(xiàn)在依舊處于這樣的階段确徙。這一階段性特點(diǎn)導(dǎo)致了深度學(xué)習(xí)研究和應(yīng)用大致兩方面的不同:
偏離傳統(tǒng)以數(shù)學(xué)導(dǎo)向的、保守化的研究方法芜赌,培養(yǎng)人才變得困難缠沈。
實(shí)踐中對資源和代碼的需求變強(qiáng)错蝴,工程量不可同日而語
這兩方面共同導(dǎo)致了目前深度學(xué)習(xí)人才出產(chǎn)率較低的現(xiàn)實(shí)顷锰。

機(jī)器學(xué)習(xí)的傳統(tǒng)理論主要圍繞學(xué)習(xí)過程的泛化(Generalization)能力展開,然而有關(guān)泛化能力的理論都是以集中不等式(Concentration Inequality)為基礎(chǔ)的尋求”上界的上界”的一個過程肛宋,其結(jié)果是一種保守統(tǒng)計學(xué)的結(jié)果酝陈。這種保守的統(tǒng)計學(xué)結(jié)果對于驗(yàn)證傳統(tǒng)科學(xué)實(shí)驗(yàn)來提供可信區(qū)間也許是非常合理的沉帮,然而用于描述機(jī)器學(xué)習(xí)本身卻往往因過于保守而失去了對于模型可行性的合理探索贫堰。這種思路導(dǎo)致很長時間(90年代和00年代)機(jī)器學(xué)習(xí)停留在線性分類器的研究中严嗜。在這個過程中雖然有例如Boosting算法漫玄、核(Kernel)方法等數(shù)學(xué)上非常漂亮的結(jié)果,然而不可避免地機(jī)器學(xué)習(xí)的應(yīng)用性其實(shí)受到了不合理的限制渗常。

深度學(xué)習(xí)在這方面有著截然不同的思路皱碘。盡管泛化能力是一個不可避開的話題隐孽,從事深度學(xué)習(xí)的人大多認(rèn)為現(xiàn)有的泛化理論不足以描述模型實(shí)際應(yīng)用時的平均狀況。在符合科學(xué)方法論實(shí)驗(yàn)缩功、觀察嫡锌、假設(shè)琳钉、驗(yàn)證歌懒、結(jié)論的過程前提下,深度學(xué)習(xí)的研究以追求實(shí)際測試數(shù)據(jù)集效果為核心震蒋,更為大膽探索可行的模型,并且從以神經(jīng)科學(xué)噪窘、認(rèn)知科學(xué)為代表的其它學(xué)科中尋求啟發(fā)效扫。這一特點(diǎn)使得深度學(xué)習(xí)的建模過程成為一個“勇敢者的游戲”菌仁,在許多可行的模型中尋找并驗(yàn)證某個有效模型需要一定的創(chuàng)造性济丘,這并不是每個人都做得到的。同時疟赊,泛化理論也需要進(jìn)一步發(fā)展來更加貼切地解釋實(shí)際的應(yīng)用近哟。

深度學(xué)習(xí)更加關(guān)注“表達(dá)”的理論鲫寄,即什么樣的問題需要什么樣結(jié)構(gòu)的模型,以及什么結(jié)構(gòu)的問題適合什么樣的問題熙掺。這一點(diǎn)的理論目前基本處于幾乎空白且初步開始的狀態(tài)适掰。到目前為止從數(shù)學(xué)和哲學(xué)上我們對于表達(dá)的基本理解受制于對現(xiàn)有智能體(人類)的模仿中荠列,并沒有什么更好的啟發(fā)知識肌似。這種困難可能最終同邏輯中的哥德爾不完備性定理(G?del’s incompleteness theorems)以及物理中的拉普拉斯幽靈(Laplace’s Demon)帶來的問題類似川队。如何在這樣的條件下敏銳地發(fā)現(xiàn)適合表達(dá)某些問題的模型因此成為一項(xiàng)十分考驗(yàn)智力的工作力细。

理論的無效性和缺乏導(dǎo)致了在現(xiàn)有的教育體系下培養(yǎng)深度學(xué)習(xí)人才的困難。除了一些基本研究原則之外固额,我們沒有辦法確切定義和預(yù)測這個學(xué)科需要什么樣的知識眠蚂,以及這些方法能夠通過什么方式應(yīng)用到什么樣的領(lǐng)域。并不是所有的人都適合在這種條件下進(jìn)行研究和學(xué)習(xí)的斗躏。

實(shí)踐中對資源的需求變大逝慧,工程量不可同日而語

盡管深度學(xué)習(xí)的研究哲學(xué)弱化了對泛化能力可證明性的追求,但泛化能力終究是一個不可繞開的話題啄糙。機(jī)器學(xué)習(xí)的實(shí)踐在一定程度上是表達(dá)和泛化互相尋求平衡的過程。由于深度學(xué)習(xí)的建模更加傾向于對表達(dá)能力的探索上隧饼,因此我們需要更大的數(shù)據(jù)量使得泛化能力不成為問題沈堡。然而,“大數(shù)據(jù)”并不是一句空話燕雁。獲取百萬級別的樣本數(shù)量是一個非常巨大的工程挑戰(zhàn)诞丽,這在傳統(tǒng)理論為導(dǎo)向的研究過程中是無法想象的。這些挑戰(zhàn)即包括獲取大量的數(shù)據(jù)量對于自動化的要求贵白,也包括處理實(shí)際數(shù)據(jù)過程中繁瑣的數(shù)據(jù)清理過程率拒,更可能涉及緩存和分塊等優(yōu)化方法的應(yīng)用。這無一不對從業(yè)人員的工程能力提出了更高的要求禁荒。這一點(diǎn)的重要性曾經(jīng)被理論學(xué)派所忽略猬膨,然而隨著研究的進(jìn)展越來越多的人開始認(rèn)識到它的必要性。

建模自由性的增強(qiáng)必然導(dǎo)致代碼自由度增加,其結(jié)果是對現(xiàn)有代碼重用能力的下降和對從業(yè)者更高的工程要求勃痴。為了實(shí)現(xiàn)一些嶄新的模型谒所,我們可能需要從底層的數(shù)值計算出發(fā)去一步步把模型構(gòu)建起來。在這個過程中又有許多的工程問題需要解決沛申,例如數(shù)值穩(wěn)定性(由于計算機(jī)表達(dá)實(shí)數(shù)是有限精度導(dǎo)致的各種問題劣领,這是專門的學(xué)科)、優(yōu)化參數(shù)的調(diào)整(由于優(yōu)化往往是非凸的铁材,實(shí)踐中并沒有足夠的理論指導(dǎo))以及最終模型是否能夠在有效時間內(nèi)完成運(yùn)行尖淘。這些過程中任何一個環(huán)節(jié)出錯都會導(dǎo)致模型無法訓(xùn)練。理論學(xué)者可能往往以一句“調(diào)參”來調(diào)侃這一過程著觉,但是我相信沒有實(shí)踐過的人是無權(quán)評價這個過程中需要的數(shù)值知識村生、對問題的敏銳理解以及解決實(shí)際問題的耐心的。

由于數(shù)據(jù)規(guī)模大和模型的自由度較大兩方面的問題饼丘,訓(xùn)練和尋找最佳模型可能是一個非常耗時的過程趁桃。這就導(dǎo)致深度學(xué)習(xí)的研究往往需要巨大的計算能力。科學(xué)發(fā)展的另一個基本規(guī)律是新的方法和理論往往需要在之前無法實(shí)現(xiàn)的規(guī)模中才能發(fā)現(xiàn)肄鸽。例如狹義相對論的實(shí)驗(yàn)需要物質(zhì)運(yùn)行超出常規(guī)的速度才能驗(yàn)證卫病,以及發(fā)現(xiàn)極度微觀粒子的運(yùn)動不符合經(jīng)典力學(xué)才導(dǎo)致了量子力學(xué)的出現(xiàn)。這種實(shí)際上需要不斷挑戰(zhàn)極限的過程體現(xiàn)在計算機(jī)學(xué)科中就是能夠在之前無法想象的計算能力和數(shù)據(jù)規(guī)模下完成任務(wù)典徘◇翱粒可惜現(xiàn)實(shí)中并不是所有的人都能夠有機(jī)會接觸到這種規(guī)模的計算力。

總之逮诲,如果把深度學(xué)習(xí)的研究過程比作模擬退火的優(yōu)化過程屹逛,假設(shè)從業(yè)人員是一個隨機(jī)的初始值,這個目標(biāo)函數(shù)的特點(diǎn)是只有緩慢的溫度下降才能得到有效結(jié)果汛骂。也許退火過程只是一個簡易的晶體理論,而實(shí)際的退火怎樣有效只有煉過鋼打過鐵的人才真正知道评腺。

作者:張翔

回答四: 理論派的矛盾

看了很多答案帘瞭,總結(jié)來看中心思想就一個:

神經(jīng)網(wǎng)絡(luò)這玩意沒理論,大家都是在猜蒿讥,在蒙蝶念,在試,調(diào)調(diào)參數(shù)芋绸,試試trick媒殉,太low,我們搞數(shù)學(xué)物理的都看不上摔敛, 你們就是運(yùn)氣好趕上好時候廷蓉,看看過兩年你們就不行了。

而事實(shí)情況是:

基于神經(jīng)網(wǎng)絡(luò)的各種數(shù)學(xué)模型都太過復(fù)雜马昙,復(fù)雜到目前的數(shù)學(xué)工具不能提供有效的分析手段桃犬,然而經(jīng)驗(yàn)上卻達(dá)到了很好的效果八匠,挑撥了一部分敏感的理論派的神經(jīng)吱雏。

現(xiàn)階段主流理論派一方面將神經(jīng)網(wǎng)絡(luò)的成功歸于trick和調(diào)參,嘲笑他們沒有理論。另一方面淑履,理論派自己卻并不具備足夠的理論水平來對神經(jīng)網(wǎng)絡(luò)進(jìn)行有價值的分析,與此同時也沒有在實(shí)踐上找到更優(yōu)的算法僵娃。如此諷刺的矛盾是導(dǎo)致很多搞數(shù)學(xué)物理险掀,統(tǒng)計的人對深度學(xué)習(xí)看不上卻又有點(diǎn)酸溜溜的根本原因。

在很多人嘲諷DL的同時田度,關(guān)于DL的理論工作也悄然在UCB妒御,CIT, NYU每币,Princeton等學(xué)校的某些實(shí)驗(yàn)室展開携丁,個人認(rèn)為這才是正確的對待DL的方式。

最后套用Yoshua Bengio在Quora關(guān)于問題的回答

問: Does Yoshua Bengio expect traditional statistical learning to triumph again over Deep Learning (or any neural network based methods) soon?

答: Neural networks ARE statistical learning methods. Science is NOT a battle, it is a collaboration. We all build on each other’s ideas. Science is an act of love, not war. Love for the beauty in the world that surrounds us and love to share and build something together. That makes science a highly satisfying activity, emotionally speaking!

我就是喜歡你看不慣我兰怠,卻又不得不和我一起深度學(xué)習(xí)的樣子梦鉴。

作者:匿名用戶

回答五:工業(yè)進(jìn)步與理論之美

工業(yè)界首先還是看應(yīng)用效果的吧,理論之美什么的不能轉(zhuǎn)化為實(shí)際應(yīng)用也只能閑著揭保,即便是不那么美的理論只要好用照樣會應(yīng)用肥橙。從AlphaGo就能看出,其用的算法方法基本都是比較成熟的秸侣,并沒有發(fā)明出多么高大上的新理論存筏。工業(yè)界因?yàn)樾枰WC可靠與穩(wěn)定,所以會更多選擇已經(jīng)被反復(fù)驗(yàn)證的成熟方法味榛,所以最新的東西反而不會輕易使用椭坚。因?yàn)檫@個鄙視工業(yè)界用的東西不夠高大上,我覺得還是陷在科研的思維里了搏色。即便是再完備的理論善茎,在應(yīng)用的時候很多細(xì)節(jié)還是要靠經(jīng)驗(yàn)和理論之外的東西。從理論到實(shí)際應(yīng)用總是要有個過程频轿。

就我個人的觀點(diǎn)垂涯,machine learning本身就是個toolbox,了解這些工具并不難航邢,難的是如何用好這些工具做出漂亮的應(yīng)用「福現(xiàn)在缺的是能用好DL解決問題的專家。這類人不僅要懂DL膳殷,還要了解需要使用DL的這個領(lǐng)域操骡。了解理論,并不代表一定會理論的應(yīng)用,一如Dirac造不出量子計算機(jī)当娱。

最后想說吃既,個人真的是非常不喜歡學(xué)術(shù)圈里唯新穎和難度最高的態(tài)度,鄙視應(yīng)用和工程根本不利于理論發(fā)展跨细。沒有工業(yè)進(jìn)步鹦倚,做理論照樣瓶頸。我男朋友做高性能計算冀惭,給我講了一個例子:當(dāng)年一群人搞出一類并行算法覺得高端的不得了震叙,結(jié)果出來了GPU把他們算法全秒了……今天我們在這里愉快地玩machine learning而不用像早期程序員那樣小心分配內(nèi)存節(jié)約算力,真的是工業(yè)發(fā)展的功勞散休。

作者:Angie Zhang

回答六:人才的培養(yǎng)需要時間

我認(rèn)為深度學(xué)習(xí)人才急缺只是個時間問題媒楼。深度學(xué)習(xí)真正從學(xué)術(shù)界走到人們的視野中,主要是通過ImageNet競賽和最近AlphaGo的普及戚丸,之前對深度學(xué)習(xí)抱有懷疑態(tài)度的人大有人在划址。
深度學(xué)習(xí)重新在學(xué)術(shù)界火起來大概可以追溯到09、10年限府,人們給與深度學(xué)習(xí)發(fā)展的時間還太少了夺颤。只要再多一點(diǎn)時間,相信會有越來越多的人加入深度學(xué)習(xí)的大潮胁勺。

以我個人的經(jīng)驗(yàn)來看世澜,深度學(xué)習(xí)其實(shí)入門的門檻并不高,只要對機(jī)器學(xué)習(xí)算法有較好基礎(chǔ)都是容易轉(zhuǎn)行過來的署穗。難處在于這是一門非常具有應(yīng)用性的學(xué)科寥裂,讀一百篇論文可能還不如自己實(shí)現(xiàn)個ConvNet和LSTM理解得更深入。而硬件是其中很重要的一個制約因素案疲,跑個深度學(xué)習(xí)的實(shí)驗(yàn)可能往往需要多臺機(jī)器或者GPU封恰,而很多入門者可能并不具備這一基本條件。

有必要糾正下深度學(xué)習(xí)就是調(diào)參的說法褐啡。我不否認(rèn)調(diào)參的重要性俭驮,但是單純靠調(diào)參是遠(yuǎn)遠(yuǎn)不夠的。調(diào)參黨可以自己去讀讀近些年來在NIPS, CVPR, ACL, EMNLP等各領(lǐng)域頂級會議上發(fā)表的deep learning相關(guān)論文(arxiv還沒發(fā)表的不算)春贸,可以說絕大部分論文要么是在模型上有所創(chuàng)新,要么是把深度學(xué)習(xí)用在了一個全新的問題上遗遵,單純靠堆機(jī)器堆深度搭框架來提高性能的論文我還沒怎么讀到過萍恕。比較贊同 @Naiyan Wang的說法,無論是深度學(xué)習(xí)车要,還是機(jī)器學(xué)習(xí)或者其他算法也好允粤,本質(zhì)上都是對問題的深度理解從而解決問題。工具可以有千種萬種,但是問題本質(zhì)不會變类垫。

一方面司光,我覺得大家完全沒必要把深度學(xué)習(xí)神化,它和以前出現(xiàn)的很多學(xué)科和方向一樣悉患,都只是計算機(jī)科學(xué)用于解決問題的一個方法残家,沒有那么難也沒有那么遙不可及;另一方面售躁,做理論的也沒必要去鄙視深度學(xué)習(xí)調(diào)參的做法坞淮,這本來就是一個偏應(yīng)用的學(xué)科。最后陪捷,先飛的鳥兒有蟲吃回窘,對深度學(xué)習(xí)有興趣的不妨早點(diǎn)出發(fā)。

作者:武侯市袖,ZJU/UMD/Google/CS PhD@Deep Learning

回答七:有效就是王道

恰恰相反啡直,我認(rèn)為稀缺的不是某一個學(xué)科的人才,稀缺的是苍碟,有能力去歸納總結(jié)并能用在應(yīng)用上的那些少數(shù)精英人才酒觅。而這些人才,不只是單單dl方面稀缺驰怎,往往任何一個當(dāng)代學(xué)科都會碰到這個人才瓶頸阐滩。

常言道隔行如隔山。形式化下隔行看問題县忌,如果把問題看作一個高維向量x掂榔,在學(xué)科A的理解下,可以得到這個問題的一種描述方式症杏,其實(shí)就是x在空間A的一個投影装获。同樣可以得到同一個問題在不同學(xué)科(空間)下的描述(投影)。

如果我們在隔行看問題的時候厉颤,能夠正確地處理兩個不同學(xué)科AB(空間AB)的差異穴豫,自然就不會出現(xiàn)誤差了。然而實(shí)際上逼友,大家只會尋找兩個學(xué)科的交集來去做所謂的認(rèn)知精肃。自然而然就有了誤差了。

誠然帜乞,機(jī)器學(xué)習(xí)中司抱,很多模型,很多算法的底層思維黎烈,思路习柠,很簡單匀谣。有一些東西,比如正則項(xiàng)资溃,比如平滑武翎,感覺上不那么科學(xué)靠譜。但是一旦從別的角度去看待這些問題溶锭,可能就會嘲諷“你看這些門外漢”了宝恶。

我其實(shí)是個很嚴(yán)重的實(shí)用主義者,我并不在乎這個算法的數(shù)學(xué)原理多高超暖途,我也不在乎這個算法的實(shí)(tiao)現(xiàn)(can)難度有多大卑惜。只要有效,我覺得工作量再大也是值得的驻售。有些東西露久,比如神經(jīng)網(wǎng)絡(luò),我真的說不清楚欺栗,為什么學(xué)習(xí)之后這家伙能夠那么強(qiáng)毫痕,我有時甚至都不敢保證他學(xué)習(xí)的收斂性。但是如果大家的實(shí)驗(yàn)結(jié)果都是收斂的迟几,或者說如果按照一個一定步驟來操作幾乎會得到一個熟練的模型消请,那我認(rèn)為,如果有人能夠告訴我們类腮,滿足這些條件收斂臊泰,或者告訴我們滿足這些條件不收斂,那他必然是這個學(xué)科的一個小救星了蚜枢。而成為救星并不容易缸逃,可想而知他的知識水平和應(yīng)用能力達(dá)到了何等的水平。

作者:申尚昆

其他觀點(diǎn)

  • 世界上沒有什么優(yōu)化目標(biāo)是在NN中多加一層layer不能解決的厂抽。
    如果有需频,那就兩層。

  • 恰恰相反筷凤,是我們目前的數(shù)學(xué)還不足以理解昭殉、處理nn這類復(fù)雜系統(tǒng),以至于只能靠trick藐守。也就是說挪丢,真正解決了dl的數(shù)學(xué)問題,實(shí)際上也就解決了人類智能從何而來卢厂,這是可以比肩牛頓吃靠、愛因斯坦的貢獻(xiàn),而且我相信不會完全由某一個科學(xué)家完成足淆。
    Bengio這樣的人已經(jīng)盯著這人類科學(xué)史上最后的圣杯巢块,而大部分普通人連其背后的意義都不了解,有意思巧号。

  • 深度學(xué)習(xí)需要的數(shù)學(xué)基礎(chǔ)(凸優(yōu)化族奢,數(shù)值分析,矩陣分析丹鸿,統(tǒng)計推斷越走,概率圖)把99%的程序員學(xué)生擋在了門外;
    C/C++靠欢,CUDA/OpenCL廊敌,計算機(jī)網(wǎng)絡(luò)和體系結(jié)構(gòu),大規(guī)模并行系統(tǒng)的門檻又將純數(shù)學(xué)背景的限制在了只能用matlab寫點(diǎn)兩三層幾千維神經(jīng)網(wǎng)絡(luò)的實(shí)驗(yàn)小程序上门怪,而數(shù)據(jù)量不到100G深度不到五六層維度沒有十萬根本感受不到深度學(xué)習(xí)的可怕威力骡澈。
    所以兩個知識的交叉領(lǐng)域還剩多少人?我估計全中國具有可實(shí)用深度學(xué)習(xí)知識的人應(yīng)該只有300個左右掷空。

  • deep learning現(xiàn)在的研究大部分偏應(yīng)用(我沒覺得有啥不好)肋殴,相對于理論研究,門檻會低一些坦弟。關(guān)于护锤,題目中問道的“專家如此急缺,它難在何處酿傍?”烙懦,我覺得不是難在何處的問題,僅僅是大量花時間熟悉DL tricks這類人 和 實(shí)際需求之間的不平衡而已赤炒。

來源:知乎 著作權(quán)歸作者所有氯析。商業(yè)轉(zhuǎn)載請聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請注明出處可霎。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末魄鸦,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子癣朗,更是在濱河造成了極大的恐慌拾因,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,490評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件旷余,死亡現(xiàn)場離奇詭異绢记,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)正卧,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,581評論 3 395
  • 文/潘曉璐 我一進(jìn)店門蠢熄,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人炉旷,你說我怎么就攤上這事签孔〔婕ィ” “怎么了?”我有些...
    開封第一講書人閱讀 165,830評論 0 356
  • 文/不壞的土叔 我叫張陵饥追,是天一觀的道長图仓。 經(jīng)常有香客問我,道長但绕,這世上最難降的妖魔是什么救崔? 我笑而不...
    開封第一講書人閱讀 58,957評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮捏顺,結(jié)果婚禮上六孵,老公的妹妹穿的比我還像新娘。我一直安慰自己幅骄,他們只是感情好劫窒,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,974評論 6 393
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著昌执,像睡著了一般烛亦。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上懂拾,一...
    開封第一講書人閱讀 51,754評論 1 307
  • 那天煤禽,我揣著相機(jī)與錄音,去河邊找鬼岖赋。 笑死檬果,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的唐断。 我是一名探鬼主播选脊,決...
    沈念sama閱讀 40,464評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼脸甘!你這毒婦竟也來了恳啥?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,357評論 0 276
  • 序言:老撾萬榮一對情侶失蹤丹诀,失蹤者是張志新(化名)和其女友劉穎钝的,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體铆遭,經(jīng)...
    沈念sama閱讀 45,847評論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡硝桩,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,995評論 3 338
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了枚荣。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片碗脊。...
    茶點(diǎn)故事閱讀 40,137評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖橄妆,靈堂內(nèi)的尸體忽然破棺而出衙伶,到底是詐尸還是另有隱情祈坠,我是刑警寧澤,帶...
    沈念sama閱讀 35,819評論 5 346
  • 正文 年R本政府宣布矢劲,位于F島的核電站颁虐,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏卧须。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,482評論 3 331
  • 文/蒙蒙 一儒陨、第九天 我趴在偏房一處隱蔽的房頂上張望花嘶。 院中可真熱鬧,春花似錦蹦漠、人聲如沸椭员。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,023評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽隘击。三九已至,卻和暖如春研铆,著一層夾襖步出監(jiān)牢的瞬間埋同,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,149評論 1 272
  • 我被黑心中介騙來泰國打工棵红, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留凶赁,地道東北人。 一個月前我還...
    沈念sama閱讀 48,409評論 3 373
  • 正文 我出身青樓逆甜,卻偏偏與公主長得像虱肄,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子交煞,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,086評論 2 355

推薦閱讀更多精彩內(nèi)容