互聯(lián)網(wǎng)世界的“人工智能”——探秘“深度學(xué)習(xí)”的前世今生

本文來自“流浪漢” （@ZhangLumin）

Facebook AI Lab 于今年下半年正式建成，其網(wǎng)絡(luò)覆蓋紐約秋秤、倫敦以及 Facebook 加州門羅帕克總部三地卒煞。AI Lab 旨在投入研發(fā)精力，探索人工智能的分支之一：深度學(xué)習(xí)（deep learning）预明。借此役耕，F(xiàn)acebook 希望在未來能給用戶提供更智能化的產(chǎn)品使用體驗采转。

此消息一出，立刻成為機器學(xué)習(xí)頂級會議 NIPS 本年度會議上一道引人注目的風(fēng)景瞬痘，同時也為近兩年大熱的深度學(xué)習(xí)再添火一把故慈。據(jù)悉，Google 于近日雇傭了未來學(xué)和人工智能專家Ray Kurzweil擔(dān)任其人工智能計劃的工程總監(jiān)图云，微軟最杰出的工程師之一惯悠、Bing Mobile 和 Bing Maps 開發(fā)的關(guān)鍵人物Blaise Agüera y Arcas 也已加盟 Google的機器人學(xué)習(xí)團隊。IBM 也在深耕深度學(xué)習(xí)竣况，旗下的超級計算機Watson憑借“高智商”已經(jīng)在華爾街花旗集團找到了一份工作，負(fù)責(zé)證券投資組合管理筒严。今年 10 月丹泉，雅虎收購了圖片分析初創(chuàng)公司LookFlow，計劃提升 Flickr 的搜索及內(nèi)容發(fā)現(xiàn)體驗鸭蛙。

那么摹恨，到底什么是深度學(xué)習(xí)？靠譜嗎娶视？對廣大創(chuàng)業(yè)者來說晒哄，其中究竟存在怎樣的機會？在下文肪获，我會嘗試梳理一下關(guān)于深度學(xué)習(xí)的概念寝凌，并分享一點個人的思考。

正如 Zuckerburg 所澄清的那樣孝赫，F(xiàn)acebook（及本文所討論）的人工智能是計算機科學(xué)中狹義的人工智能较木，并沒有人工建造人腦那樣的野心。這種人工智能青柄，是基于數(shù)學(xué)（統(tǒng)計）進行問題求解的機器學(xué)習(xí)算法（machine learning algorism）伐债，即我們常常提到的大數(shù)據(jù)時代的算法核心预侯。機器學(xué)習(xí)無處不在：互聯(lián)網(wǎng)廣告投放、網(wǎng)絡(luò)傳播峰锁、趨勢預(yù)測萎馅、機器人研發(fā)、計算機視覺虹蒋、搜索糜芳、自然語言理解，以及生物信息識別等都離不開機器學(xué)習(xí)千诬。這也是諸多大公司在這個領(lǐng)域頻頻投資的主要原因耍目。

深度學(xué)習(xí)是怎么火的？

什么是深度學(xué)習(xí)（deep learning）徐绑？說白了邪驮，就是人工神經(jīng)網(wǎng)絡(luò)（Artificial Neural Network，以下簡稱 ANN）這個舊瓶裝了新酒傲茄。

人工神經(jīng)網(wǎng)絡(luò)包含輸入層毅访、輸出層以及中間的若干隱層（hidden layer），每層都有若干結(jié)點及連接這些點的邊盘榨，在訓(xùn)練數(shù)據(jù)集上會學(xué)習(xí)出邊的權(quán)值喻粹，從而建立模型。隨著邊所表征的函數(shù)的不同草巡，可以有各種不同的神經(jīng)網(wǎng)絡(luò)守呜。這種源于人工智能中聯(lián)結(jié)主義學(xué)派（connectionism）的方法在上世紀(jì)七八十年代盛極一時。John Hopfield山憨，Geoffrey Hinton 和 Yann Lecun 等多位學(xué)者都對 ANN 頗有研究查乒。

然而不幸的是，和學(xué)術(shù)論文中鼓吹的不同郁竟，在諸多工程領(lǐng)域中玛迄，人們發(fā)現(xiàn) ANN 并沒有表現(xiàn)出比其他經(jīng)典算法更好的性能。究其原因棚亩，由于巨大的計算量和優(yōu)化求解難度蓖议，ANN 只能包含少許隱層，從而限制了性能讥蟆±障海控制領(lǐng)域仍然在使用經(jīng)典的 PID 調(diào)節(jié)，而在機器學(xué)習(xí)領(lǐng)域攻询，隨著以支持向量機和貝葉斯網(wǎng)絡(luò)為代表的統(tǒng)計學(xué)習(xí)在 90 年代的興起从撼，ANN 開始倍受冷落。

Geoffrey Hinton 曾感慨自己的學(xué)術(shù)生涯就像 ANN 一樣起起伏伏。所幸的是低零，這位 Gatsby 的創(chuàng)立者一直沒有放棄 ANN 的研究婆翔。從 06 年開始，他陸續(xù)開始發(fā)表關(guān)于如何改進 ANN 的文章掏婶，主要是通過很多數(shù)學(xué)和工程技巧增加隱層的層數(shù)啃奴，也就是深度，所以被稱為深度學(xué)習(xí)雄妥。雖然 Hinton 的觀點沒有得到足夠重視最蕾，成為主流共識，但大家開始更加關(guān)注這一領(lǐng)域老厌。

08 年 NIPS 基金會沒有批準(zhǔn) Deep Learning 的研討會申請瘟则，結(jié)果組織者自行開會，包括 Michael Jordan枝秤，Andrew Blake 等一眾機器學(xué)習(xí)及相關(guān)領(lǐng)域最具影響力的資深學(xué)者都出席了會議醋拧，會場爆滿。除了一直沒有放棄的 LeCun 等人淀弹，這一領(lǐng)域還吸引來了 Stanford 機器學(xué)習(xí)的教授丹壕、Coursera 創(chuàng)始人 Andrew Ng。Ng 的研究組薇溃，率先做出了和現(xiàn)有最高水平相提并論的結(jié)果菌赖。后來, 大家一步步推進，深度學(xué)習(xí)在很多實際評測中遙遙領(lǐng)先沐序，一下就火了琉用。

深度學(xué)習(xí)主張，如果 ANN 的隱層足夠多策幼，選擇適當(dāng)?shù)倪B接函數(shù)和架構(gòu)辕羽，并增加一個非監(jiān)督學(xué)習(xí)的“pre training”網(wǎng)絡(luò)組成，就會具有更強的表述能力垄惧，但常用的模型訓(xùn)練算法反向傳播（back propagation）仍然對計算量有很高的要求。近年來绰寞，得益于計算機速度的提升到逊、基于 MapReduce 的大規(guī)模集群技術(shù)的興起、GPU 的應(yīng)用以及眾多優(yōu)化算法的出現(xiàn)滤钱，耗時數(shù)月的訓(xùn)練過程可縮短為數(shù)天甚至數(shù)小時觉壶，深度學(xué)習(xí)才在實踐中有了用武之地。

在計算機視覺領(lǐng)域件缸，深度學(xué)習(xí)首先在手寫識別領(lǐng)域表現(xiàn)出眾铜靶。2012 年，在物體識別（被譽為計算機視覺圣杯）的權(quán)威測試 Imagenet Challenge 中他炊，深度學(xué)習(xí)遙遙領(lǐng)先于其他經(jīng)典算法（16% VS 26%）争剿，吸引了無數(shù)眼球已艰。紐約大學(xué)計算機科學(xué)系副教授 Rob Fergus（和 Yann LeCun 一起加入 Facebook AI Lab）的學(xué)生 Matthew Zeiler，創(chuàng)立了一家提供圖像搜索服務(wù)的公司——Clarifai蚕苇。他的深度學(xué)習(xí)算法在本月剛剛結(jié)束的 ICCV Imagenet Challnge 2013 中哩掺，繼續(xù)領(lǐng)先于其他算法。

深度學(xué)習(xí)產(chǎn)品化的浪潮中涩笤，科技巨頭機會更大

Google 研究員 Ilya Sutskever 最近表示嚼吞，如果數(shù)據(jù)足夠多、計算能力足夠強蹬碧、人工神經(jīng)網(wǎng)絡(luò)足夠深舱禽，即便不加“pre training”預(yù)處理，也可以取得目前最好的結(jié)果恩沽，這充分證明誊稚，目前的深度學(xué)習(xí)對標(biāo)注數(shù)據(jù)量和計算能力都提出了很高的要求。

目前更像是巨頭們的游戲飒筑。Google 和百度都已在自己的圖像搜索中部署了深度學(xué)習(xí)技術(shù)片吊。Google 在內(nèi)部多個項目組推廣深度學(xué)習(xí)平臺，而百度也將深度學(xué)習(xí)算法運用到了語音等多個產(chǎn)品中协屡。今年 5 月俏脊，前 Facebook 資深科學(xué)家徐偉加盟百度深度學(xué)習(xí)研究院（Institute of Deep Learning, IDL）。在這次 NIPS“深度學(xué)習(xí)研討會”上肤晓，IDL 還設(shè)立了展臺爷贫，它在深度學(xué)習(xí)方面的研究成果在學(xué)術(shù)界也越來越有影響力。

最近补憾，F(xiàn)acebook 在人工智能領(lǐng)域動作頻頻漫萄。Zuckerburg 和俄羅斯富豪尤里一起創(chuàng)立了 300 萬美元獎金的 Breakthrough Prize in Mathematics，可謂與 AI Lab 的設(shè)立一脈相承盈匾。擁有海量數(shù)據(jù)的互聯(lián)網(wǎng)巨頭中腾务，Google 收購了 Geoffrey Hinton 的創(chuàng)業(yè)公司 DNNResearch（一家專注于語音和圖像識別技術(shù)的研究公司）, 百度挖來余凱老師創(chuàng)立了 IDL 研究院，IBM 研究院 Watson 電腦開始研究深度學(xué)習(xí)相關(guān)技術(shù)削饵，微軟研究院鄧力老師率先把深度學(xué)習(xí)應(yīng)用在語音識別中岩瘦，Yahoo 收購了 LookFlow 來創(chuàng)建深度學(xué)習(xí)小組，Amazon 在柏林創(chuàng)立了機器學(xué)習(xí)研究中心……

這一系列行動窿撬，無論是出于戰(zhàn)略防御启昧，還是單純被深度學(xué)習(xí)吸引，一個無法否認(rèn)的事實是：深度學(xué)習(xí)產(chǎn)品化的熱潮已經(jīng)撲面而來劈伴。

深度學(xué)習(xí)有局限性，初創(chuàng)公司應(yīng)理性選取機器學(xué)習(xí)算法

有些人覺得深度學(xué)習(xí)似乎沒有理論深度严里，其實不然新啼。查閱一下 Geoffrey Hinton 的論文田炭，其中用到的理論很深刻师抄，數(shù)學(xué)技巧也很復(fù)雜，深度學(xué)習(xí)的理論門檻較高教硫。但是好消息是，以 Hinton瞬矩、Yoshua Bengio 為首的研究組開放了越來越多的源代碼，包括 GPU 的實現(xiàn)景用，而且多種不同算法的開源實現(xiàn)也被公開涵叮，所以算法實現(xiàn)的門檻已經(jīng)降低了很多。

對于創(chuàng)業(yè)者來說伞插，困難在于如何獲取大規(guī)模已標(biāo)注數(shù)據(jù)、集成有 GPU 的計算集群以及針對自己的項目調(diào)參數(shù)媚污。調(diào)參數(shù)一直是深度學(xué)習(xí)被學(xué)術(shù)界詬病的話題，早期只有幾個圈內(nèi)的小組掌握著調(diào)參數(shù)的秘方和數(shù)據(jù)處理的技巧京髓。目前的深度學(xué)習(xí)參數(shù)調(diào)節(jié)已經(jīng)比之前透明化了許多商架，但仍是開發(fā)過程中最為耗時的一部分堰怨。

目前主打深度學(xué)習(xí)的創(chuàng)業(yè)公司并不是很多蛇摸，除了被Google收購的DNNResearch，Hinton 的另外一個學(xué)生最近在倫敦組建了 DeepMind赶袄，也在 NIPS 研討會上進行了展示，他們使用深度學(xué)習(xí)改進了傳統(tǒng)的強化學(xué)習(xí)，以尋找優(yōu)秀的策略來打游戲幢痘，算法的表現(xiàn)和人的策略很相似。

還有位于舊金山的初創(chuàng)公司 Ersatz 主打深度學(xué)習(xí)的云平臺购岗，以進一步降低深度學(xué)習(xí)的門檻，但是除了數(shù)據(jù)問題喊积，其技術(shù)水平有待觀察且商業(yè)策略與眾多大數(shù)據(jù)平臺小公司無二，能否在激烈的商業(yè)拓展中脫穎而出還是問號乾吻。還有個別圖像和文字理解的初創(chuàng)公司加入了深度學(xué)習(xí)的模塊作為補充手段髓梅，在實際問題尤其是不同數(shù)據(jù)集上的應(yīng)用尚有待觀察绎签。

但是，深度學(xué)習(xí)算法能夠成功運行的前提仍然是诡必，項目能夠采集到充分大的標(biāo)注且數(shù)據(jù)維度足夠高或者你的想法足夠通用奢方。有了大數(shù)據(jù)樣本才能緩解復(fù)雜模型的過度學(xué)習(xí)（overfitting）。從某種意義上說爸舒，這也給了其他機器學(xué)習(xí)算法很多機會。比如說扭勉，因為隱私原因，服務(wù)企業(yè)的大數(shù)據(jù)平臺就很難應(yīng)用深度學(xué)習(xí)嫉入，

深度學(xué)習(xí)的另一局限性是可解釋性不強璧尸，即便是一流的學(xué)者也很難對效果超群的深度學(xué)習(xí)算法在具體問題上給出具體解釋。這有可能成為產(chǎn)品迭代過程中的阻礙爷光。深度學(xué)習(xí)本身是支持在線學(xué)習(xí)和數(shù)據(jù)流，但是相關(guān)理論尚待完善蛀序。如上所述，深度學(xué)習(xí)目前主要集中于監(jiān)督學(xué)習(xí)遣鼓，在非監(jiān)督學(xué)習(xí)領(lǐng)域重贺，除了 Google 前一段時間公布的用于自然語言處理的 word2vec回懦，還沒有很出彩的工作次企。

從深度學(xué)習(xí)的研究者身上，我們可以看到缸棵，一個好的研究者要對自己的研究有足夠強的信念。正如馬云所說吧凉，好的創(chuàng)業(yè)者要堅持自己的信念型诚，而不是盲目跟風(fēng)。我前不久遇見了 Aria Haghigh狰贯，他是 Prismatic 這個創(chuàng)業(yè)公司的創(chuàng)始人，同時也是一位名校畢業(yè)傍妒、成果卓著的機器學(xué)習(xí)研究者摸柄，放棄了教職出來創(chuàng)業(yè)。他也懂深度學(xué)習(xí)驱负，但是對于他的產(chǎn)品和數(shù)據(jù)來說，他說深度學(xué)習(xí)并不是首選宇挫，因為數(shù)據(jù)的特性不同酪术。

Prismatic 其實用的是 Logistical Regression 的算法，這一算法相對成熟绘雁，不過依然有很多地方可以優(yōu)化庐舟。他們甚至自行創(chuàng)建了分布式系統(tǒng)，而不是使用 Hadoop挪略。事實上废酷，目前諸多搜索引擎和社交網(wǎng)絡(luò)的廣告系統(tǒng)都是以 Logistical Regression 的算法為基礎(chǔ)的抹缕，相關(guān)產(chǎn)品的體驗和速度都非常棒墨辛。樸實的算法，花同樣的時間去調(diào)參數(shù)奏赘，對產(chǎn)品已經(jīng)足夠了太惠，因為用戶是不會察覺準(zhǔn)確率上百分之零點幾的差別。

此外凿渊，每個人對人工智能都有自己的見解埃脏。比如，Peter Thiel 投資了 Machine Intelligence Research Institute——這個研究機構(gòu)對于目前主流的機器學(xué)習(xí)算法不滿彩掐，試圖從交叉學(xué)科的角度，創(chuàng)建更接近人狗超、更友好的智能朴下。

歷史不會重演，卻常常驚人得相似桐猬。翻開 Yann LeCun 的簡歷，這并不是他第一次投身工業(yè)界免胃。他曾經(jīng)是 AT&T 實驗室（Bell 實驗室拆分后留在 AT&T 的部分）圖像處理組的負(fù)責(zé)人惫撰，并試圖硬件化人工神經(jīng)網(wǎng)絡(luò)，后來由于公司策略調(diào)整扼雏，整個研究組被裁，他才挪移到紐約大學(xué)任教诗充，繼續(xù)自己獨樹一幟的研究（曾贏得國防部的合同）。

這次碟绑，他終于等到了深度學(xué)習(xí)（deep learning）的復(fù)興茎匠，接受了 Facebook 的工作邀約再次回歸工業(yè)界。之所以會聘請 LeCun 等高校教授回到業(yè)界诵冒，是因為深度學(xué)習(xí)在實踐中確實取得了效果，而公司之前也雇傭過這些教授麾下的學(xué)生侮东，合作下來都很愉快惭蟋。

誰也不知道深度學(xué)習(xí)是否會像其他算法一樣進入瓶頸期。如何把深度學(xué)習(xí)運用到產(chǎn)品中煤伟，將產(chǎn)品智能化木缝，提升用戶體驗——這越來越受到公司的關(guān)注。

最后編輯于：2017.11.26 17:50:55

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末放案，一起剝皮案震驚了整個濱河市矫俺，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌厘托，老刑警劉巖，帶你破解...
沈念sama閱讀 206,839評論 6贊 482
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件押赊，死亡現(xiàn)場離奇詭異流礁，居然都是意外死亡，警方通過查閱死者的電腦和手機神帅，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,543評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來询刹，“玉大人萎坷，你說我怎么就攤上這事沐兰。” “怎么了瓜浸？”我有些...
開封第一講書人閱讀 153,116評論 0贊 344
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵比原，是天一觀的道長。經(jīng)常有香客問我雇寇，道長蚌铜，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 55,371評論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任囚痴，我火速辦了婚禮审葬，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘涣觉。我一直安慰自己，他們只是感情好蹬昌，可當(dāng)我...
茶點故事閱讀 64,384評論 5贊 374
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布攀隔。她就那樣靜靜地躺著栖榨，像睡著了一般明刷。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上愚争，一...
開封第一講書人閱讀 49,111評論 1贊 285
城市分裂傳說
那天挤聘，我揣著相機與錄音，去河邊找鬼鞍陨。笑死从隆，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的寿烟。我是一名探鬼主播，決...
沈念sama閱讀 38,416評論 3贊 400
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼筛武，長吁一口氣：“原來是場噩夢啊……” “哼购桑！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起硕噩，我...
開封第一講書人閱讀 37,053評論 0贊 259
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤缭贡，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后谍失，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體莹汤，經(jīng)...
沈念sama閱讀 43,558評論 1贊 300
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,007評論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年抹竹，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片钞楼。...
茶點故事閱讀 38,117評論 1贊 334
活死人
序言：一個原本活蹦亂跳的男人離奇死亡袄琳，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出宛琅，到底是詐尸還是另有隱情逗旁，我是刑警寧澤，帶...
沈念sama閱讀 33,756評論 4贊 324
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站介陶，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏舌缤。R本人自食惡果不足惜某残，卻給世界環(huán)境...
茶點故事閱讀 39,324評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望介牙。院中可真熱鬧澳厢，春花似錦、人聲如沸剩拢。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,315評論 0贊 19
一樁弒父案贯钩，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至角雷，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間粱哼，已是汗流浹背檩咱。一陣腳步聲響...
開封第一講書人閱讀 31,539評論 1贊 262
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留绊含，地道東北人炊汹。一個月前我還...
沈念sama閱讀 45,578評論 2贊 355
代替公主和親
正文我出身青樓，卻偏偏與公主長得像充甚，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子伴找，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 42,877評論 2贊 345

互聯(lián)網(wǎng)世界的“人工智能”——探秘“深度學(xué)習(xí)”的前世今生

推薦閱讀更多精彩內(nèi)容