本文來自“流浪漢” (@ZhangLumin)
Facebook AI Lab 于今年下半年正式建成,其網(wǎng)絡(luò)覆蓋紐約秋秤、倫敦以及 Facebook 加州門羅帕克總部三地卒煞。AI Lab 旨在投入研發(fā)精力,探索人工智能的分支之一:深度學(xué)習(xí)(deep learning)预明。借此役耕,F(xiàn)acebook 希望在未來能給用戶提供更智能化的產(chǎn)品使用體驗采转。
此消息一出,立刻成為機器學(xué)習(xí)頂級會議 NIPS 本年度會議上一道引人注目的風(fēng)景瞬痘,同時也為近兩年大熱的深度學(xué)習(xí)再添火一把故慈。據(jù)悉,Google 于近日雇傭了未來學(xué)和人工智能專家Ray Kurzweil擔(dān)任其人工智能計劃的工程總監(jiān)图云,微軟最杰出的工程師之一惯悠、Bing Mobile 和 Bing Maps 開發(fā)的關(guān)鍵人物Blaise Agüera y Arcas 也已加盟 Google的機器人學(xué)習(xí)團隊。IBM 也在深耕深度學(xué)習(xí)竣况,旗下的超級計算機Watson憑借“高智商”已經(jīng)在華爾街花旗集團找到了一份工作,負(fù)責(zé)證券投資組合管理筒严。今年 10 月丹泉,雅虎收購了圖片分析初創(chuàng)公司LookFlow,計劃提升 Flickr 的搜索及內(nèi)容發(fā)現(xiàn)體驗鸭蛙。
那么摹恨,到底什么是深度學(xué)習(xí)?靠譜嗎娶视?對廣大創(chuàng)業(yè)者來說晒哄,其中究竟存在怎樣的機會?在下文肪获,我會嘗試梳理一下關(guān)于深度學(xué)習(xí)的概念寝凌,并分享一點個人的思考。
正如 Zuckerburg 所澄清的那樣孝赫,F(xiàn)acebook(及本文所討論)的人工智能是計算機科學(xué)中狹義的人工智能较木,并沒有人工建造人腦那樣的野心。這種人工智能青柄,是基于數(shù)學(xué)(統(tǒng)計)進行問題求解的機器學(xué)習(xí)算法(machine learning algorism)伐债,即我們常常提到的大數(shù)據(jù)時代的算法核心预侯。機器學(xué)習(xí)無處不在:互聯(lián)網(wǎng)廣告投放、網(wǎng)絡(luò)傳播峰锁、趨勢預(yù)測萎馅、機器人研發(fā)、計算機視覺虹蒋、搜索糜芳、自然語言理解,以及生物信息識別等都離不開機器學(xué)習(xí)千诬。這也是諸多大公司在這個領(lǐng)域頻頻投資的主要原因耍目。
深度學(xué)習(xí)是怎么火的?
什么是深度學(xué)習(xí)(deep learning)徐绑?說白了邪驮,就是人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,以下簡稱 ANN)這個舊瓶裝了新酒傲茄。
人工神經(jīng)網(wǎng)絡(luò)包含輸入層毅访、輸出層以及中間的若干隱層(hidden layer),每層都有若干結(jié)點及連接這些點的邊盘榨,在訓(xùn)練數(shù)據(jù)集上會學(xué)習(xí)出邊的權(quán)值喻粹,從而建立模型。隨著邊所表征的函數(shù)的不同草巡,可以有各種不同的神經(jīng)網(wǎng)絡(luò)守呜。這種源于人工智能中聯(lián)結(jié)主義學(xué)派(connectionism)的方法在上世紀(jì)七八十年代盛極一時。John Hopfield山憨,Geoffrey Hinton 和 Yann Lecun 等多位學(xué)者都對 ANN 頗有研究查乒。
然而不幸的是,和學(xué)術(shù)論文中鼓吹的不同郁竟,在諸多工程領(lǐng)域中玛迄,人們發(fā)現(xiàn) ANN 并沒有表現(xiàn)出比其他經(jīng)典算法更好的性能。究其原因棚亩,由于巨大的計算量和優(yōu)化求解難度蓖议,ANN 只能包含少許隱層,從而限制了性能讥蟆±障海控制領(lǐng)域仍然在使用經(jīng)典的 PID 調(diào)節(jié),而在機器學(xué)習(xí)領(lǐng)域攻询,隨著以支持向量機和貝葉斯網(wǎng)絡(luò)為代表的統(tǒng)計學(xué)習(xí)在 90 年代的興起从撼,ANN 開始倍受冷落。
Geoffrey Hinton 曾感慨自己的學(xué)術(shù)生涯就像 ANN 一樣起起伏伏。所幸的是低零,這位 Gatsby 的創(chuàng)立者一直沒有放棄 ANN 的研究婆翔。從 06 年開始,他陸續(xù)開始發(fā)表關(guān)于如何改進 ANN 的文章掏婶,主要是通過很多數(shù)學(xué)和工程技巧增加隱層的層數(shù)啃奴,也就是深度,所以被稱為深度學(xué)習(xí)雄妥。雖然 Hinton 的觀點沒有得到足夠重視最蕾,成為主流共識,但大家開始更加關(guān)注這一領(lǐng)域老厌。
08 年 NIPS 基金會沒有批準(zhǔn) Deep Learning 的研討會申請瘟则,結(jié)果組織者自行開會,包括 Michael Jordan枝秤,Andrew Blake 等一眾機器學(xué)習(xí)及相關(guān)領(lǐng)域最具影響力的資深學(xué)者都出席了會議醋拧,會場爆滿。除了一直沒有放棄的 LeCun 等人淀弹,這一領(lǐng)域還吸引來了 Stanford 機器學(xué)習(xí)的教授丹壕、Coursera 創(chuàng)始人 Andrew Ng。Ng 的研究組薇溃,率先做出了和現(xiàn)有最高水平相提并論的結(jié)果菌赖。后來, 大家一步步推進,深度學(xué)習(xí)在很多實際評測中遙遙領(lǐng)先沐序,一下就火了琉用。
深度學(xué)習(xí)主張,如果 ANN 的隱層足夠多策幼,選擇適當(dāng)?shù)倪B接函數(shù)和架構(gòu)辕羽,并增加一個非監(jiān)督學(xué)習(xí)的“pre training”網(wǎng)絡(luò)組成,就會具有更強的表述能力垄惧,但常用的模型訓(xùn)練算法反向傳播(back propagation)仍然對計算量有很高的要求。近年來绰寞,得益于計算機速度的提升到逊、基于 MapReduce 的大規(guī)模集群技術(shù)的興起、GPU 的應(yīng)用以及眾多優(yōu)化算法的出現(xiàn)滤钱,耗時數(shù)月的訓(xùn)練過程可縮短為數(shù)天甚至數(shù)小時觉壶,深度學(xué)習(xí)才在實踐中有了用武之地。
在計算機視覺領(lǐng)域件缸,深度學(xué)習(xí)首先在手寫識別領(lǐng)域表現(xiàn)出眾铜靶。2012 年,在物體識別(被譽為計算機視覺圣杯)的權(quán)威測試 Imagenet Challenge 中他炊,深度學(xué)習(xí)遙遙領(lǐng)先于其他經(jīng)典算法(16% VS 26%)争剿,吸引了無數(shù)眼球已艰。紐約大學(xué)計算機科學(xué)系副教授 Rob Fergus(和 Yann LeCun 一起加入 Facebook AI Lab)的學(xué)生 Matthew Zeiler,創(chuàng)立了一家提供圖像搜索服務(wù)的公司——Clarifai蚕苇。他的深度學(xué)習(xí)算法在本月剛剛結(jié)束的 ICCV Imagenet Challnge 2013 中哩掺,繼續(xù)領(lǐng)先于其他算法。
深度學(xué)習(xí)產(chǎn)品化的浪潮中涩笤,科技巨頭機會更大
Google 研究員 Ilya Sutskever 最近表示嚼吞,如果數(shù)據(jù)足夠多、計算能力足夠強蹬碧、人工神經(jīng)網(wǎng)絡(luò)足夠深舱禽,即便不加“pre training”預(yù)處理,也可以取得目前最好的結(jié)果恩沽,這充分證明誊稚,目前的深度學(xué)習(xí)對標(biāo)注數(shù)據(jù)量和計算能力都提出了很高的要求。
目前更像是巨頭們的游戲飒筑。Google 和百度都已在自己的圖像搜索中部署了深度學(xué)習(xí)技術(shù)片吊。Google 在內(nèi)部多個項目組推廣深度學(xué)習(xí)平臺,而百度也將深度學(xué)習(xí)算法運用到了語音等多個產(chǎn)品中协屡。今年 5 月俏脊,前 Facebook 資深科學(xué)家徐偉加盟百度深度學(xué)習(xí)研究院(Institute of Deep Learning, IDL)。在這次 NIPS“深度學(xué)習(xí)研討會”上肤晓,IDL 還設(shè)立了展臺爷贫,它在深度學(xué)習(xí)方面的研究成果在學(xué)術(shù)界也越來越有影響力。
最近补憾,F(xiàn)acebook 在人工智能領(lǐng)域動作頻頻漫萄。Zuckerburg 和俄羅斯富豪尤里一起創(chuàng)立了 300 萬美元獎金的 Breakthrough Prize in Mathematics,可謂與 AI Lab 的設(shè)立一脈相承盈匾。擁有海量數(shù)據(jù)的互聯(lián)網(wǎng)巨頭中腾务,Google 收購了 Geoffrey Hinton 的創(chuàng)業(yè)公司 DNNResearch(一家專注于語音和圖像識別技術(shù)的研究公司), 百度挖來余凱老師創(chuàng)立了 IDL 研究院,IBM 研究院 Watson 電腦開始研究深度學(xué)習(xí)相關(guān)技術(shù)削饵,微軟研究院鄧力老師率先把深度學(xué)習(xí)應(yīng)用在語音識別中岩瘦,Yahoo 收購了 LookFlow 來創(chuàng)建深度學(xué)習(xí)小組,Amazon 在柏林創(chuàng)立了機器學(xué)習(xí)研究中心……
這一系列行動窿撬,無論是出于戰(zhàn)略防御启昧,還是單純被深度學(xué)習(xí)吸引,一個無法否認(rèn)的事實是:深度學(xué)習(xí)產(chǎn)品化的熱潮已經(jīng)撲面而來劈伴。
深度學(xué)習(xí)有局限性,初創(chuàng)公司應(yīng)理性選取機器學(xué)習(xí)算法
有些人覺得深度學(xué)習(xí)似乎沒有理論深度严里,其實不然新啼。查閱一下 Geoffrey Hinton 的論文田炭,其中用到的理論很深刻师抄,數(shù)學(xué)技巧也很復(fù)雜,深度學(xué)習(xí)的理論門檻較高教硫。但是好消息是,以 Hinton瞬矩、Yoshua Bengio 為首的研究組開放了越來越多的源代碼,包括 GPU 的實現(xiàn)景用,而且多種不同算法的開源實現(xiàn)也被公開涵叮,所以算法實現(xiàn)的門檻已經(jīng)降低了很多。
對于創(chuàng)業(yè)者來說伞插,困難在于如何獲取大規(guī)模已標(biāo)注數(shù)據(jù)、集成有 GPU 的計算集群以及針對自己的項目調(diào)參數(shù)媚污。調(diào)參數(shù)一直是深度學(xué)習(xí)被學(xué)術(shù)界詬病的話題,早期只有幾個圈內(nèi)的小組掌握著調(diào)參數(shù)的秘方和數(shù)據(jù)處理的技巧京髓。目前的深度學(xué)習(xí)參數(shù)調(diào)節(jié)已經(jīng)比之前透明化了許多商架,但仍是開發(fā)過程中最為耗時的一部分堰怨。
目前主打深度學(xué)習(xí)的創(chuàng)業(yè)公司并不是很多蛇摸,除了被Google收購的DNNResearch,Hinton 的另外一個學(xué)生最近在倫敦組建了 DeepMind赶袄,也在 NIPS 研討會上進行了展示,他們使用深度學(xué)習(xí)改進了傳統(tǒng)的強化學(xué)習(xí),以尋找優(yōu)秀的策略來打游戲幢痘,算法的表現(xiàn)和人的策略很相似。
還有位于舊金山的初創(chuàng)公司 Ersatz 主打深度學(xué)習(xí)的云平臺购岗,以進一步降低深度學(xué)習(xí)的門檻,但是除了數(shù)據(jù)問題喊积,其技術(shù)水平有待觀察且商業(yè)策略與眾多大數(shù)據(jù)平臺小公司無二,能否在激烈的商業(yè)拓展中脫穎而出還是問號乾吻。還有個別圖像和文字理解的初創(chuàng)公司加入了深度學(xué)習(xí)的模塊作為補充手段髓梅,在實際問題尤其是不同數(shù)據(jù)集上的應(yīng)用尚有待觀察绎签。
但是,深度學(xué)習(xí)算法能夠成功運行的前提仍然是诡必,項目能夠采集到充分大的標(biāo)注且數(shù)據(jù)維度足夠高或者你的想法足夠通用奢方。有了大數(shù)據(jù)樣本才能緩解復(fù)雜模型的過度學(xué)習(xí)(overfitting)。從某種意義上說爸舒,這也給了其他機器學(xué)習(xí)算法很多機會。比如說扭勉,因為隱私原因,服務(wù)企業(yè)的大數(shù)據(jù)平臺就很難應(yīng)用深度學(xué)習(xí)嫉入,
深度學(xué)習(xí)的另一局限性是可解釋性不強璧尸,即便是一流的學(xué)者也很難對效果超群的深度學(xué)習(xí)算法在具體問題上給出具體解釋。這有可能成為產(chǎn)品迭代過程中的阻礙爷光。深度學(xué)習(xí)本身是支持在線學(xué)習(xí)和數(shù)據(jù)流,但是相關(guān)理論尚待完善蛀序。如上所述,深度學(xué)習(xí)目前主要集中于監(jiān)督學(xué)習(xí)遣鼓,在非監(jiān)督學(xué)習(xí)領(lǐng)域重贺,除了 Google 前一段時間公布的用于自然語言處理的 word2vec回懦,還沒有很出彩的工作次企。
從深度學(xué)習(xí)的研究者身上,我們可以看到缸棵,一個好的研究者要對自己的研究有足夠強的信念。正如馬云所說吧凉,好的創(chuàng)業(yè)者要堅持自己的信念型诚,而不是盲目跟風(fēng)。我前不久遇見了 Aria Haghigh狰贯,他是 Prismatic 這個創(chuàng)業(yè)公司的創(chuàng)始人,同時也是一位名校畢業(yè)傍妒、成果卓著的機器學(xué)習(xí)研究者摸柄,放棄了教職出來創(chuàng)業(yè)。他也懂深度學(xué)習(xí)驱负,但是對于他的產(chǎn)品和數(shù)據(jù)來說,他說深度學(xué)習(xí)并不是首選宇挫,因為數(shù)據(jù)的特性不同酪术。
Prismatic 其實用的是 Logistical Regression 的算法,這一算法相對成熟绘雁,不過依然有很多地方可以優(yōu)化庐舟。他們甚至自行創(chuàng)建了分布式系統(tǒng),而不是使用 Hadoop挪略。事實上废酷,目前諸多搜索引擎和社交網(wǎng)絡(luò)的廣告系統(tǒng)都是以 Logistical Regression 的算法為基礎(chǔ)的抹缕,相關(guān)產(chǎn)品的體驗和速度都非常棒墨辛。樸實的算法,花同樣的時間去調(diào)參數(shù)奏赘,對產(chǎn)品已經(jīng)足夠了太惠,因為用戶是不會察覺準(zhǔn)確率上百分之零點幾的差別。
此外凿渊,每個人對人工智能都有自己的見解埃脏。比如,Peter Thiel 投資了 Machine Intelligence Research Institute——這個研究機構(gòu)對于目前主流的機器學(xué)習(xí)算法不滿彩掐,試圖從交叉學(xué)科的角度,創(chuàng)建更接近人狗超、更友好的智能朴下。
歷史不會重演,卻常常驚人得相似桐猬。翻開 Yann LeCun 的簡歷,這并不是他第一次投身工業(yè)界免胃。他曾經(jīng)是 AT&T 實驗室(Bell 實驗室拆分后留在 AT&T 的部分)圖像處理組的負(fù)責(zé)人惫撰,并試圖硬件化人工神經(jīng)網(wǎng)絡(luò),后來由于公司策略調(diào)整扼雏,整個研究組被裁,他才挪移到紐約大學(xué)任教诗充,繼續(xù)自己獨樹一幟的研究(曾贏得國防部的合同)。
這次碟绑,他終于等到了深度學(xué)習(xí)(deep learning)的復(fù)興茎匠,接受了 Facebook 的工作邀約再次回歸工業(yè)界。之所以會聘請 LeCun 等高校教授回到業(yè)界诵冒,是因為深度學(xué)習(xí)在實踐中確實取得了效果,而公司之前也雇傭過這些教授麾下的學(xué)生侮东,合作下來都很愉快惭蟋。
誰也不知道深度學(xué)習(xí)是否會像其他算法一樣進入瓶頸期。如何把深度學(xué)習(xí)運用到產(chǎn)品中煤伟,將產(chǎn)品智能化木缝,提升用戶體驗——這越來越受到公司的關(guān)注。