機器學(xué)習(xí)大神邁克爾 · 喬丹:我討厭將機器學(xué)習(xí)稱為AI

編譯 | AI科技大本營(公眾號ID:rgznai100

參與 | reason_W

上月,由 Michael I.Jordan 腰根、Jeff Dean家凯、李飛飛、LeCun 等多位人工智能領(lǐng)域的大牛發(fā)起的系統(tǒng)機器學(xué)習(xí)會議 SysML 在斯坦福開幕该默。

會上,機器學(xué)習(xí)宗師級大牛 Michael I.Jordan 就《系統(tǒng)與機器學(xué)習(xí)的前景與挑戰(zhàn)》進(jìn)行了主旨演講策彤。因為和 NBA 球星邁克爾·喬丹名字相近栓袖,他有著一個有趣的稱號:“The Michael Jordan of Machine Learning”,機器學(xué)習(xí)界的邁克爾·喬丹店诗。

為什么說他是機器學(xué)習(xí)宗師級大牛裹刮?要知道,在這一領(lǐng)域的重要學(xué)者如吳恩達(dá)庞瘸,Zoubin Ghahramani,?Tommi Jaakkola,??Lawrence Saul?和?David Blei 都是他的學(xué)生捧弃。他現(xiàn)在擔(dān)任加州大學(xué)伯克利分校電機工程與計算機系和統(tǒng)計學(xué)系教授。

Michael I.Jordan的重要貢獻(xiàn)則包括指出了機器學(xué)習(xí)與統(tǒng)計學(xué)之間的聯(lián)系擦囊,并推動機器學(xué)習(xí)界廣泛認(rèn)識到貝葉斯網(wǎng)絡(luò)的重要性违霞。他還以近似推斷變分方法的形式化、最大期望算法在機器學(xué)習(xí)的普及方面的工作而知名瞬场。

此次演講中买鸽,從一開始他就現(xiàn)在所謂的“AI”進(jìn)行了抨擊。他認(rèn)為贯被,現(xiàn)在媒體上熱炒的“AI”概念言過其實眼五,很多人都是為了借此向 VC妆艘、媒體以及大眾兜售概念。至于真正的 AI看幼,“我們根本還沒有實現(xiàn)”批旺。也有相當(dāng)一部分研究者陷入了深度學(xué)習(xí)的泥潭,思維變得更加狹窄诵姜。

他回顧了機器學(xué)習(xí)領(lǐng)域的現(xiàn)狀朱沃,以及今后發(fā)展面臨的挑戰(zhàn)。雖然機器學(xué)習(xí)理論目前的發(fā)展達(dá)到了一定高度茅诱,但他很討厭人們現(xiàn)在突然將它稱為 AI,因為那仍然還只是機器學(xué)習(xí)搬卒。他認(rèn)為真正 AI 的實現(xiàn)瑟俭,需要依靠邏輯、推理契邀、決策等運算的突破才能實現(xiàn)摆寄,但現(xiàn)在它們之間還存在明顯脫節(jié)

一些經(jīng)典 AI 領(lǐng)域坯门,如計算機視覺微饥、NLP 等還遠(yuǎn)未達(dá)到智能和實用的地步,有賴進(jìn)一步研究和努力古戴。與此同時欠橘,傳統(tǒng)的社交平臺,如 Facebook现恼,還遠(yuǎn)沒有真正地將人們連接起來肃续。醫(yī)療、金融叉袍、音樂始锚、餐飲等眾多系統(tǒng)平臺仍存在巨大的想象空間,要做到這些喳逛,需要研究者們跳出傳統(tǒng)視角瞧捌。

本文為 Michael I.Jordan 在大會上的演講實錄(有刪節(jié)),人工智能頭條整理润文。

▌?我們還沒有實現(xiàn)真正的 AI

你們知道姐呐,我之前從 MIT(麻省理工)離職去了 UC 伯克利。這其實是因為 MIT 沒有任何跟統(tǒng)計相關(guān)的專業(yè)转唉,并且直到現(xiàn)在也還不算有皮钠,而我認(rèn)為統(tǒng)計學(xué)對計算機科學(xué)至關(guān)重要。雖然今天計算機科學(xué)的發(fā)展已經(jīng)十分激動人心赠法,但它依然還沒有解決推理性的問題麦轰,在計算機和推理之間有一個脫節(jié)乔夯,所以我才要跳槽去研究概率和統(tǒng)計。

很多人說我這些做法是在從統(tǒng)計視角在研究 AI款侵,這種看法欠妥末荐,我只是在研究機器學(xué)習(xí)。AI 是一個非常寬泛的概念新锈,它幾乎涉及到所有層面的計算機科學(xué)甲脏。它的每一部分都應(yīng)該涉及到數(shù)據(jù)流,并且應(yīng)該基于這些數(shù)據(jù)自適應(yīng)地進(jìn)化妹笆。這里面全是計算機科學(xué)块请,但直到今天,這一看法也還沒有在計算機系得到很多認(rèn)同拳缠,他們?nèi)匀徽J(rèn)為統(tǒng)計是 AI 的一部分墩新。

我已經(jīng)疲于應(yīng)對這些爭論了。

今天窟坐,我們到處都可以看到“AI”這一字眼海渊,媒體上鋪天蓋地。這讓我感到非常不安哲鸳,因為那些說法太言過其實了臣疑。我們沒有實現(xiàn)人工智能,沒有實現(xiàn)智能徙菠,甚至連它們是什么都不知道讯沈。我們說現(xiàn)在的系統(tǒng)都涉及到數(shù)據(jù)的輸入輸出,它們其實是在模仿一些很聰明的東西婿奔,但也僅僅是模仿芙盘,根本稱不上是智能,我們并沒有實現(xiàn)它脸秽。

今天儒老,很多人樂衷于使用“AI”這個流行詞。但這只不過是他們借此向 VC(風(fēng)險投資)记餐、企業(yè)驮樊、媒體以及大眾兜售一些他們自己的概念。至于真正的 AI片酝,我們根本還沒有實現(xiàn)囚衔。我現(xiàn)在雖然不再跳出來爭論這些話的對錯,但依然會在內(nèi)心時時刻刻提醒自己:我們還并沒有實現(xiàn)所謂的 AI雕沿。

現(xiàn)在练湿,我非常高興我們有了一個這樣的社區(qū),我們當(dāng)前真正需要的正是建設(shè)性的努力审轮,那必須保持嚴(yán)肅和清醒肥哎。并不是所有的炒作都是在為了在 AI 淘金熱中大賺一筆辽俗,他們或許也是為了能夠真正實現(xiàn) AI,讓這個世界變得越來越美好篡诽,讓 AI 更加穩(wěn)定崖飘,更加真實,足夠支撐建立一個全新科學(xué)領(lǐng)域所需的概念杈女。

這就像有人喜歡土木工程朱浴、喜歡化工工程師一樣,我也非常尊敬他們在所在領(lǐng)域做出的實實在在的努力达椰。他們研究出的東西切實改變了每個人的生活翰蠢,而這也正是 AI 領(lǐng)域所需要的和依然欠缺的。

機器學(xué)習(xí)領(lǐng)域的現(xiàn)狀

機器學(xué)習(xí)理論已經(jīng)發(fā)展到了目前我們所看到的高度啰劲,我在二十年前我就已經(jīng)預(yù)見到它的發(fā)展會是這樣:數(shù)據(jù)將無處不在躏筏,用機器學(xué)習(xí)進(jìn)行決策和商業(yè)建模將成為我們的習(xí)慣。但我很討厭人們現(xiàn)在突然將它稱為 AI呈枉,雖然最近有一些新的想法出現(xiàn),但那仍然還只是機器學(xué)習(xí)埃碱。我不和他們爭論猖辫,并不代表認(rèn)可他們的說法。相反砚殿,我會更加堅持自己的追求啃憎。

這世上并沒有魔法,機器學(xué)習(xí)只是將它的輸入輸出映射到它對一些處理機制的模仿之上了似炎,雖然這看起來很神奇辛萍,但其實依然還有很多真正的問題——比如從廣義上來說,很多層面上的系統(tǒng)問題——都還沒有得到解決羡藐。

機器學(xué)習(xí)也還遠(yuǎn)遠(yuǎn)沒有發(fā)展到足以成為一個可靠的工程原則贩毕,可以針對現(xiàn)代數(shù)據(jù)分析問題得到魯棒的、可擴展的解決方案仆嗦。有很多涉及到不確定性辉阶、推理、決策瘩扼、魯棒性和規(guī)淖惶穑化的問題都還沒有得到解決。更不要說經(jīng)濟學(xué)系統(tǒng)了集绰,因為我們甚至對建立系統(tǒng)時的定價和激勵行為也還沒有足夠的思考规辱。社會法律系統(tǒng)也是如此。

我以為每個人都會或多或少意識到這一點栽燕,但沒想到等待他們意識到這一點需要的時間卻長得不可思議罕袋。

扎克伯格在一年前的演講中曾談到他創(chuàng)建 Facebook 時的經(jīng)歷改淑,“我什么都不知道,在這一過程中也并沒有扮演任何角色炫贤。我們只是搭建了一個平臺溅固,而關(guān)于如何使用它甚至都沒有規(guī)定。但后來讓我感到震驚的是兰珍,人們并沒有很好地使用它”侍郭。

我們不僅要時刻注意人們有沒有用這個平臺來做壞事——比如虛假新聞,還要讓人們可以通過這個平臺得到正確結(jié)果掠河,否則每天都會有數(shù)十萬人因此做出錯誤的醫(yī)療決定亮元、糟糕的交通狀況或者財務(wù)決策。到目前為止唠摹,我們甚至都還沒有在解決這些問題上取得一點進(jìn)步爆捞。我們的反應(yīng)就好像在說我們本來就是如此。

對我來說勾拉,系統(tǒng)機器學(xué)習(xí)瞄準(zhǔn)的目標(biāo)太低了煮甥。這個社區(qū)中的很多人炒作深度學(xué)習(xí)太過頭了,我們已經(jīng)有了反向傳播(Backpropagation)這個偉大的學(xué)習(xí)機器藕赞;我們要讓它可以更好成肘、更快、更容易實現(xiàn)斧蜕,所有這些都會很快實現(xiàn)双霍;公司也會成立,經(jīng)濟也會向前發(fā)展批销。但這樣做的目標(biāo)定得太低了洒闸,這僅僅是一個非參數(shù)回歸問題,甚至都談不上“是”均芽。所以我希望作為一個社區(qū)丘逸,我們可以有更高的目標(biāo),我們不能僅僅努力讓反向傳播更容易掀宋。

?“AI” = IA + II

下面我來談一下為什么我說在人們的腦海里計算機和推理沒有連接起來鸣个。

其實在我一開始接觸這個領(lǐng)域的時候,我當(dāng)時學(xué)習(xí)了一些關(guān)于 AI 的東西布朦,但我沒有真正研究過囤萤。那時候有很多研究 AI 的觀點,比如通過廣度優(yōu)先搜索來尋找一個明星是趴,這也是約翰·麥卡錫(John McCarthy)真正在 MIT 在做的研究涛舍。(注:約翰麥卡錫,人工智能領(lǐng)域的開山鼻祖之一唆途,他曾發(fā)起和參與 AI 歷史上著名的達(dá)特茅斯會議富雅,后來前往斯坦福并組建了斯坦福人工智能實驗室掸驱。)

我要說的這個故事和你們往常聽的有點不同:人工智能這個概念并不是 Minsky、McCarthy没佑、Newell 他們那些人坐在一起開了個會就討論出來的毕贼。

麥卡錫剛到 MIT 的時候就說過他會研究智能(Intelligence)和計算領(lǐng)域。他們說那并不是控制論蛤奢,控制論已經(jīng)有維納在做了鬼癣,麥卡錫解釋了這兩個領(lǐng)域的區(qū)別。真正讓人們意識到 AI 是一個新領(lǐng)域的是啤贩,這個領(lǐng)域更多的是基于邏輯而不是控制理論和信號優(yōu)化待秃,所以他必須給它一個新的名字,所以他發(fā)明了“Artificial Intelligence”這個詞痹屹。我覺得這個故事更加真實章郁。

然而,歷史的奇異轉(zhuǎn)折之處在于現(xiàn)在研究 AI 的所有想法都在維納那一邊志衍,都是關(guān)于優(yōu)化統(tǒng)計的暖庄,并且沒有邏輯,但現(xiàn)在大家用的“AI”這個詞卻依然還是麥卡錫發(fā)明的那個詞楼肪。

無論如何培廓,AI 依然是一個偉大的愿景。這是一個在思考應(yīng)該如何將計算實體與軟硬件結(jié)合到一起淹辞,并構(gòu)建能夠捕捉智能的東西的哲學(xué)問題,這很有意思俘侠。

我認(rèn)為這仍然還只是一個學(xué)術(shù)領(lǐng)域的愿景象缀,并不認(rèn)為它有必要或者已經(jīng)足夠用于促進(jìn)社會進(jìn)步或工業(yè)發(fā)展。我并不相信我們能夠建立通用智能爷速,并且它可以解決世界上所有問題的說法央星。那只是愚蠢的科幻小說里的東西,并且是既不必要也不足夠的惫东。我們需要把思想從一些真實問題中解放出來莉给。有很多有錢的名人說我們要建立一個通用人工智能,然后就可以解決世界上的問題廉沮,比如癌癥颓遏。我并不想談?wù)撨@些東西,但人們總是這樣在說滞时。

不管如何叁幢,現(xiàn)在有個有趣的觀點,我們并不是要讓所有的事情都變好坪稽。與此同時曼玩,真正發(fā)生的事實也并不是 AI 取得了巨大的成功鳞骤,而是“IA”(Intelligence Augmentation)取得的巨大成就。

搜索引擎就是這其中的一個代表黍判,它是一個機器學(xué)習(xí)系統(tǒng)豫尽,不停地獲取數(shù)據(jù)并隨時間進(jìn)行改善以做出更好的決策。 像其他很多實際工程系統(tǒng)一樣顷帖,那是一個涉及到很多東西的機器學(xué)習(xí)算法美旧,但那也意味著很多智能。比如我不必記住白俄羅斯的首都窟她,但是當(dāng)我在網(wǎng)上搜索一下就可以馬上知道陈症。我看起來非常聰明,因為我無所不知震糖。

我也可以在這里說英語录肯,然后通過安裝同傳系統(tǒng)讓你們聽到漢語〉跛担看起來似乎我可以說很多門語言论咏,但其實我并不會說漢語,這是因為電腦增強了我的智能颁井。很多這種用深度學(xué)習(xí)實現(xiàn)的東西厅贪,我認(rèn)為它們很有趣,但是——比如你見得很多的風(fēng)格轉(zhuǎn)換雅宾,人們輸進(jìn)去一張圖片养涮,然后它會被轉(zhuǎn)換成另一張很酷的圖片,看起來像梵高的畫一樣眉抬,那作為一個玩具會非常有趣贯吓。但它真正做的是增強了人們的創(chuàng)造力。

它是一種“增強” 蜀变,并不是人們說的智能悄谐。但那已經(jīng)很有趣了,你甚至可以用它來創(chuàng)作音樂库北,但直接用它寫交響樂就很傻了爬舰,誰會在乎一臺電腦會不會寫交響樂呢,無論那意味著什么寒瓦。但它卻可以為下一個貝多芬或者杰出藝術(shù)家的誕生提供一個自由創(chuàng)作的環(huán)境情屹,那才是真正令人激動的,那就是 IA杂腰。

還有一些更為重要的東西屁商,我將其稱之為“II”,即“Intelligent Infrastructure”。在我們身邊發(fā)生的事正越來越多的體現(xiàn)著這個世界對我們的了解蜡镶。

世界正在被連接起來雾袱,比如我只要動動手機,就可以在幾秒鐘之內(nèi)約到一輛汽車官还,它可以帶我到達(dá)目的地芹橡。這個世界正在通過網(wǎng)絡(luò)變得越來越智能——只要你在一個大的復(fù)雜系統(tǒng)上加上數(shù)據(jù),加上人類望伦,那就是物聯(lián)網(wǎng)林说。那是一個萬億美元的經(jīng)濟市場,并且正在改變?nèi)祟惖纳钔蜕。淖兡銓τ卺t(yī)療腿箩、金融和日常生活的想象。所有這些都是非常巨大的改變劣摇,并且在過去的幾十年確確實實發(fā)生了珠移。

這讓我想起了亞馬遜——他們是第一家認(rèn)真做這件事的公司,并且是在 90 年代末融,遠(yuǎn)在我們炒作這個概念之前【澹現(xiàn)在有很多公司正在建設(shè)物流預(yù)測以及欺詐系統(tǒng),還有推薦系統(tǒng)勾习,這些都是非常棒的事情浓瞪,但那都是機器學(xué)習(xí),不是我所謂的 AI巧婶,真正的 AI 將比我們現(xiàn)在看到的更為激動人心乾颁。

我認(rèn)為在這里有一個脫節(jié)。如果你以這種經(jīng)典的方式研究 AI 艺栈,你或許會對視覺英岭、語音、自然語言處理還有機器人感興趣眼滤,因為你是對這種具體的智能體感興趣巴席,它們會像我們一樣做出智能的行動历涝。你想到的所有東西都是和具體智能體有關(guān)诅需,所以你可以根據(jù)場景開發(fā)算法,并且將它們轉(zhuǎn)變成目標(biāo)荧库、標(biāo)簽或者語音堰塌。那都是很棒的,但那并不能解決我們在建立一個真實世界系統(tǒng)時所遇到的真實問題的十分之一分衫。那只是“IA”或者“II”场刑,而且人們的注意力會被視覺或語音方面的問題所分散。

▌?未曾解決的經(jīng)典 AI 問題

雖然有些經(jīng)典的 AI 問題看起來已經(jīng)快要解決了蚪战,但我要說牵现,我認(rèn)為我們實際上還遠(yuǎn)沒有解決這些經(jīng)典的 AI 問題铐懊。

在計算機視覺中,我們可以比之前更好的標(biāo)注目標(biāo)和場景瞎疼,但它們并不是真實場景科乎,那只不過是從互聯(lián)網(wǎng)上獲取的包含目標(biāo)的圖片。如果你使用相同的訓(xùn)練集進(jìn)行測試贼急,正確率可以達(dá)到 90%茅茂,但是在真實的世界中那可能只有 20%。因此太抓,我們只不過是對場景中的對象進(jìn)行了標(biāo)注空闲,并沒有真正解決這個問題。而關(guān)于場景的意義是什么?場景中正在發(fā)生什么事叹坦?接下來會發(fā)生什么跪解?我們甚至都還不知道。所以人們說計算機視覺技術(shù)得到的一些東西非秤鞍撸荒謬。

語音領(lǐng)域和語義領(lǐng)域也是一樣机打〗没В總的來說,我們生活在一個依靠聽覺的聲音世界中残邀,但在閉上眼睛之后皆辽,我們還遠(yuǎn)不能單純靠聽聲音來了解周圍世界。因為沒有語義信息芥挣,甚至都沒法開始自然語言處理驱闷。

翻譯并不是輸進(jìn)去一種語言的字符串,然后得到另一種你之前已經(jīng)見過很多次的語言的字符串就可以了空免。我說法語很流暢空另,你用英語和我交流,我也能理解你說話的意思蹋砚,我會將你話里的概念轉(zhuǎn)換成法語詞匯扼菠,而不是將英語字符串映射為正確的法語字符串。你甚至還可以再通過努力讓它的正確率達(dá)到 90%坝咐,但那依然是無效的循榆。

視覺技術(shù)可以通過有監(jiān)督標(biāo)記和一些無監(jiān)督標(biāo)記技術(shù)來應(yīng)用,而自然語言就不行墨坚。如果不相信秧饮,你可以試著讀一下道格拉斯·霍夫施塔特(Douglas Hofstadter)前幾天在美國《大西洋月刊》上的一篇文章。他通過英語、法語盗尸、德語和中文四種語言翻譯的比對論證得出一個結(jié)果:谷歌翻譯即使應(yīng)用了人工智能技術(shù)也沒有真正理解語言柑船。

語言真的是人類的智慧,包含了對這個世界各種事物的諷刺泼各、隱喻椎组、引用和參考。只有我們真的了解這個世界才能搞明白語義历恐,它需要理解人類的社會行為寸癌、概念行為,而這些并不能通過標(biāo)簽數(shù)據(jù)和很多字符串來實現(xiàn)弱贼。

讓我們繼續(xù)回到主題上蒸苇。剛剛我們討論的是翻譯,現(xiàn)在說一下對話吮旅。

對話并不只是一個可以和你不停對話的聊天機器人溪烤,雖然那聽起來比較有趣。它實際上是試圖實現(xiàn)一個目標(biāo)庇勃,比如我想訂一個飛往巴黎的航班檬嘀,這中間涉及到我自己的各種復(fù)雜偏好,然后最終可以把我?guī)У侥抢?/b>责嚷。所以我們必須有一個對話逐漸地將我這個意愿通過機器人落實到真實世界的實際行動上鸳兽,但我們離這一步還很遠(yuǎn)。

談到機器人技術(shù)罕拂,你知道它有很多進(jìn)步揍异。但我仍然十分懷疑,目前工業(yè)界的機器人只能在非常有限的環(huán)境中工作爆班。我們雖然已經(jīng)可以讓機器人和人類進(jìn)行互動衷掷,但我并不認(rèn)為它在我們的生活環(huán)境中工作會沒有問題。

▌?機器學(xué)習(xí)近期的挑戰(zhàn)

現(xiàn)在讓我們接著談?wù)摷夹g(shù)柿菩。如果你是一個系統(tǒng)機器學(xué)習(xí)研究人員戚嗅,并且認(rèn)為自己的生活將支持深度學(xué)習(xí)方式——我也認(rèn)為這非常有用——但這里還有一大堆其它的甚至稱不上是 AI 的東西。

多重決策(Multiple Decisions)枢舶,統(tǒng)計學(xué)家一直在討論這個話題懦胞,但機器學(xué)習(xí)領(lǐng)域的人卻幾乎不談?wù)撨@個。你可以構(gòu)造一個神經(jīng)網(wǎng)絡(luò)祟辟,它需要輸入一些圖片或者搜索引擎營銷信息(SEM)医瘫,甚至一些數(shù)據(jù)的歷史信息來進(jìn)行決策侣肄。它會對不同環(huán)境中的不同人員使用相同的神經(jīng)網(wǎng)絡(luò)做出成百上千次決策旧困,那完全是個災(zāi)難。

這些決策有可能是完全錯誤的。比如碰巧在下雨天你要乘坐某個交通工具吼具,每個人可能最后都會乘坐同樣的交通工具僚纷,到達(dá)相同的街道,這勢必會造成擁擠拗盒。相關(guān)決策波動會導(dǎo)致最終結(jié)果的變化怖竭,即使那不滿足獨立同分布假設(shè)。

我們現(xiàn)在的系統(tǒng)仍然是假設(shè)我們處在一種理想世界中陡蝇,所以總會有錯誤發(fā)現(xiàn)率存在(注:錯誤發(fā)現(xiàn)率 FDR( False Discovery Rate)是指錯誤拒絕(拒絕真的(原)假設(shè))的個數(shù)占所有被拒絕原假設(shè)個數(shù)比例的期望值)痊臭。系統(tǒng)應(yīng)該支持可以有錯誤發(fā)現(xiàn)率,而不僅僅是支持神經(jīng)網(wǎng)絡(luò)中的邏輯回歸登夫、決策樹广匙。 如果你的系統(tǒng)不支持,我就不會在我的公司用它恼策。

要有一個這樣能夠創(chuàng)造市場的系統(tǒng)鸦致,我認(rèn)為需要考慮大量的因素。所以我們會將經(jīng)濟學(xué)引入我們的系統(tǒng)涣楷,我們需要擁有消費者和生產(chǎn)者雙向的連接分唾,而不是僅僅建立一個可以讓人們上傳數(shù)據(jù)并從中獲取答案的平臺,而不建立一個實際系統(tǒng)狮斗。

在今天绽乔,不確定性依然存在。我們在統(tǒng)計學(xué)中談?wù)摰?Bootstrap碳褒、貝葉斯理論迄汛、Jackknife(刀切法)以及其他原則都還沒有在計算機科學(xué)系統(tǒng)內(nèi)部建立

它們只是輸入輸出骤视,給出一條 ROC 曲線就好像已經(jīng)完成了其實本沒有完成的工作鞍爱。所以要如何將智力結(jié)合到其中呢?要怎樣解決他們兩者之間不連貫的事實专酗?這是非常關(guān)鍵的問題睹逃,我們必須解決這一點,并且必須假設(shè)這些問題可以通過計算機科學(xué)進(jìn)行處理祷肯。

談到抽象沉填,人類其實非常善于發(fā)現(xiàn)抽象。舉個例子佑笋,比如我可以發(fā)明一個新詞匯“Blecch”翼闹,然后說一些關(guān)于“Blecch”的事情,你就可以知道和它有關(guān)的各種各樣的事蒋纬。你可以通過抽象進(jìn)行推理猎荠,事實上也正是因為我們可以創(chuàng)建抽象概念坚弱,計算機科學(xué)才可以發(fā)展的這么好。

我的兒子非常擅長發(fā)現(xiàn)類比关摇、隱喻以及那些有趣的東西荒叶,這些都會在他的大腦中形成一個新的抽象。但神經(jīng)網(wǎng)絡(luò)和那個差的太遠(yuǎn)了输虱,神經(jīng)網(wǎng)絡(luò)必須要先看到大量的數(shù)據(jù)些楣,最終才能發(fā)現(xiàn)一個新特征,或者如果有人非要稱其為抽象也可以宪睹。

數(shù)據(jù)溯源(Provenance)愁茁,這非常重要。實際上我對數(shù)據(jù)科學(xué)非常感興趣亭病。在醫(yī)療系統(tǒng)中埋市,有很多誤報(假陽性)導(dǎo)致很多死亡的案例。在我兒子出生的時候命贴,有一些錯誤的成像結(jié)果道宅,那是一個誤報。如果我們相信了那條決策路線胸蛛,就可能會走一個非常危險的程序污茵,甚至殺死胎兒。我認(rèn)為那也可能發(fā)生在你身上葬项,我計算的結(jié)果是在過去的幾年中泞当,由于誤報,每天大概有 20 個胎兒會被殺死民珍。

誤報和不好的統(tǒng)計數(shù)據(jù)無關(guān)襟士,而是與錯誤的報告結(jié)果有關(guān)。在某種情況下進(jìn)行計算的數(shù)據(jù)嚷量,實際上在相同情形下用于新的成像機器時是不準(zhǔn)確的陋桂。那聽起來是一個討厭的數(shù)據(jù)庫問題。但就是那個東西讓模型有時難以發(fā)揮作用蝶溶。

關(guān)于長期目標(biāo)嗜历,人類非常善于追求長期目標(biāo),比如選擇職業(yè)抖所、買房梨州。而我們的機器卻并不具備實現(xiàn)長期目標(biāo)的能力。不要跟我說強化學(xué)習(xí)田轧,那也沒有長期目標(biāo)暴匠。

實時性能這一目標(biāo),我想那些設(shè)計自動駕駛汽車的人應(yīng)該認(rèn)識到了它的重要性傻粘,而其他人還沒有意識到這正是我們要考慮的關(guān)鍵部分每窖。這也不是傳統(tǒng) AI 的一部分帮掉。

如果你是一個真正有雄心的系統(tǒng)人員,這些都會是亟待解決的重大問題岛请,并且大多還是很少受到關(guān)注或者正在受關(guān)注但還需要一段時間才能解決的問題。

▌?機器學(xué)習(xí)與市場的創(chuàng)造性

我的一些觀點是基于我的研究和在公司的經(jīng)歷形成的警绩。今天我將向大家分享兩個觀點崇败。

就我實際所做的工作而言,我只是一個理論研究者肩祥,所以關(guān)于這些神經(jīng)網(wǎng)絡(luò)發(fā)展的良好勢頭后室,我都樂于看著它們發(fā)生,但當(dāng)我看到所有人都在扎堆朝著一個方向前進(jìn)時混狠,我就會尋找其它方向岸霹。我現(xiàn)在做的所有工作都是在證明收斂率和隨機性的定理,你要是看過我的主頁就會知道我這些天有多興奮将饺,但我形成這些觀點卻是基于在公司的(實踐)經(jīng)歷而不是通過證明它們贡避。

United Masters 公司是一個美國音樂人服務(wù)平臺,它在 2017 年 11 月宣布成立∮杌。現(xiàn)在音樂人非常多刮吧,創(chuàng)作的音樂也非常多,但除了少數(shù)幾個掌握權(quán)力的人之外掖蛤,大多數(shù)音樂人的第一筆訂單并不會賺錢杀捻,音樂創(chuàng)作實際上沒有得到報酬。

發(fā)生這種狀況的原因有很多蚓庭,比如我們處在一個并不景氣的市場致讥,而如果連接生產(chǎn)者和消費者的經(jīng)濟的話,就會產(chǎn)生很多價值器赞。它不像之前的唱片公司一樣垢袱,在生產(chǎn)者和消費者之間有中介存在,那在這種模式下不會有效港柜。所以你必須做些別的什么惶桐,就像 Uber 那樣,或者其他你看到的真實的機會潘懊。

United Masters 已經(jīng)和 Spotify 跟 Youtube 等公司建立了合作關(guān)系姚糊,并且獲得了所有數(shù)據(jù)。他們會了解任何藝術(shù)家授舟,不僅僅有碧昂絲那樣的世界級歌手救恨,還有成百上千個不太出名的藝術(shù)家,然后了解有哪些用戶在聽他們的音樂释树。他們提供給藝術(shù)家展示的機會:我知道我不是非常出名肠槽,但我知道佛羅里達(dá)州有一萬人喜歡定期收聽我擎淤。

這種口碑就意味著如果我去那里舉辦一場音樂會,我就可以賺兩萬五千美元秸仙。一年我可以做三到四次,那就是十萬美元的薪水寂纪。我不必再做一個出租車司機席吴,然后每周只有周末才有時間創(chuàng)作音樂捞蛋。我實際上可以成為一個真正活躍的全職音樂家,很多人都可以這樣拟杉。這就可以創(chuàng)造一個市場庄涡,你知道誰在聽你的音樂搬设,然后你就可以做得更多。

這實際上就是在生產(chǎn)者和消費者之間建立了連接拿穴。有了這種連接迹鹅,一旦數(shù)據(jù)流通過贞言,商品買賣就可以更流暢。所以藝術(shù)家可以說你只要付兩萬美元我就可以在你婚禮上表演该窗,或者你是我的一個超級粉絲弟蚀,你想來后臺...所有這些商品的形式都可能出現(xiàn)酗失,而公司實際上就提供了這種可以賺錢的方式义钉。他們提供這些平臺當(dāng)然也應(yīng)該得到一些錢,當(dāng)然那到不了像一個標(biāo)準(zhǔn)代理人一樣可以獲取百分之五十的費用规肴,不過百分之十也差不多捶闸,所以你知道你的音樂大師夢真的有希望了。

這家公司的 CEO 是 Steve Stoute拖刃,他是個了不起的人删壮,也是我曾見過的最聰明的人之一。他曾在索尼旗下的唱片公司工作兑牡,后來創(chuàng)建了 Translation 廣告公司央碟,并且完成了很多實際的東西。他了解很多音樂人均函,Steve 的經(jīng)歷以及他的音樂背景亿虽,讓他剛好處于一個可以將音樂菱涤、技術(shù)和人聯(lián)系在一起的位置。我認(rèn)為我們的社區(qū)可以參與這種活動是非常令人激動的洛勉,而 Steve 就剛好給出了這把鑰匙粘秆。

去年我曾請他做一個開場演講。那場演講的主題是關(guān)于 Hip-hop 收毫,自我賦權(quán)和解放攻走,創(chuàng)造力以及這些該如何和數(shù)據(jù)科學(xué)聯(lián)系起來。

▌?機器學(xué)習(xí)與數(shù)據(jù)共享

現(xiàn)在還有一個數(shù)據(jù)共享的問題牛哺。

所有這些都還只是想法陋气,如果我有時間的話就會進(jìn)行實驗劳吠,所有這些都是想法的實驗引润。這些都只是我的一些研究建議,我的團隊可能會做的痒玩。我們這些時間主要是證明定理淳附,但這里還有一個數(shù)據(jù)共享的想法實驗。

數(shù)據(jù)共享不是“AI”的問題蠢古,但卻是現(xiàn)實世界的“II”問題奴曙。很多公司都有數(shù)據(jù),如果可以將它們放到一起草讶,那將對他們有用洽糟,但這通常不被允許。法律上不允許出于很多原因堕战,比如坤溃,在某天一個公司可能會遭受入侵或欺詐攻擊,但這可能同時發(fā)生在所有公司嘱丢,也可能只針對特定的公司薪介。

如果將每個人的數(shù)據(jù)都匯總起來,你就可以構(gòu)建世界上最好的分類器越驻,并且可以讓系統(tǒng)受欺詐的程度保持的相當(dāng)?shù)椭藗儾粫菢幼觥槭裁茨刈号裕亢芏嘣颉?b>你要怎樣激勵他們開始分享數(shù)據(jù)记劈?你把你的數(shù)據(jù)發(fā)送給我,是因為我是個值得信賴的中心人員并巍,我會通過密碼機制或其他方式保護你的數(shù)據(jù)抠蚣。

我會獲取你的數(shù)據(jù),然后構(gòu)建一個完美的分類器履澳,然后再把它們送回去嘶窄。我不會和任何人分享你的數(shù)據(jù)怀跛。但那并不是很有趣,因為可能我收到的數(shù)據(jù)中有欺詐數(shù)據(jù)柄冲。對公司來說吻谋,如果他們把真實的數(shù)據(jù)放到系統(tǒng)中现横,別人會得到比他們更多的優(yōu)勢,所以他們不會發(fā)送高質(zhì)量的數(shù)據(jù)戒祠,他們不傻。

那他們應(yīng)該發(fā)送的數(shù)據(jù)質(zhì)量要多高低千?系統(tǒng)應(yīng)該有什么激勵機制來讓他們衡量要發(fā)送數(shù)據(jù)的質(zhì)量馏颂?這還涉及到隱私問題,他們的律師就會一直強調(diào)不要發(fā)送數(shù)據(jù)救拉。所以這里從機器學(xué)習(xí)的視角來說,有一種方式就是你讓每個公司自己決定要發(fā)送的數(shù)據(jù)質(zhì)量或者隱私告喊,或者其它想要對數(shù)據(jù)進(jìn)行的操作。比如黔姜,他們要把噪聲加到數(shù)據(jù)中斗锭,然后才會放心地把數(shù)據(jù)交出來。他們對這樣有些差異化的私人系統(tǒng)會感到滿意岖是。

現(xiàn)在數(shù)據(jù)到了我這里,我會用所有這些數(shù)據(jù)構(gòu)建一個分類器烈疚,然后看這個分類器在測試集中的表現(xiàn)如何。之后我要做的是留出一個公司的數(shù)據(jù)爷肝,然后用其他公司的數(shù)據(jù)做訓(xùn)練集得到一個分類器,然后看分類器效果多好灯抛。然后對比留出不同公司數(shù)據(jù)后得到的分類器。如果在某個公司數(shù)據(jù)是訓(xùn)練集時夹抗,得到的分類器效果最好,就說明這個公司提供的數(shù)據(jù)是好的漠烧。

我可以僅僅通過在經(jīng)典 Handout 方法中的一個損失函數(shù)量化數(shù)據(jù)的好壞靡砌。我現(xiàn)在要為每個公司做的是每次留出它們一個,然后就知道他們發(fā)給我的數(shù)據(jù)有多好通殃,他們覺得要給我發(fā)多好的數(shù)據(jù),以及數(shù)據(jù)差異有多大恨诱。并且一旦我知道了這些骗炉,我就可以進(jìn)行評估,現(xiàn)在我做的是世界上最好的分類器句葵。但我會把模型或者預(yù)測結(jié)果兢仰,根據(jù)它們發(fā)給我的數(shù)據(jù)質(zhì)量返還給他們。

這也可以說是經(jīng)濟學(xué)把将,我設(shè)定了一個博弈,有一些激勵的概念请垛,并且可能存在納什均衡,而不是說誰都不發(fā)高質(zhì)量的數(shù)據(jù)宗收。但這個提議或許會是一個研究亚兄,可能不會有結(jié)果。

總之匈勋,如果很多事情你能擺脫傳統(tǒng)的思考角度,那么這個社區(qū)將有很多路可以走洽洁。我不認(rèn)為只靠深度學(xué)習(xí)的那群人可以實現(xiàn)那個目標(biāo)。

完整視頻地址:https://www.youtube.com/watch?v=4inIBmY8dQI

作者:AI科技大本營

鏈接:http://www.reibang.com/p/66c84510023f

來源:簡書

簡書著作權(quán)歸作者所有诡挂,任何形式的轉(zhuǎn)載都請聯(lián)系作者獲得授權(quán)并注明出處。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末奴璃,一起剝皮案震驚了整個濱河市苟穆,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌雳旅,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,826評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件攒盈,死亡現(xiàn)場離奇詭異型豁,居然都是意外死亡尚蝌,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,968評論 3 395
  • 文/潘曉璐 我一進(jìn)店門衣形,熙熙樓的掌柜王于貴愁眉苦臉地迎上來姿鸿,“玉大人,你說我怎么就攤上這事般妙。” “怎么了碟渺?”我有些...
    開封第一講書人閱讀 164,234評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長芜繁。 經(jīng)常有香客問我,道長骏令,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,562評論 1 293
  • 正文 為了忘掉前任周拐,我火速辦了婚禮凰兑,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘吏够。我一直安慰自己勾给,他們只是感情好播急,可當(dāng)我...
    茶點故事閱讀 67,611評論 6 392
  • 文/花漫 我一把揭開白布售睹。 她就那樣靜靜地躺著,像睡著了一般侣姆。 火紅的嫁衣襯著肌膚如雪沉噩。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,482評論 1 302
  • 那天蚜厉,我揣著相機與錄音畜眨,去河邊找鬼。 笑死康聂,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的伶椿。 我是一名探鬼主播,決...
    沈念sama閱讀 40,271評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼导狡,長吁一口氣:“原來是場噩夢啊……” “哼偎痛!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起枚赡,我...
    開封第一講書人閱讀 39,166評論 0 276
  • 序言:老撾萬榮一對情侶失蹤标锄,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后料皇,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,608評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡践剂,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,814評論 3 336
  • 正文 我和宋清朗相戀三年逊脯,在試婚紗的時候發(fā)現(xiàn)自己被綠了军洼。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片演怎。...
    茶點故事閱讀 39,926評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖爷耀,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情跑杭,我是刑警寧澤,帶...
    沈念sama閱讀 35,644評論 5 346
  • 正文 年R本政府宣布德谅,位于F島的核電站萨螺,受9級特大地震影響宅荤,放射性物質(zhì)發(fā)生泄漏浸策。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,249評論 3 329
  • 文/蒙蒙 一惫确、第九天 我趴在偏房一處隱蔽的房頂上張望蚯舱。 院中可真熱鬧,春花似錦陈肛、人聲如沸兄裂。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,866評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽啃匿。三九已至蛆楞,卻和暖如春溯乒,著一層夾襖步出監(jiān)牢的瞬間裆悄,已是汗流浹背帅戒。 一陣腳步聲響...
    開封第一講書人閱讀 32,991評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留逻住,地道東北人瞎访。 一個月前我還...
    沈念sama閱讀 48,063評論 3 370
  • 正文 我出身青樓吁恍,卻偏偏與公主長得像播演,于是被迫代替她去往敵國和親写烤。 傳聞我的和親對象是個殘疾皇子拾徙,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,871評論 2 354

推薦閱讀更多精彩內(nèi)容