在上周O’reilly舉辦的AI Conference上,吳恩達進行了主題為“AI是新的電力”長達25分鐘的演講,演講中吳恩達親自板書隔披,內容也是干貨滿滿了。
在主題為“AI是新的電力”的演講中歹颓,吳恩達主要探討了以下四個主題。
· AI能做什么油湖?
· AI和產品
· 互聯(lián)網公司和AI公司
· 給AI領導者的建議
CDA字幕組對演講進行了漢化巍扛,附有中文字幕的視頻如下:
https://v.qq.com/x/page/c0554j675vf.html
針對不方面看視頻的小伙伴,CDA字幕組是貼心的整理了文字版本如下:
吳恩達《AI是新的電力》:
謝謝乏德,很期待跟大家進行交流撤奸。周末的時候我在想,什么內容對大家才是最有用的喊括。在本次講座中胧瓜,我將涉及我所了解的AI領域的趨勢。并嘗試給工程師郑什、觀眾贷痪,以及在座的商業(yè)領導者和管理者提供一些建議和意見。
本次演講的標題是“AI是新的電力”蹦误。我想和大家談談 AI可以做些什么劫拢。首先讓我們看到AI和產品。除了飛速發(fā)展的技術進步强胰,我們要將令人興奮的研究轉換為能夠幫助人類的產品舱沧,這還有很多路要走。
我一直在說的一個概念是偶洋,AI時代在怎樣改變公司間競爭的基礎熟吏。正如互聯(lián)網公司的興起,我認為會出現(xiàn)AI公司的興起玄窝。讓我們談談這個問題牵寺,以及這對你的工作,業(yè)務帶來的影響恩脂。最后我將給AI領導者提出建議帽氓。
我多次重申"AI是新的電力",這指的是俩块,大約一百年前電力開始徹底變革每個行業(yè)黎休。運輸、農業(yè)玉凯、制造势腮、通信都被電力所改變。如今很難想象這些行業(yè)離開電力會是什么樣子漫仆。我認為今天的AI已經足夠成熟捎拯,我們可以清晰的看到AI也在改變幾乎每個主要行業(yè)。
我下面要說的可能有些天真盲厌,我十分期待能夠建設一個由AI驅動的社會署照。在未來的某一天座菠,我們每個人都會有自動駕駛汽車;給每個孩子提供個性化的輔導老師藤树。建立一個由AI驅動的社會,我們周圍的一切都具有AI智能拓萌,并改變人類的生活岁钓。
這需要的不僅僅是一個公司的努力,而是我們所有人一起努力微王,試圖弄清楚社會能夠怎樣運用這些新的AI技術屡限。
AI能做什么
首先確保我們想法是一致的。除開關于AI的熱度 AI能夠做什么炕倘?
你可能聽過钧大,如今AI的主要價值和經濟價值,或者很大部分的價值都是來自于監(jiān)督學習罩旋。也就是從A到B啊央,輸入到輸出的映射。術語是監(jiān)督學習涨醋。
例如給出一個圖像作為輸入A瓜饥。AI或學習算法會輸出,判斷這是你的圖像浴骂,得出輸出0或1乓土。
我認為如今最賺錢的機器學習應用是在線廣告。給出廣告和用戶信息溯警,輸出用戶是否會點擊廣告趣苏。對于推出廣告的公司來說 每次點擊都是金錢。因此評估你最有可能點擊哪個廣告梯轻,從而向你展示最相關的廣告食磕,這是利潤頗豐的業(yè)務。
還有消費貸款喳挑,貸款申請芬为。以及用戶是否會還貸,這是消費金融方面蟀悦。在過去的幾年中媚朦,學習算法變得更好更準確。在這些A到B的映射日戈,當中存在巨大的經濟價值询张。
我認為AI其他令人興奮的進展之一在于,不僅僅能夠輸出像0 或1的整數(shù)浙炼。同時隨著算法的迅速創(chuàng)新份氧,輸出B是不再僅僅是數(shù)字唯袄。
例如,當我負責百度的AI團隊蜗帜、谷歌大腦團隊時恋拷,我們對語音識進行了很多研究。我們發(fā)現(xiàn)能夠輸入音頻厅缺,輸出文本蔬顾,而且得到很好的效果。我們有足夠的數(shù)據(jù)湘捎。這類算法為亞馬遜的Alexa诀豁、蘋果的Siri、百度DuerOS提供了基礎窥妇。
我們還有更好的機器翻譯系統(tǒng)舷胜,TTS是輸入文本、輸出語音的系統(tǒng)活翩。有很多團隊在對這方面進行研究烹骨。其中包括谷歌和百度。如今輸出不僅僅為數(shù)字材泄,已經擴展到許多方面展氓,學習算法也是如此。
但所有算法的缺點在于對數(shù)據(jù)的需求脸爱。事實上你需要A和B的大量標注數(shù)據(jù)遇汞。監(jiān)督學習限制了它們的普及。
聽過我之前講座的人可能看過我畫這個圖簿废。人們經常問我神經網絡已經存在很多年了空入,為什么AI研究最近才開始迅速發(fā)展?那么我通常就會畫這幅圖族檬。x軸表示數(shù)據(jù)量歪赢,y軸表示算法的性能或正確率。
如果你使用傳統(tǒng)的學習算法单料,傳統(tǒng)機器學習埋凯。傳統(tǒng)的機器學習往往看起來是這樣。在過去的二十年間扫尖,隨著社會的數(shù)字化白对,越來越多的活動轉移到數(shù)字領域。加上IT换怖、產業(yè)物聯(lián)網甩恼,許多的行業(yè)和工作中開始累積越來越多的數(shù)據(jù)。
但直到最近,我們還沒有算法能夠利用這些數(shù)據(jù)条摸。從而導致性能發(fā)展的停滯悦污,即使我們給傳統(tǒng)算法中輸入越來越多的數(shù)據(jù),比如邏輯回歸钉蒲。
真正的突破是從五年前開始的切端。如果你對小型的神經網絡 深度學習算法進行訓練,性能會稍微好一些顷啼。如果對中型的神經網絡進行訓練...NN是我對神經網絡的簡寫踏枣,大致與深度學習意思相同。如果對大型神經網絡進行訓練线梗,性能不斷提升〉∫妫可能一直達到上限即人類級別的表現(xiàn)仪搔。
但是性能會持續(xù)提升,這意味著為了達到最佳的性能蜻牢,往往需要兩樣東西:一個是你需要大量的數(shù)據(jù)烤咧。也許大數(shù)據(jù)是當中的一個選擇。
另一個是你需要大型的神經網絡抢呆。這就是為什么我認為GPU和高性能計算的發(fā)展煮嫌,促進了可拓展性的發(fā)展,從而讓我們構建神經網絡抱虐。
很多年前當我讀高中的時候昌阿,我找了一個在神經網絡中編程的實習。我認為把高中所寫的代碼拿到今天來運行恳邀,把隱單元的數(shù)字設大一些懦冰,如今也是能很好運行的。公平地說谣沸,同樣還有算法的巨大進步刷钢,而并不只是規(guī)模上的。
經常有人問我“Andrew,機器學習中最大的發(fā)展趨勢是什么乳附?有價值的創(chuàng)新是什么内地?”
如今環(huán)顧眾多行業(yè),我認為絕大多數(shù)的經濟效益是由監(jiān)督學習創(chuàng)造的赋除。
我考察了許多公司阱缓,人們經常問我“監(jiān)督學習之后會是什么?”我認為遷移學習如今也在創(chuàng)造很多價值举农、由于一些原因茬祷,這個概念不夠"性感”,所以人們談論的很少。
這個概念你可能從物體識別中聽過祭犯,還有大型的數(shù)據(jù)集秸妥,比如ImageNet。將當中的知識運用到醫(yī)學X射線圖像診斷上∥执郑現(xiàn)在這實際上在創(chuàng)造經濟價值粥惧,這很實用。
我認為無監(jiān)督學習是一個非常好的長期研究項目最盅,我對此非常期待突雪。這創(chuàng)造了少量經濟價值,特別是在自然語言處理的詞語嵌入中涡贱。僅是我的個人看法咏删。
強化學習是很有意思的,我研究了多年问词,并做出了些成果督函。我認為輿論熱度與其實際的經濟價值不太成比例。屬于機器學習其中一種類型的強化學習激挪,實際比監(jiān)督學習對數(shù)據(jù)的需求更大辰狡。為強化學習算法提供足夠的數(shù)據(jù)是很難的。
事實證明強化學習很擅長玩游戲垄分,因為在玩游戲中宛篇,算法通過自己計算可以無限次的玩。除了游戲之外薄湿,在機器人方面的應用叫倍。比如構建模擬器,無限次的玩電子游戲豺瘤、駕駛汽車或者讓機器人行走等等段标。把這些轉換到商業(yè)應用中還有很長的路要走。
如今這幾個領域所創(chuàng)造的經濟價值是遞減的炉奴,當然這只是現(xiàn)在的情況逼庞。如今計算機科學在持續(xù)的發(fā)展,每時每刻都有突破瞻赶。每幾年就會有天翻復地的變化赛糟,因此在幾年內就可能出現(xiàn)突破,從而這幾個領域會很快的重新排序砸逊。
我注意另一個有趣的事情是璧南,如今越來越多的經濟價值是機器學習或深度學習,通過結構化數(shù)據(jù)以及非結構化數(shù)據(jù)所創(chuàng)造的师逸。
結構化數(shù)據(jù)意味著司倚,比如你的數(shù)據(jù)框中記錄了消費記錄。誰在何時購買了什么,誰在何時給誰發(fā)了消息动知。信息的數(shù)據(jù)框結構皿伺。
非結構化數(shù)據(jù),類似圖像盒粮、音頻鸵鸥、自然語言等內容。我認為非結構化數(shù)據(jù)很有人性化丹皱,我們很多人都理解非結構化數(shù)據(jù)妒穴。
很多的輿論熱點熱度都在深度學習的非結構數(shù)據(jù)方面,然而結構化數(shù)據(jù)對于公司更加具體摊崭。比如你是拼車公司具有這樣的數(shù)據(jù)庫讼油,用戶何時叫了車,等待了多久等等呢簸。
因此結構化數(shù)據(jù)往往更垂直化矮台,但是不要低估深度學習在結構化數(shù)據(jù)方面所能創(chuàng)造的經濟價值。即使結構化數(shù)據(jù)輿論的熱度更小阔墩。
監(jiān)督學習方面嘿架,這已經為商業(yè)瓶珊、產品啸箫、初創(chuàng)公司 、成熟企業(yè)創(chuàng)造了巨大的機會伞芹,讓他們生產出新的有趣的產品忘苛。
AI和產品
有意思的趨勢是 ,AI的崛起正改變著公司間競爭的基礎唱较。如果要開展新業(yè)務的話扎唾,壁壘不是算法而是數(shù)據(jù)。
當我推出新的業(yè)務時南缓,我們會特意設計良性循環(huán)胸遇。
這里有一個具體的例子,大約兩三個月前汉形,我的斯坦福大學的學生構建了一個診斷心電圖(EKG)的系統(tǒng)纸镊。使用深度學習RNN結構,這個不是業(yè)務只是一個研究項目概疆。
但如果是業(yè)務的話逗威,我們需要通過合作使用算法搜集足夠的數(shù)據(jù),這能夠推出產品岔冀。但這只是一個研究項目凯旭,我們并不用推出產品。
通常推出產品能夠讓你獲得用戶,用戶能夠給你更多的數(shù)據(jù)罐呼,從而得到數(shù)據(jù)收集的循環(huán)启盛。一段時間之后 你將擁有龐大的數(shù)據(jù)資產,這是競爭對手所難以復制的火惊。
有一個例子湿诊,比如搜索公司。如今網絡搜索公司擁有很有價值的數(shù)據(jù)差凹。這會告訴他們期奔,如果你搜索某個詞,你更有可能點擊這個鏈接危尿,而不是另一個鏈接呐萌。
我曾帶領過一些頂級網絡搜索公司中優(yōu)秀的AI團隊。那些數(shù)據(jù)讓我能夠對搜索技術的算法有很好的理解谊娇。我很難想象小團隊如何構建有競爭力的網絡搜索引擎肺孤。因此數(shù)據(jù)資產成為企業(yè)最有利的保護壁壘。
但是很多小公司開始也是通過不斷收集济欢,收集足夠的數(shù)據(jù)從而推出產品赠堵。幸運的話能夠得到一些用戶,這個數(shù)據(jù)收集循環(huán)在過了一段時期后法褥,一年或兩年后能夠讓你建立可靠的業(yè)務茫叭。
實際上當推出產品時,我們會有戰(zhàn)略性的制定每幾年的規(guī)劃半等,在市場中爭奪數(shù)據(jù)揍愁。
AI不僅僅是監(jiān)督學習,AI有很多熱點杀饵。我認為AI包含了很多的工具莽囤。包括機器學習,圖模型也被認為是一種AI工具切距。規(guī)劃也被認為是AI的一部分朽缎,還有知識表示谜悟。可能知識表示這個表達有點老,也許你們更熟悉知識圖譜這個說法。
知識圖譜對很多產品是很有用的鸥鹉。我認為人們的關注點集中在機器學習践磅,深度學習肺樟。原因在于對比其他的領域...
有時我有參加一些會議蹦狂,比如UAI锦募,圖模型會議等赎线。這些均已取得了穩(wěn)步發(fā)展另锋。比如圖模型就比之前幾年表現(xiàn)更好室梅。知識圖譜拆宛,算法技術的能力也在不斷發(fā)展钳幅。規(guī)劃算法也在逐年提高炎滞。如果看到這些領域敢艰,你會發(fā)現(xiàn)機器學習。特別是深度學習都在飛速發(fā)展册赛。
如今當我建立AI團隊處理AI項目時钠导,我實際上會用到圖模型。有時用到知識圖譜森瘪,有時用到規(guī)劃算法牡属。但我認為還未開發(fā)的最大機遇在機器學習和深度學習中。因為最快的進步和重大的突破就是源于這里扼睬。
下面給大家分享一個圖逮栅,我有時把它作為心理框架。
當看到問題的時候窗宇。一些人會認為算法措伐、計算機有兩個不同來源的知識。計算機如何能夠明白該怎么做军俊?這里分為數(shù)據(jù)侥加,以及人類工程。
根據(jù)不同的問題你要使用的工具也不同粪躬。例如在線廣告担败,有很多的數(shù)據(jù)矗蕊。關于你會點擊什么廣告,不會點擊什么廣告氢架。有很多的數(shù)據(jù)傻咖,人類工程要參加的相對較小。
上周我與一個合作伙伴岖研,我們在進行醫(yī)療保健方面的項目卿操。當中我們的數(shù)據(jù)量很少,只有一百多個樣例孙援,從而需要大量人工的介入害淤。因此針對這個問題,我們決定設計貝葉斯模型 圖形模型拓售,來獲取人類方面的知識窥摄。
還有介于兩種情況之間的問題,沒有大量的數(shù)據(jù)础淤,需要更多的人工介入崭放。
這就是為什么一系列不同的AI算法是很實用的。但我認為最大的機遇來源于當你有大量的數(shù)據(jù)鸽凶,從而深度學習算法能夠讓你做有價值的事情币砂。
最后我想說說對工程師和管理者的建議。
有很多工程師想進入AI領域玻侥,那么應該怎么做呢决摧?
如今有很多人通過在線課程進入機器學習領域,比如我在Coursera上的機器學習課程凑兰,DeepLearning.AI在Coursera推出了一系列深度學習的課程掌桩。
但有一個不被工程師所重視的就是,閱讀研究研究論文的重要性姑食。不僅是閱讀論文波岛,還要重現(xiàn)當中的研究成果。
我在斯坦福大學看到的是這個重復的過程矢门,讀研究論文盆色,重現(xiàn)他人的研究成果灰蛙。這樣多次進行之后 能夠內化成自己的東西祟剔,從而得出自己的觀點。
對于工程師摩梧,我建議你的學習過程是:學習機器學習的網絡課程物延,在Deeplearning.AI 或Coursera上。打下知識基礎仅父,然后閱讀論文叛薯,參加各種活動比如這種會議浑吟,不斷構建自己的知識基礎。
上周我進行了Quora的問答講座耗溜,當中我談到了這些問題组力,你也可以看看。
互聯(lián)網公司和AI公司
時間有點不夠了抖拴,好的燎字。下面想跟大家分享一個觀點 ,不確定我能講好阿宅『蜓埽可能是我今天跟大家分享的最重要的概念。
大約在二十洒放、二十五年前我們開始看到互聯(lián)網的興起蛉鹿。互聯(lián)網成為一個重要的事情往湿。
我從中學到的是:建一個購物商場妖异,并建一個網站,這不等同于一家互聯(lián)網公司领追。
商場 + 網站 ≠ 互聯(lián)網公司
玩具連鎖店Toys "R" Us昨天剛宣布了破產随闺,這很令人傷心。
那么互聯(lián)網公司的定義是什么蔓腐?
我認識一個大型零售商的CIO矩乐,有天他對他們的CEO說:“我們在網站上賣東西,亞馬遜也在網站上賣東西回论,我們是一樣的散罕。”
并不是的傀蓉,他們可能也會在某刻破產吧欧漱。
能夠定義互聯(lián)網公司的,并不是你是否有網站葬燎。而是你們是否進行A/B測試误甚,是否有很短的周期迭代,是否把決策由CEO交給工程師和產品經理谱净。
這些才定義了真正的互聯(lián)網公司窑邦,這些是亞馬遜所擅長的。如果你希望公司能夠利用互聯(lián)網的功能壕探,這些是你需要構建的冈钦。
因為如果你不做A/B測試,而你的競爭者做的話李请,他們將學的比你們要快得多瞧筛。這才真正定義了互聯(lián)網公司厉熟。
我們已經聽到了很多關于AI公司的,那么AI時代是怎么樣的呢较幌?
我非常有幸揍瑟,能夠帶領AI團隊幫助谷歌轉型成AI公司。谷歌當中很多都進展的很順利乍炉,不止是我的AI團隊月培。同時我有幸?guī)ьIAI團隊,幫助百度轉型恩急。很多人認為百度是中國領先的AI公司杉畜。
那么建立AI公司需要些什么?
我學到的重要內容之一是衷恭,傳統(tǒng)的互聯(lián)網公司加上一些機器學習或神經網絡此叠,這是不等同于AI公司。有些人使用神經網絡并不意味著你是AI公司随珠。
傳統(tǒng)科技公司 + 機器學習/神經網絡 ≠ AI公司
二十年前我并不知道A/B測試對于互聯(lián)網的重要性灭袁,花了一段時間我才意識到。AI公司往往更加擅長戰(zhàn)略性的數(shù)據(jù)收集窗看。
當推出產品時茸歧,我試過在一個地區(qū)推出產品。嘗試用這個來獲得數(shù)據(jù)攻下另一個地區(qū)显沈,又用這里的數(shù)據(jù)拓展另一個地區(qū)软瞎,獲得這些數(shù)據(jù)但并未從中獲利。這所有的數(shù)據(jù)都是為了更大的目標拉讯。
關于領先的AI組織涤浇,當中當然要包括谷歌和百度。他們都有復雜的AI策略魔慷,領先的AI公司會制定多年的策略只锭,以及戰(zhàn)略性的數(shù)據(jù)收集。
下面這點更具戰(zhàn)術性院尔,但也是你今天可以用到的蜻展。AI公司往往具有集中式的數(shù)據(jù)倉庫。
很多公司有分散的數(shù)據(jù)倉庫邀摆,假如你在各個地方有五十個數(shù)據(jù)倉庫纵顾。如果工程師想把這些數(shù)據(jù)整合在一起做點什么,那么工程師需要與五十位負責人溝通隧熙,獲得數(shù)據(jù)的權限片挂。這幾乎是不可能的。擁有集中式的數(shù)據(jù)倉庫是很好的決策贞盯。
還有普遍的自動化音念,以及新的職位描述****。
例如在互聯(lián)網時代躏敢,我們設計應用程度的流程闷愤。由產品經理繪制線框圖。比如Facebook件余,當中有Logo讥脐、朋友的頭像、一些按鈕啼器。產品經理繪制線框圖旬渠,工程師去實現(xiàn)它,弄清當中的流程端壳。
但在AI時代告丢,比如你要做聊天機器人。產品經理跟工程師說“請把聊天氣泡做成這樣损谦♂猓” 這就是線框圖。
然后工程師就會說:“這是什么照捡?我不關心聊天氣泡是什么樣颅湘,我需要知道聊天機器人要說什么±蹙” 線框圖對于聊天機器人并沒有用闯参。
還有更極端的例子,如果你的產品經理畫了自動駕駛汽車的線框圖悲立。他們說“我們想做這個赢赊。” 這完全沒有用(全場笑)级历。
因此AI公司中释移,產品經理與工程師交流時,需要學習使用數(shù)據(jù)寥殖、正確度以及精確率反饋玩讳。
給AI領導者的建議
對于CEO的建議,我可以說很多嚼贡。但是時間不夠了熏纯。
具體的可以看看我給《哈佛商業(yè)評論》寫的文章,當中我寫了很多給高管的建議粤策。
我的發(fā)言到此結束樟澜,謝謝大家。
CDA字幕組 編譯整理
本文為 CDA 數(shù)據(jù)分析師原創(chuàng)作品,轉載需授權