https://mp.weixin.qq.com/s/gIV6sNhrURn1Qonet26uIA
給吳恩達(dá)三塊白板和一支馬克筆浦徊,聽他講一節(jié)精彩的課铃彰。
剛剛,在O’reilly舉辦的AI Conference上篱昔,吳恩達(dá)做了個(gè)25分鐘的演講扔罪,主題依然是“AI is the new electricity”??,但內(nèi)容可以說是充滿誠(chéng)意非常干貨了梭冠。
吳恩達(dá)老師這節(jié)課辕狰,主要講了這四部分內(nèi)容:
- AI能做什么?各種算法有多大商業(yè)價(jià)值控漠?
- 做AI產(chǎn)品要注意什么蔓倍?
- 怎樣成為真正的AI公司悬钳?
- 給AI領(lǐng)導(dǎo)者的建議
吳恩達(dá)的老師的開場(chǎng)白,依然是AI像當(dāng)年的電力一樣偶翅,正開始改變所有行業(yè)默勾。
要理解AI,就要先進(jìn)入我們的第一部分:
AI能做什么聚谁?
目前母剥,AI技術(shù)做出的經(jīng)濟(jì)貢獻(xiàn)幾乎都來自監(jiān)督學(xué)習(xí),也就是學(xué)習(xí)從A到B形导,從輸入到輸出的映射环疼。
比如說,輸入一張照片朵耕,讓機(jī)器學(xué)會(huì)判斷這張照片是不是你炫隶,輸出0或1。
現(xiàn)在最賺錢的機(jī)器學(xué)習(xí)應(yīng)用憔披,應(yīng)該說是在線廣告等限。在這個(gè)例子中爸吮,輸入是廣告和用戶信息芬膝,輸出是用戶會(huì)不會(huì)點(diǎn)擊這個(gè)廣告(還是0或1)。
監(jiān)督學(xué)習(xí)還可以應(yīng)用在消費(fèi)金融領(lǐng)域形娇,輸入貸款申請(qǐng)信息锰霜,輸出用戶是否會(huì)還款。
過去幾年里桐早,機(jī)器學(xué)習(xí)經(jīng)歷了迅速的發(fā)展癣缅,越來越擅長(zhǎng)學(xué)習(xí)這類A到B的映射,創(chuàng)造了大規(guī)模的經(jīng)濟(jì)效益哄酝。
同時(shí)友存,AI的進(jìn)步也體現(xiàn)在監(jiān)督學(xué)習(xí)的輸出不再限于0或1的數(shù)字。
比如說語音識(shí)別的任務(wù)陶衅,也是一種端到端的學(xué)習(xí)屡立,輸入音頻,輸出文本搀军。只要有足夠的數(shù)據(jù)膨俐,語音識(shí)別就能達(dá)到很好的效果。
這類算法為語音搜索罩句、亞馬遜Alexa焚刺、蘋果Siri、百度DuerOS等等提供了基礎(chǔ)门烂。
還有輸入英語輸出法語的機(jī)器翻譯乳愉,輸入文本輸出音頻的TTS(Text to Speech)等等,都是監(jiān)督學(xué)習(xí)的應(yīng)用。
監(jiān)督學(xué)習(xí)的缺點(diǎn)是它需要大量的標(biāo)注數(shù)據(jù)匾委,這影響了它的普及拖叙。
經(jīng)常有人問我,為什么神經(jīng)網(wǎng)絡(luò)已經(jīng)存在了這么多年赂乐,AI卻近年來才開始快速發(fā)展薯鳍?
很多人可能見過我畫這張圖:
隨著數(shù)據(jù)量的增加挖滤,傳統(tǒng)機(jī)器學(xué)習(xí)算法的性能并沒有明顯提升,而神經(jīng)網(wǎng)絡(luò)的性能浅役,會(huì)有比較明顯的提升斩松,神經(jīng)網(wǎng)絡(luò)越大,性能的提升就越明顯觉既。
為了達(dá)到最佳的性能惧盹,你需要兩樣?xùn)|西:一是大量的數(shù)據(jù),二是大型的神經(jīng)網(wǎng)絡(luò)瞪讼。
還有一個(gè)問題钧椰,有很多人問我:機(jī)器學(xué)習(xí)中最大的趨勢(shì)是什么?算法如何創(chuàng)造價(jià)值符欠?
現(xiàn)在來看嫡霞,創(chuàng)造最多價(jià)值的還是監(jiān)督學(xué)習(xí)。
如果你問我監(jiān)督學(xué)習(xí)之后是什么希柿,我認(rèn)為遷移學(xué)習(xí)現(xiàn)在也開始創(chuàng)造不少經(jīng)濟(jì)效益诊沪。可能因?yàn)檫@個(gè)概念不夠性感曾撤,所以人們談?wù)摰貌欢唷?/p>
比如說你的算法從一個(gè)像ImageNet那樣的大數(shù)據(jù)集學(xué)到了圖像識(shí)別端姚,然后用遷移學(xué)習(xí),用到醫(yī)學(xué)影像診斷上挤悉。
而非監(jiān)督學(xué)習(xí)渐裸,我認(rèn)為是非常好的長(zhǎng)期研究項(xiàng)目。它也創(chuàng)造了一些經(jīng)濟(jì)價(jià)值尖啡,特別是在自然語言處理上橄仆。
強(qiáng)化學(xué)習(xí)也很有意思,我研究了很多年衅斩,現(xiàn)在也還在這方面做一些微小的工作盆顾。但是我認(rèn)為,強(qiáng)化學(xué)習(xí)的輿論熱度和經(jīng)濟(jì)效益有點(diǎn)不成比例畏梆。
強(qiáng)化學(xué)習(xí)對(duì)數(shù)據(jù)的饑渴程度甚至比監(jiān)督學(xué)習(xí)更嚴(yán)重您宪,要為強(qiáng)化學(xué)習(xí)算法獲取到足夠的數(shù)據(jù)非常難奈懒。
在打游戲這個(gè)領(lǐng)域,強(qiáng)化學(xué)習(xí)表現(xiàn)很好宪巨,這是因?yàn)樵陔娮佑螒蛑辛仔樱惴梢灾貜?fù)玩無限次,獲取無限的數(shù)據(jù)捏卓。
在機(jī)器人領(lǐng)域极祸,我們也可以建立一個(gè)模擬器,相當(dāng)于能讓強(qiáng)化學(xué)習(xí)agent在其中模擬無人車怠晴、人形機(jī)器人遥金,重復(fù)無限次“游戲”。
除了游戲和機(jī)器人領(lǐng)域之外蒜田,要把強(qiáng)化學(xué)習(xí)應(yīng)用到商業(yè)和實(shí)踐中還有很長(zhǎng)的路要走稿械。
現(xiàn)在,監(jiān)督學(xué)習(xí)冲粤、遷移學(xué)習(xí)美莫、非監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)這四類算法所創(chuàng)造的經(jīng)濟(jì)效益是遞減的梯捕。
當(dāng)然厢呵,這只是目前的情況。計(jì)算機(jī)學(xué)科不斷有新突破科阎,每隔幾年就變個(gè)天述吸。這四個(gè)領(lǐng)域中的任何一個(gè)都可能發(fā)生突破忿族,幾年內(nèi)這個(gè)順序就可能要重排锣笨。
我注意到的另一件事情是,機(jī)器學(xué)習(xí)依靠結(jié)構(gòu)化數(shù)據(jù)道批,比非結(jié)構(gòu)化數(shù)據(jù)創(chuàng)造了更多的經(jīng)濟(jì)效益错英。
舉個(gè)結(jié)構(gòu)化數(shù)據(jù)的例子,比如說你的數(shù)據(jù)庫(kù)記錄了用戶的交易情況隆豹,誰什么時(shí)候買了什么東西椭岩,誰什么時(shí)間給誰發(fā)了信息,這就是結(jié)構(gòu)化數(shù)據(jù)璃赡。
而像圖像判哥、音頻、自然語言等等碉考,就是非結(jié)構(gòu)化數(shù)據(jù)塌计。
雖然非結(jié)構(gòu)化數(shù)據(jù)聽起來更吸引人,輿論熱度更高侯谁,但結(jié)構(gòu)化數(shù)據(jù)的價(jià)值在于它通常專屬于你的公司锌仅,比如說只有你的打車公司才有用戶什么時(shí)候叫車章钾、等了多長(zhǎng)時(shí)間這樣一個(gè)數(shù)據(jù)集。
所以热芹,不要低估結(jié)構(gòu)化數(shù)據(jù)結(jié)合深度學(xué)習(xí)所能創(chuàng)造的經(jīng)濟(jì)價(jià)值贱傀。
在前面談到的幾類學(xué)習(xí)算法中,單是監(jiān)督學(xué)習(xí)就已經(jīng)為公司伊脓、創(chuàng)業(yè)者創(chuàng)造了大量的經(jīng)濟(jì)價(jià)值和機(jī)會(huì)府寒。
做AI產(chǎn)品要注意什么?
有一個(gè)很有意思的趨勢(shì)报腔,是AI的崛起正改變著公司間競(jìng)爭(zhēng)的基礎(chǔ)椰棘。
公司的壁壘不再是算法,而是數(shù)據(jù)榄笙。
當(dāng)我建立一家新公司邪狞,會(huì)特地設(shè)計(jì)一個(gè)循環(huán):
先為算法收集足夠的數(shù)據(jù),這樣就能推出產(chǎn)品茅撞,然后通過這個(gè)產(chǎn)品來獲取用戶帆卓,用戶會(huì)提供更多的數(shù)據(jù)……
有了這個(gè)循環(huán)之后,對(duì)手就很難追趕你米丘。
這方面有一個(gè)很明顯的例子:搜索公司剑令。搜索公司有著大量的數(shù)據(jù),顯示如果用戶搜了這個(gè)詞拄查,就會(huì)傾向于點(diǎn)哪個(gè)鏈接吁津。
我很清楚該如何構(gòu)建搜索算法,但是如果沒有大型搜索公司那樣的數(shù)據(jù)集堕扶,簡(jiǎn)直難以想象一個(gè)小團(tuán)隊(duì)如何構(gòu)建一個(gè)同樣優(yōu)秀的搜索引擎碍脏。這些數(shù)據(jù)資產(chǎn)就是最好的壁壘。
先為算法收集足夠的數(shù)據(jù)稍算,這樣就能推出產(chǎn)品典尾,然后通過這個(gè)產(chǎn)品來獲取用戶,用戶會(huì)提供更多的數(shù)據(jù)……
有了這個(gè)循環(huán)之后糊探,對(duì)手就很難追趕你钾埂。
這方面有一個(gè)很明顯的例子:搜索公司。搜索公司有著大量的數(shù)據(jù)科平,顯示如果用戶搜了這個(gè)詞褥紫,就會(huì)傾向于點(diǎn)哪個(gè)鏈接。
我很清楚該如何構(gòu)建搜索算法瞪慧,但是如果沒有大型搜索公司那樣的數(shù)據(jù)集髓考,簡(jiǎn)直難以想象一個(gè)小團(tuán)隊(duì)如何構(gòu)建一個(gè)同樣優(yōu)秀的搜索引擎。這些數(shù)據(jù)資產(chǎn)就是最好的壁壘汞贸。
工程師們還需要清楚這一點(diǎn):
AI的范圍绳军,比監(jiān)督學(xué)習(xí)廣泛得多印机。我認(rèn)為人們平時(shí)所說的AI,其實(shí)包含了好幾類工具:比如機(jī)器學(xué)習(xí)门驾、圖模型射赛、規(guī)劃算法、知識(shí)表示(知識(shí)圖譜)奶是。
人們的關(guān)注點(diǎn)集中在機(jī)器學(xué)習(xí)和深度學(xué)習(xí)楣责,很大程度上是因?yàn)槠渌ぞ叩陌l(fā)展速度很平穩(wěn)。
如果我現(xiàn)在建立一個(gè)AI團(tuán)隊(duì)聂沙,做AI項(xiàng)目秆麸,很多時(shí)候應(yīng)該用圖模型,有時(shí)應(yīng)該用知識(shí)圖譜及汉,但是最大的機(jī)遇還是在于機(jī)器學(xué)習(xí)沮趣,這才是幾年來發(fā)展最快、出現(xiàn)突破的領(lǐng)域坷随。
接下來我要和大家分享一下我看問題的框架房铭。
計(jì)算機(jī),或者說算法是怎樣知道該做什么的呢温眉?它有兩個(gè)知識(shí)來源缸匪,一是數(shù)據(jù),二是人工(human engineering)类溢。
要解決不同的問題凌蔬,該用的方法也不同。
比如說在線廣告闯冷,我們有那么多的數(shù)據(jù)砂心,不需要太多的人工,深度學(xué)習(xí)算法就能學(xué)得很好窃躲。
但是在醫(yī)療領(lǐng)域计贰,數(shù)據(jù)量就很少钦睡,可能只有幾百個(gè)樣例蒂窒,這時(shí)就需要大量的人工,比如說用圖模型來引入人類知識(shí)荞怒。
也有一些領(lǐng)域洒琢,我們有一定數(shù)量的數(shù)據(jù),但同時(shí)也需要人工來做特征工程褐桌。
當(dāng)然衰抑,還要談一談工程師如何學(xué)習(xí)。
很多工程師想要進(jìn)入AI領(lǐng)域荧嵌,很多人會(huì)去上在線課程呛踊,但是有一個(gè)學(xué)習(xí)途徑被嚴(yán)重忽視了:讀論文砾淌,重現(xiàn)其中的研究。
當(dāng)你讀了足夠多的論文谭网,實(shí)現(xiàn)了足夠多的算法汪厨,它們都會(huì)內(nèi)化成你的知識(shí)和想法。
要培養(yǎng)機(jī)器學(xué)習(xí)工程師愉择,我推薦的流程是:上(deeplearning.ai的)機(jī)器學(xué)習(xí)課程來打基礎(chǔ)劫乱,然后讀論文并復(fù)現(xiàn)其中的結(jié)果,另外锥涕,還要通過參加人工智能的會(huì)議來鞏固自己的基礎(chǔ)衷戈。
怎樣成為真正的AI公司?
我接下來要分享的這個(gè)觀點(diǎn)层坠,可能是我今天所講的最重要的一件事殖妇。
從大約20年、25年前開始破花,我們開始看見互聯(lián)網(wǎng)時(shí)代崛起拉一,互聯(lián)網(wǎng)成為一個(gè)重要的東西。
我從那個(gè)時(shí)代學(xué)到了一件重要的事:
商場(chǎng) + 網(wǎng)站 ≠ 互聯(lián)網(wǎng)公司
我認(rèn)識(shí)一家大型零售公司的CIO旧乞,有一次CEO對(duì)他說:我們?cè)诰W(wǎng)上賣東西蔚润,亞馬遜也在網(wǎng)上賣東西,我們是一樣的尺栖。
不是的嫡纠。
互聯(lián)網(wǎng)公司是如何定義的呢?不是看你有沒有網(wǎng)站延赌,而是看做不做A/B測(cè)試除盏、能不能快速迭代、是否由工程師和產(chǎn)品經(jīng)理來做決策挫以。
這才是互聯(lián)網(wǎng)公司的精髓者蠕。
現(xiàn)在我們經(jīng)常聽人說“AI公司”。在AI時(shí)代掐松,我們同樣要知道:
傳統(tǒng)科技公司 + 機(jī)器學(xué)習(xí)/神經(jīng)網(wǎng)絡(luò) ≠ AI公司(全場(chǎng)笑)
公司里有幾個(gè)人在用神經(jīng)網(wǎng)絡(luò)踱侣,并不能讓你們成為一家AI公司,要有更深層的變化大磺。
20年前抡句,我并不知道A/B測(cè)試對(duì)互聯(lián)網(wǎng)公司來說有多重要。現(xiàn)在杠愧,我在想AI公司的核心是什么待榔。
我認(rèn)為,AI公司傾向于策略性地獲取數(shù)據(jù)流济。我曾經(jīng)用過這樣一種做法:在一個(gè)地區(qū)發(fā)布產(chǎn)品锐锣,為了在另一個(gè)地區(qū)發(fā)布產(chǎn)品而獲取數(shù)據(jù)腌闯,這個(gè)產(chǎn)品又是為了在下一個(gè)地區(qū)發(fā)布產(chǎn)品來獲取數(shù)據(jù)用的,如此循環(huán)雕憔。而所有產(chǎn)品加起來绑嘹,都是為了獲取數(shù)據(jù)驅(qū)動(dòng)一個(gè)更大的目標(biāo)。
像Google和百度這樣的大型AI公司橘茉,都有著非常復(fù)雜的策略工腋,為幾年后做好了準(zhǔn)備。
第二點(diǎn)是比較戰(zhàn)術(shù)性的畅卓,你可能現(xiàn)在就可以開始施行:AI公司通常有統(tǒng)一的數(shù)據(jù)倉(cāng)庫(kù)擅腰。
很多公司有很多數(shù)據(jù)倉(cāng)庫(kù),很分散翁潘,如果工程師想把這些數(shù)據(jù)放在一起來做點(diǎn)什么趁冈,可能需要和50個(gè)不同的人來溝通。
所以我認(rèn)為建立一個(gè)統(tǒng)一的數(shù)據(jù)倉(cāng)庫(kù)拜马,所有的數(shù)據(jù)都存儲(chǔ)在一起是一種很好的策略渗勘。
另外,普遍的自動(dòng)化和新的職位描述也是AI公司的重要特征俩莽。
比如說在移動(dòng)互聯(lián)網(wǎng)時(shí)代旺坠,產(chǎn)品經(jīng)理在設(shè)計(jì)交互App的時(shí)候可能會(huì)畫個(gè)線框圖:
然后工程師去實(shí)現(xiàn)它,整個(gè)流程很容易理清楚扮超。
但是假設(shè)在AI時(shí)代取刃,我們要做一個(gè)聊天機(jī)器人,這時(shí)候如果產(chǎn)品經(jīng)理畫個(gè)線框圖說:這是頭像出刷,這是聊天氣泡璧疗,并不能解決問題。
聊天氣泡長(zhǎng)什么樣不重要馁龟,我需要知道的是崩侠,這個(gè)聊天機(jī)器人要說什么話。線框圖對(duì)聊天機(jī)器人項(xiàng)目來說沒什么用坷檩。
如果一個(gè)產(chǎn)品經(jīng)理畫了個(gè)無人車的線框圖却音,說“我們要做個(gè)這個(gè)”,更是沒什么用淌喻。(全場(chǎng)笑)
在AI公司里僧家,產(chǎn)品經(jīng)理在和工程師溝通的時(shí)候,需要學(xué)會(huì)運(yùn)用數(shù)據(jù)裸删,要求精確的反饋。
給AI領(lǐng)導(dǎo)者的建議
時(shí)間好像不夠了阵赠,給高管的建議嘛涯塔,歡迎閱讀我給《哈佛商業(yè)評(píng)論》寫的文章??