讀懂人工智能,掌握時代先機(jī)瘟忱。
來自:36氪領(lǐng)讀
人工智能會帶來哪些經(jīng)濟(jì)機(jī)會奥额?人工智能會奪去你的工作崗位嗎?人工智能會造成更多的不平等嗎访诱?當(dāng)人工智能優(yōu)先時垫挨,什么才是你的學(xué)習(xí)策略?
2013年盐数,谷歌的首席經(jīng)濟(jì)學(xué)家哈爾·瓦里安(Hal Varian)開導(dǎo)可口可樂公司的羅伯特·戈伊蘇埃塔(Robert Goizueta)說:
“10億小時之前棒拂,現(xiàn)代智人出現(xiàn)了。10億分鐘之前玫氢,基督教誕生了帚屉。10億秒鐘前,IBM的個人電腦上市了漾峡。10億次谷歌搜索之前……是今天早上攻旦。”
谷歌并不是唯一一家擁有海量數(shù)據(jù)的公司生逸。從Facebook牢屋、微軟等大型公司到地方政府甚至初創(chuàng)公司,數(shù)據(jù)收集都變得比以往更廉價槽袄、更容易了烙无。
這些數(shù)據(jù)具有價值。數(shù)十億的搜索量意味著遍尺,谷歌有了數(shù)十億條可供改善服務(wù)的數(shù)據(jù)線索截酷。有些人把數(shù)據(jù)稱為“新一代的石油”。
預(yù)測機(jī)器依賴數(shù)據(jù)乾戏。越來越好的數(shù)據(jù)帶來越來越好的預(yù)測迂苛。從經(jīng)濟(jì)角度來說,數(shù)據(jù)是預(yù)測的關(guān)鍵互補(bǔ)品鼓择。隨著預(yù)測變得愈發(fā)廉價三幻,它的價值水漲船高。
數(shù)據(jù)在人工智能中扮演著三種角色呐能。首先是輸入數(shù)據(jù)念搬,它被饋進(jìn)算法,用于生成預(yù)測。其次是訓(xùn)練數(shù)據(jù)锁蠕,它被用來生成最初的算法夷野。
訓(xùn)練數(shù)據(jù)用于訓(xùn)練人工智能,讓后者得以在現(xiàn)實(shí)環(huán)境下進(jìn)行良好的預(yù)測荣倾。最后一種是反饋數(shù)據(jù)悯搔,通過經(jīng)驗來改進(jìn)算法的表現(xiàn)。在某些情況下舌仍,這三種角色存在大量重合妒貌,同一批數(shù)據(jù)甚至能身兼三職。
但獲取數(shù)據(jù)的成本可能很高铸豁。因此灌曙,投資時有必要權(quán)衡的是以下兩者:更多數(shù)據(jù)帶來的好處與獲取更多數(shù)據(jù)所付出的成本。為了做出正確的數(shù)據(jù)投資決策节芥,你必須理解預(yù)測機(jī)器是怎樣使用數(shù)據(jù)的在刺。
預(yù)測需要數(shù)據(jù)
在新近的人工智能熱潮興起之前,有過一輪大數(shù)據(jù)熱头镊。過去20年蚣驼,數(shù)據(jù)的種類、數(shù)量和質(zhì)量均有大幅提升相艇。圖像和文本如今都是數(shù)字形式了颖杏,機(jī)器可以對其進(jìn)行分析。傳感器無處不在坛芽。大數(shù)據(jù)熱的基礎(chǔ)是留储,人們希望數(shù)據(jù)能夠幫助減少不確定性,以及對正在發(fā)生的事情擁有更多了解咙轩。
以檢測人類心率變化的傳感器的進(jìn)步為例获讳。多家有著“醫(yī)學(xué)味”十足名字的公司和非營利組織(比如AliveCor和Cardiio)都在開發(fā)使用心率數(shù)據(jù)的產(chǎn)品。
初創(chuàng)公司Cardiogram設(shè)計了一款蘋果手機(jī)應(yīng)用程序活喊,使用蘋果手表的心率數(shù)據(jù)生成了大量信息:使用該款程序赔嚎,用戶可按秒測量心率。用戶可以查看一天當(dāng)中胧弛,自己的心率什么時候會達(dá)到巔峰,又或者一年內(nèi)(甚至十年內(nèi))侠畔,心率是否有所加快或放緩结缚。
但這些產(chǎn)品的潛在力量來自大量數(shù)據(jù)與預(yù)測機(jī)器的結(jié)合。學(xué)術(shù)界和工業(yè)界的研究人員都指出软棺,智能手機(jī)可以預(yù)測不規(guī)則的心律(醫(yī)學(xué)上叫作“心房顫動”)红竭。
因此,依靠各自的預(yù)測機(jī)器,Cardiogram茵宪、AliveCor最冰、Cardiio和其他公司正在開發(fā)利用心率數(shù)據(jù)輔助診斷心臟疾病的功能。一般的方法是稀火,使用心率數(shù)據(jù)預(yù)測如下未知信息:特定用戶是否心律異常暖哨。
沒受過醫(yī)學(xué)專業(yè)訓(xùn)練的消費(fèi)者從原始數(shù)據(jù)里是看不到心率數(shù)據(jù)與心律異常之間的關(guān)聯(lián)的。而Cardiogram可以運(yùn)用深層神經(jīng)網(wǎng)絡(luò)探測到心律異常凰狞,準(zhǔn)確率高達(dá)97%篇裁。
大約有1/4的中風(fēng)是心律異常導(dǎo)致的。有了更好的預(yù)測赡若,醫(yī)生便可提供更好的治療达布。某些特定藥物可用來預(yù)防中風(fēng)。
為此逾冬,每個消費(fèi)者必須提供自己的心率數(shù)據(jù)黍聂。沒有個人數(shù)據(jù),機(jī)器無法預(yù)估當(dāng)事人的風(fēng)險身腻。預(yù)測機(jī)器與個人數(shù)據(jù)相結(jié)合便可預(yù)測此人心律異常的概率产还。
機(jī)器怎樣從數(shù)據(jù)中學(xué)習(xí)
當(dāng)前這一代的人工智能技術(shù)被稱為“機(jī)器學(xué)習(xí)”是有原因的。機(jī)器從數(shù)據(jù)中學(xué)習(xí)霸株。就心率監(jiān)測儀而言雕沉,根據(jù)心率數(shù)據(jù)預(yù)測心律異常(以及中風(fēng)概率提高的可能性),預(yù)測機(jī)器要先學(xué)習(xí)數(shù)據(jù)跟心律異常的實(shí)際發(fā)病率有著怎樣的相關(guān)性去件。
為此坡椒,預(yù)測機(jī)器需要將來自蘋果手表的輸入數(shù)據(jù)(統(tǒng)計學(xué)家稱之為“自變量”)與心律異常信息(“因變量”)結(jié)合起來。
要讓預(yù)測機(jī)器學(xué)習(xí)尤溜,心律異常信息必須來自同一個向蘋果手表提供心率數(shù)據(jù)的群體倔叼。因此,預(yù)測機(jī)器需要多個心律異常者的數(shù)據(jù)宫莱,以及他們的心率數(shù)據(jù)丈攒。
重要的是,它還需要許多心律無異常人士的數(shù)據(jù)授霸,及其心率數(shù)據(jù)巡验。接著,預(yù)測機(jī)器比較心律正常者和異常者的心率圖碘耳。有了這樣的比較显设,就可以進(jìn)行預(yù)測。
如果新患者的心率圖與心律異常者提供的“訓(xùn)練”樣本更為接近辛辨,那么捕捂,機(jī)器就會預(yù)測這一患者有著心律異常的問題瑟枫。
像不少醫(yī)療應(yīng)用一樣,Cardiogram與學(xué)術(shù)研究人員進(jìn)行了合作指攒,后者通過在研究中監(jiān)測6000名用戶的心率收集到了數(shù)據(jù)慷妙。
在6000名用戶里,約有兩百人被確診患有心律不齊允悦。故此膝擂,Cardiogram所做的就是收集來自蘋果手表的心率圖數(shù)據(jù)并與研究數(shù)據(jù)進(jìn)行對比。
此類產(chǎn)品在上市之后仍會繼續(xù)改進(jìn)預(yù)測的準(zhǔn)確度澡屡。預(yù)測機(jī)器需要有關(guān)預(yù)測是否準(zhǔn)確的反饋數(shù)據(jù)猿挚。因此,它需要用戶中心律異常的發(fā)病率的數(shù)據(jù)驶鹉。該機(jī)器將這些數(shù)據(jù)與心臟檢測的輸入數(shù)據(jù)相結(jié)合绩蜻,生成反饋,并不斷提高預(yù)測的準(zhǔn)確度室埋。
不過办绝,獲取訓(xùn)練數(shù)據(jù)也可能是件很棘手的事情。為了預(yù)測同一組項目(如本例中的心臟病患者)姚淆,你除了需要目標(biāo)結(jié)果的信息(心律異常)孕蝉,還需要有助于在新條件下預(yù)測該結(jié)果的信息(心率監(jiān)控)。
若要預(yù)測未來事件腌逢,就更具有挑戰(zhàn)性了降淮。你只能把想要預(yù)測之時已知的信息饋進(jìn)預(yù)測機(jī)器。比方說搏讶,假設(shè)你正想購買明年自己最心愛運(yùn)動隊的季票佳鳖。
在多倫多,大多數(shù)人會購買多倫多楓葉冰球隊的季票媒惕。你顯然希望自己去觀看比賽的時候系吩,球隊獲勝,而不是輸?shù)舳饰怠D阏J(rèn)為穿挨,球隊至少要能贏半數(shù)以上的比賽,購買季票才劃算肴盏。為了做出這個決定科盛,你需要預(yù)測球隊獲勝的次數(shù)。
就冰球而言菜皂,進(jìn)球最多的球隊獲勝土涝。所以,你認(rèn)為進(jìn)球多的球隊能贏幌墓,進(jìn)球少的球隊往往會輸但壮。你決定為預(yù)測機(jī)器提供過往賽季的數(shù)據(jù),包括每支球隊的進(jìn)球數(shù)常侣,每支球隊對手的進(jìn)球數(shù)蜡饵,以及每支球隊的獲勝次數(shù)。
你將這些數(shù)據(jù)提供給預(yù)測機(jī)器胳施,發(fā)現(xiàn)這的確是預(yù)測獲勝次數(shù)的絕佳指標(biāo)溯祸。于是,你打算使用這些信息來預(yù)測明年球隊的獲勝次數(shù)舞肆。
很可惜焦辅,你做不到。你一籌莫展椿胯,你沒有明年球隊進(jìn)球數(shù)的信息筷登,所以,你沒法用這些數(shù)據(jù)來預(yù)測球隊的獲勝次數(shù)哩盲。你確實(shí)擁有去年的進(jìn)球數(shù)據(jù)前方,但它沒用,因為你的訓(xùn)練模式是讓預(yù)測機(jī)器從當(dāng)前年份的數(shù)據(jù)中進(jìn)行學(xué)習(xí)的廉油。
為了做出這一預(yù)測惠险,你需要掌握做出預(yù)測那一刻手頭將會擁有的數(shù)據(jù)。你也可以使用前一年的進(jìn)球數(shù)來重新訓(xùn)練預(yù)測機(jī)器抒线,讓它預(yù)測今年的勝算班巩。你還可以使用其他信息,比如前一年的獲勝次數(shù)嘶炭,球員的年齡抱慌,他們在冰上的過往表現(xiàn)。
許多商業(yè)人工智能應(yīng)用程序都具有這種結(jié)構(gòu):將輸入數(shù)據(jù)和結(jié)果指標(biāo)結(jié)合起來創(chuàng)建預(yù)測機(jī)器旱物,接著使用來自新情況的輸入數(shù)據(jù)來預(yù)測該情況下的結(jié)果遥缕。如果你能獲得實(shí)際結(jié)果的數(shù)據(jù),那么你的預(yù)測機(jī)器就能通過反饋不斷學(xué)習(xí)宵呛。
關(guān)于數(shù)據(jù)的決策
數(shù)據(jù)的獲取成本往往很高单匣,但沒有它預(yù)測機(jī)器便無法運(yùn)行。預(yù)測機(jī)器需要數(shù)據(jù)來創(chuàng)造宝穗、運(yùn)行和改進(jìn)户秤。
因此,你必須對所需數(shù)據(jù)的規(guī)模和范圍做出決定逮矛。你需要多少不同類型的數(shù)據(jù)鸡号?為對機(jī)器進(jìn)行訓(xùn)練,你需要多少種不同的對象须鼎?需要多長時間收集一次數(shù)據(jù)鲸伴?
類型多府蔗,對象多,頻率高汞窗,意味著成本更高姓赤,但也可能帶來更高的收益。斟酌這一決定時仲吏,你必須仔細(xì)判斷你想要預(yù)測的是什么不铆。特定的預(yù)測問題能告訴你到底需要些什么。
Cardiogram想要預(yù)測的是中風(fēng)裹唆。它使用心律異常(這是經(jīng)過醫(yī)學(xué)驗證的)作為指標(biāo)誓斥。一旦設(shè)定了這個預(yù)測目標(biāo),它需要的就無非是每個使用這款應(yīng)用程序的人的心率數(shù)據(jù)许帐。
它或許還可以使用睡眠劳坑、身體活動、家庭病史和年齡等相關(guān)信息舞吭。提出一些問題來收集年齡和其他信息之后泡垃,它只需要一臺能夠準(zhǔn)確地測量心率的設(shè)備。
Cardiogram還需要訓(xùn)練數(shù)據(jù):它的訓(xùn)練數(shù)據(jù)涵蓋了6000人羡鸥,其中一小部分人心律異常蔑穴。盡管有各式各樣的傳感器以及關(guān)于用戶的具體信息可供使用,但Cardiogram只需要收集大多數(shù)用戶的極少量信息惧浴。它只需要得到用戶心律異常的信息就可以訓(xùn)練自家的人工智能存和。這樣一來,變量的數(shù)量就相對少了衷旅。
為了做出好的預(yù)測捐腿,機(jī)器的訓(xùn)練數(shù)據(jù)必須涵蓋足夠多的用戶(或分析單位)。所需用戶的數(shù)量取決于兩個因素:首先柿顶,“信號”相較“噪聲”有多可靠茄袖;其次,預(yù)測的準(zhǔn)確度必須達(dá)到多高才具備可用性嘁锯。
換句話說宪祥,所需用戶的數(shù)量取決于我們是否期望心率能準(zhǔn)確地預(yù)測心律異常,以及一旦出錯家乘,代價有多大蝗羊。如果心率是一個強(qiáng)預(yù)測指標(biāo),而且出了錯也沒什么大不了的仁锯,那么我們只需要幾個人就夠了耀找。
如果心率是一個弱預(yù)測指標(biāo),又或者业崖,每一次錯誤都有可能把用戶置于危險境地野芒,那么蓄愁,我們就需要成千甚至數(shù)百萬的用戶數(shù)。
Cardiogram在初步研究中使用了6000人的數(shù)據(jù)狞悲,其中有200人心律異常涝登。隨著時間的推移,它通過軟件用戶是否出現(xiàn)心律異常的反饋來進(jìn)一步收集數(shù)據(jù)效诅。
這6000人從哪里來?考慮到對預(yù)測的可靠性和準(zhǔn)確性的要求趟济,數(shù)據(jù)科學(xué)家有絕佳的工具可評估所需數(shù)據(jù)量乱投。這些工具叫作“功效計算”(power calculations),它們能告訴你需要分析多少個單元才
能生成有用的預(yù)測顷编。需要加以管理的要點(diǎn)是戚炫,你必須有所權(quán)衡:更準(zhǔn)確的預(yù)測需要更多的單元以供研究,而且更多的單元有可能代價不菲媳纬。
Cardiogram需要高頻率的數(shù)據(jù)收集双肤。它的技術(shù)以蘋果手表逐秒收集的心率數(shù)據(jù)為基礎(chǔ)。它需要這么高的頻率钮惠,因為心率在一天當(dāng)中不同時間會有所不同茅糜,而且正確的測量需要反復(fù)評估,以判斷所測得心率是不是所研究用戶的真實(shí)值素挽。為發(fā)揮作用蔑赘,Cardiogram的算法運(yùn)用的是可穿戴設(shè)備提供的穩(wěn)定測量流,而不是患者只能在醫(yī)生診室里進(jìn)行測量得到的那一個結(jié)果预明。
收集這些數(shù)據(jù)需要一筆昂貴的投資缩赛。患者必須隨時佩戴著一個設(shè)備撰糠,因此它會介入患者的日常行為(尤其是對那些沒有蘋果手表的人來說)酥馍。
因為它事關(guān)健康數(shù)據(jù),存在隱私問題阅酪,因此Cardiogram設(shè)計的系統(tǒng)改善了隱私功能旨袒,但代價是提高了開發(fā)成本,降低了機(jī)器根據(jù)反饋改進(jìn)預(yù)測的能力遮斥。它通過應(yīng)用程序來收集預(yù)測中使用的數(shù)據(jù)峦失;數(shù)據(jù)本身始終在手表上。
接下來术吗,我們將討論尉辑,在對待需要收集多少數(shù)據(jù)的問題上,統(tǒng)計思維和經(jīng)濟(jì)思維有怎樣的區(qū)別较屿。(我們會在第四部分討論策略時思考隱私相關(guān)的問題隧魄。)
規(guī)模經(jīng)濟(jì)
數(shù)據(jù)的增多改進(jìn)了預(yù)測卓练。但你需要多少數(shù)據(jù)呢?信息增加(不管是單位數(shù)量更多购啄、變量類型更多還是頻率更高)帶來的襟企,對于現(xiàn)有數(shù)據(jù)量來說,既可能是利益的增加狮含,也有可能是利益的減少顽悼。用經(jīng)濟(jì)學(xué)家的話來說,數(shù)據(jù)既可能增加規(guī)模報酬几迄,也可能減少規(guī)模報酬蔚龙。
從純粹的統(tǒng)計學(xué)角度來看,數(shù)據(jù)的規(guī)模報酬是遞減的映胁。你從第三次觀察中所得的有用信息比第一百次要多木羹,而你從第一百次觀察中所得的有用信息又比第一百萬次要多。當(dāng)你將觀察結(jié)果加入訓(xùn)練數(shù)據(jù)的時候解孙,它對改進(jìn)預(yù)測的幫助越來越小坑填。
每一次觀察都是一段有助于預(yù)測的額外數(shù)據(jù)片段。就Cardiogram而言弛姜,一次觀察就是所記錄的每兩次心跳之間相隔的時間脐瑰。我們說數(shù)據(jù)收益遞減時,意思是前100次心跳可以讓你很好地了解該用戶是否心律異常娱据,每一次額外的心跳在改進(jìn)預(yù)測方面都不如前一次重要蚪黑。
以你去機(jī)場要花多長時間為例。如果你從未去過機(jī)場中剩,那么忌穿,第一次能帶來很多有用的信息。第二次和第三次也能讓你對“去機(jī)場通常要多久”有個準(zhǔn)確的認(rèn)識结啼。
可到了第100次掠剑,你對去機(jī)場要花多長時間就不太可能獲得更多的信息了。從這個角度來說郊愧,數(shù)據(jù)的規(guī)模報酬是遞減的:你獲得的數(shù)據(jù)越多朴译,每一段額外的數(shù)據(jù)片段的價值就越低。
從經(jīng)濟(jì)的角度來看情況可能并非如此属铁,其著眼點(diǎn)不在于數(shù)據(jù)如何改進(jìn)預(yù)測眠寿,而在于數(shù)據(jù)如何提高你從預(yù)測中所獲得的價值。有時候焦蘑,預(yù)測和結(jié)果是同步的盯拱,因此,統(tǒng)計學(xué)上觀察到的報酬遞減暗含了你所在意的那些結(jié)果的報酬遞減。然而狡逢,這兩者不是一回事宁舰。
舉個例子,消費(fèi)者可以選擇使用你的產(chǎn)品奢浑,也可以選擇使用你競爭對手的產(chǎn)品蛮艰。如果你的產(chǎn)品始終跟對手的產(chǎn)品一樣好甚至更好,他們就只用你的產(chǎn)品雀彼∪姥粒可很多時候,只要有現(xiàn)成可用的數(shù)據(jù)徊哑,所有的競爭者都能表現(xiàn)得一樣好仍律。
例如,大多數(shù)搜索引擎對常見搜索都可提供類似的結(jié)果实柠。不管你使用的是谷歌還是必應(yīng),搜索“賈斯汀·比伯”所得的結(jié)果都差不多善涨。如果能為非常見的搜索提供更好的結(jié)果窒盐,這種能力越強(qiáng),搜索引擎的價值就越高钢拧。
試試在谷歌和必應(yīng)里輸入“破壞(disruption)”一詞蟹漓。在撰寫本書期間,谷歌既顯示了字典里的定義源内,也顯示了與克萊·M. 克里斯坦森(Clay Christensen)“顛覆性創(chuàng)新(disruption innovation)”的概念相關(guān)的結(jié)果葡粒。必應(yīng)的前九個結(jié)果均只給出了字典里的定義。
谷歌搜索結(jié)果更好的一個關(guān)鍵原因在于膜钓,要弄清此類非常見搜索中搜索者的需求就要有這類搜索的相關(guān)數(shù)據(jù)嗽交。不管是進(jìn)行非常見搜索還是常見搜索,大多數(shù)人都會使用谷歌颂斜。就算搜索引擎只比對手好一點(diǎn)夫壁,也可能在市場份額和收入上造成巨大差異。
因此沃疮,盡管從技術(shù)角度而言盒让,數(shù)據(jù)的規(guī)模報酬是遞減的(第十億次搜索對搜索引擎的改進(jìn)不如第一次大),但站在業(yè)務(wù)角度講司蔬,如果你比競爭對手擁有更多更好的數(shù)據(jù)邑茄,數(shù)據(jù)就是最有價值的東西。
有人甚至認(rèn)為俊啼,擁有越多與獨(dú)一無二的因素相關(guān)的數(shù)據(jù)肺缕,就越能在市場上獲得不成比例的回報。增加數(shù)據(jù)能在市場上帶來不成比例的回報。因此搓谆,從經(jīng)濟(jì)的角度來看炒辉,此種情況下的數(shù)據(jù)有可能帶來規(guī)模報酬遞增。