讀了李開復先生在《人工智能》一書中一段關于AI創(chuàng)業(yè)的五大基礎的論述贯底,突然想起年初一位朋友說他有個朋友是做大數(shù)據(jù)的,問我可不可以一起做些事情像云。我說可以啊境肾,問問他們是哪類的數(shù)據(jù)咱再研究下如何利用唄永丝?于是他給我要了一個PPT過來锹漱,發(fā)過來一看我就驚呆了,上面寫了好多條目慕嚷,其中包括學歷信息哥牍、車輛信息、個稅/社保信息等等(可能吹牛逼的成份居多)……喝检。我說親嗅辣,這些信息是否涉密咱姑且不論,從這些信息的形式來看挠说,假乎只能用做電話營銷霸杼贰(至于如何做,大家應該都懂的损俭,我們每天都會接到的N個營銷電話很可能都來自這些信息的泄露)蛙奖,這都是些死數(shù)據(jù)啊。
我還舉了個例子杆兵,我們所需要的數(shù)據(jù)雁仲,比如醫(yī)療方面,我們不光是需要病患的基本信息琐脏,還需要病患的就診信息攒砖、診斷、用藥日裙、療效等信息吹艇。通過這些數(shù)據(jù)建立模型,進行深度學習阅签。從而得出某些病患可能用某些藥效果好掐暮,用哪些藥效果不好,再抽取出共同的特征總結成某些體質(zhì)用某些藥效果好政钟,用哪些藥效果不好路克。然后通過得出的結論樟结,輔助醫(yī)師或機器對病患下醫(yī)囑。
其實當時我也不大懂這些精算,只是在想像中瓢宦,數(shù)據(jù)應該要被這樣兒分析和利用才會產(chǎn)生價值,至于為什么需要這樣兒一直也沒太想清楚灰羽,直到前幾天讀李開復先生在《人工智能》一書中的描述驮履,才算是對這部分理清了些門道,整理如下:
每個時代的創(chuàng)業(yè)有每個時代的特點廉嚼。人工智能創(chuàng)業(yè)就與此前的互聯(lián)網(wǎng)時代創(chuàng)業(yè)玫镐、移動互聯(lián)網(wǎng)時代創(chuàng)業(yè)很不相同。
按照我的歸納和總結怠噪,人工智能時代的創(chuàng)業(yè)有五個前提條件:
1恐似、清晰的領域界限
人工智能創(chuàng)業(yè),要解決的領域問題一定要非常清晰傍念,有明確的領域邊界矫夷,因為這一類問題是今天以深度學習為代表的人工智能算法最善于解決的。例如憋槐,同樣是做機器人双藕,如果做一個借助視覺傳感器更好地規(guī)劃掃地線路、提高清潔效率的掃地機器人阳仔,將機器人的需求限定在一個有限的問題邊界內(nèi)忧陪,這樣的解決方案就相對靠譜;如果上來就要做一個長得像人一樣近范、可以與人交流的人形機器人赤嚼,那以今天的技術,做出來的多半不是人工智能顺又,而是“人工智障”更卒。
2、閉環(huán)的稚照、自動標注的數(shù)據(jù)
針對要用AI解決的領域問題蹂空,最好要在這個領域內(nèi),有閉環(huán)的果录、自動標注的數(shù)據(jù)上枕。例如,基于互聯(lián)網(wǎng)平臺的廣告系統(tǒng)可以自動根據(jù)用戶點擊以及后續(xù)操作弱恒,收集到第一手轉(zhuǎn)化率數(shù)據(jù)辨萍,而這個轉(zhuǎn)化率數(shù)據(jù)反過來又可以作為關鍵特征,幫助AI系統(tǒng)進一步學習。這種從應用本身收集數(shù)據(jù)锈玉,再用數(shù)據(jù)訓練模型爪飘,用模型提高應用性能的閉環(huán)模式更加高效。谷歌拉背、百度等搜索引擎之所以擁有強大的人工智能潛力师崎,就是因為他們的業(yè)務,比如搜索和廣告本身椅棺,就是一個閉環(huán)的系統(tǒng)犁罩,系統(tǒng)內(nèi)部就可以自動完成數(shù)據(jù)收集、標注两疚、訓練床估、反饋的全過程。
3诱渤、千萬級的數(shù)據(jù)量
今天人工智能的代表算法是深度學習顷窒。而深度學習通常要求足夠數(shù)量的訓練數(shù)據(jù)。一般而言源哩,擁有千萬級的數(shù)據(jù)量是保證深度學習質(zhì)量的前提。當然鸦做,這個“千萬級”的定義過于寬泛励烦。事實上,在不同的應用領域泼诱,深度學習對數(shù)據(jù)量的要求也不盡相同坛掠。而且,也不能僅看數(shù)據(jù)記錄的個數(shù)治筒,還要看每個數(shù)據(jù)記錄的特征維數(shù)屉栓,特征在相應空間中的分布情況,等等耸袜。
4友多、超大規(guī)模的計算能力
深度學習在進行模型訓練時,對電腦的計算能力有著近乎“癡狂”的渴求堤框。創(chuàng)新工場曾經(jīng)給一個專注于研發(fā)深度學習技術的團隊投資了1000萬人民幣域滥。結果,團隊建設初期才兩三個月時間蜈抓,僅購買深度學習使用的計算服務器就花掉了700多萬启绰。今天,一個典型的深度學習任務沟使,通常都要求在一臺或多臺安裝有4塊甚至8塊高性能GPU芯片的計算機上運行委可。涉及圖像、視頻的深度學習任務腊嗡,則更是需要數(shù)百塊着倾、數(shù)千塊GPU芯片組成的大型計算集群拾酝。在安裝了大型計算集群的機房內(nèi),大量GPU在模型訓練期間發(fā)出遠比普通服務器多數(shù)十倍的熱量屈呕。許多機房的空調(diào)系統(tǒng)都不得不重新設計微宝、安裝。在一些空調(diào)馬力不足的機房里虎眨,創(chuàng)業(yè)團隊甚至購買巨大的冰塊來協(xié)助降溫蟋软。
5、頂尖的AI科學家
今天的人工智能研發(fā)還相當依賴于算法工程師甚至是AI科學家的個人經(jīng)驗積累嗽桩。水平最高的科學家與普通水平的算法工程師之間岳守,生產(chǎn)力的差異不啻千百倍。人工智能創(chuàng)業(yè)公司對頂尖AI科學家的渴求直接造成了這個領域科學家碌冶、研究員的身價與日俱增湿痢。谷歌雇傭杰弗里·辛頓、李飛飛扑庞,F(xiàn)acebook雇傭揚·勒丘恩譬重,據(jù)說都開出了數(shù)百萬美元的年薪。國內(nèi)AI創(chuàng)業(yè)公司如曠視科技罐氨,也用令人瞠目的高薪臀规,將機器視覺領域的頂尖科學家孫劍“挖”了過來,擔任公司的首席科學家栅隐。
實際上我之前所謂的那一套有效的數(shù)據(jù)理論塔嬉,應對的應該就是其中的第2點,閉環(huán)的租悄、自動標注的數(shù)據(jù)谨究。除去數(shù)據(jù)的收集,還要完成相應的標注泣棋、訓練 胶哲、反饋的數(shù)據(jù)才可以算得上是有效數(shù)據(jù)才對~