關于何為有效數(shù)據(jù)的一些思考

讀了李開復先生在《人工智能》一書中一段關于AI創(chuàng)業(yè)的五大基礎的論述贯底，突然想起年初一位朋友說他有個朋友是做大數(shù)據(jù)的，問我可不可以一起做些事情像云。我說可以啊境肾，問問他們是哪類的數(shù)據(jù)咱再研究下如何利用唄永丝？于是他給我要了一個PPT過來锹漱，發(fā)過來一看我就驚呆了，上面寫了好多條目慕嚷，其中包括學歷信息哥牍、車輛信息、個稅/社保信息等等(可能吹牛逼的成份居多)……喝检。我說親嗅辣，這些信息是否涉密咱姑且不論，從這些信息的形式來看挠说，假乎只能用做電話營銷霸杼贰（至于如何做，大家應該都懂的损俭，我們每天都會接到的N個營銷電話很可能都來自這些信息的泄露）蛙奖，這都是些死數(shù)據(jù)啊。
我還舉了個例子杆兵，我們所需要的數(shù)據(jù)雁仲，比如醫(yī)療方面，我們不光是需要病患的基本信息琐脏，還需要病患的就診信息攒砖、診斷、用藥日裙、療效等信息吹艇。通過這些數(shù)據(jù)建立模型，進行深度學習阅签。從而得出某些病患可能用某些藥效果好掐暮，用哪些藥效果不好，再抽取出共同的特征總結成某些體質(zhì)用某些藥效果好政钟，用哪些藥效果不好路克。然后通過得出的結論樟结，輔助醫(yī)師或機器對病患下醫(yī)囑。
其實當時我也不大懂這些精算，只是在想像中瓢宦，數(shù)據(jù)應該要被這樣兒分析和利用才會產(chǎn)生價值，至于為什么需要這樣兒一直也沒太想清楚灰羽，直到前幾天讀李開復先生在《人工智能》一書中的描述驮履，才算是對這部分理清了些門道，整理如下：
每個時代的創(chuàng)業(yè)有每個時代的特點廉嚼。人工智能創(chuàng)業(yè)就與此前的互聯(lián)網(wǎng)時代創(chuàng)業(yè)玫镐、移動互聯(lián)網(wǎng)時代創(chuàng)業(yè)很不相同。

人工智能創(chuàng)業(yè)的五大基石

按照我的歸納和總結怠噪，人工智能時代的創(chuàng)業(yè)有五個前提條件：

1恐似、清晰的領域界限

人工智能創(chuàng)業(yè)，要解決的領域問題一定要非常清晰傍念，有明確的領域邊界矫夷，因為這一類問題是今天以深度學習為代表的人工智能算法最善于解決的。例如憋槐，同樣是做機器人双藕，如果做一個借助視覺傳感器更好地規(guī)劃掃地線路、提高清潔效率的掃地機器人阳仔，將機器人的需求限定在一個有限的問題邊界內(nèi)忧陪，這樣的解決方案就相對靠譜；如果上來就要做一個長得像人一樣近范、可以與人交流的人形機器人赤嚼，那以今天的技術，做出來的多半不是人工智能顺又，而是“人工智障”更卒。

2、閉環(huán)的稚照、自動標注的數(shù)據(jù)

針對要用AI解決的領域問題蹂空，最好要在這個領域內(nèi)，有閉環(huán)的果录、自動標注的數(shù)據(jù)上枕。例如，基于互聯(lián)網(wǎng)平臺的廣告系統(tǒng)可以自動根據(jù)用戶點擊以及后續(xù)操作弱恒，收集到第一手轉(zhuǎn)化率數(shù)據(jù)辨萍，而這個轉(zhuǎn)化率數(shù)據(jù)反過來又可以作為關鍵特征，幫助AI系統(tǒng)進一步學習。這種從應用本身收集數(shù)據(jù)锈玉，再用數(shù)據(jù)訓練模型爪飘，用模型提高應用性能的閉環(huán)模式更加高效。谷歌拉背、百度等搜索引擎之所以擁有強大的人工智能潛力师崎，就是因為他們的業(yè)務，比如搜索和廣告本身椅棺，就是一個閉環(huán)的系統(tǒng)犁罩，系統(tǒng)內(nèi)部就可以自動完成數(shù)據(jù)收集、標注两疚、訓練床估、反饋的全過程。

3诱渤、千萬級的數(shù)據(jù)量

今天人工智能的代表算法是深度學習顷窒。而深度學習通常要求足夠數(shù)量的訓練數(shù)據(jù)。一般而言源哩，擁有千萬級的數(shù)據(jù)量是保證深度學習質(zhì)量的前提。當然鸦做，這個“千萬級”的定義過于寬泛励烦。事實上，在不同的應用領域泼诱，深度學習對數(shù)據(jù)量的要求也不盡相同坛掠。而且，也不能僅看數(shù)據(jù)記錄的個數(shù)治筒，還要看每個數(shù)據(jù)記錄的特征維數(shù)屉栓，特征在相應空間中的分布情況，等等耸袜。

4友多、超大規(guī)模的計算能力

深度學習在進行模型訓練時，對電腦的計算能力有著近乎“癡狂”的渴求堤框。創(chuàng)新工場曾經(jīng)給一個專注于研發(fā)深度學習技術的團隊投資了1000萬人民幣域滥。結果，團隊建設初期才兩三個月時間蜈抓，僅購買深度學習使用的計算服務器就花掉了700多萬启绰。今天，一個典型的深度學習任務沟使，通常都要求在一臺或多臺安裝有4塊甚至8塊高性能GPU芯片的計算機上運行委可。涉及圖像、視頻的深度學習任務腊嗡，則更是需要數(shù)百塊着倾、數(shù)千塊GPU芯片組成的大型計算集群拾酝。在安裝了大型計算集群的機房內(nèi)，大量GPU在模型訓練期間發(fā)出遠比普通服務器多數(shù)十倍的熱量屈呕。許多機房的空調(diào)系統(tǒng)都不得不重新設計微宝、安裝。在一些空調(diào)馬力不足的機房里虎眨，創(chuàng)業(yè)團隊甚至購買巨大的冰塊來協(xié)助降溫蟋软。

5、頂尖的AI科學家

今天的人工智能研發(fā)還相當依賴于算法工程師甚至是AI科學家的個人經(jīng)驗積累嗽桩。水平最高的科學家與普通水平的算法工程師之間岳守，生產(chǎn)力的差異不啻千百倍。人工智能創(chuàng)業(yè)公司對頂尖AI科學家的渴求直接造成了這個領域科學家碌冶、研究員的身價與日俱增湿痢。谷歌雇傭杰弗里·辛頓、李飛飛扑庞，F(xiàn)acebook雇傭揚·勒丘恩譬重，據(jù)說都開出了數(shù)百萬美元的年薪。國內(nèi)AI創(chuàng)業(yè)公司如曠視科技罐氨，也用令人瞠目的高薪臀规，將機器視覺領域的頂尖科學家孫劍“挖”了過來，擔任公司的首席科學家栅隐。

實際上我之前所謂的那一套有效的數(shù)據(jù)理論塔嬉，應對的應該就是其中的第2點，閉環(huán)的租悄、自動標注的數(shù)據(jù)谨究。除去數(shù)據(jù)的收集，還要完成相應的標注泣棋、訓練胶哲、反饋的數(shù)據(jù)才可以算得上是有效數(shù)據(jù)才對~

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市潭辈，隨后出現(xiàn)的幾起案子纪吮，更是在濱河造成了極大的恐慌，老刑警劉巖萎胰，帶你破解...
沈念sama閱讀 211,561評論 6贊 492
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件碾盟，死亡現(xiàn)場離奇詭異，居然都是意外死亡技竟，警方通過查閱死者的電腦和手機冰肴，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,218評論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人熙尉，你說我怎么就攤上這事联逻。” “怎么了检痰？”我有些...
開封第一講書人閱讀 157,162評論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵包归，是天一觀的道長。經(jīng)常有香客問我铅歼，道長公壤，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 56,470評論 1贊 283
?港島之戀（遺憾婚禮）
正文為了忘掉前任椎椰，我火速辦了婚禮厦幅，結果婚禮上，老公的妹妹穿的比我還像新娘慨飘。我一直安慰自己确憨，他們只是感情好，可當我...
茶點故事閱讀 65,550評論 6贊 385
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布瓤的。她就那樣靜靜地躺著休弃，像睡著了一般。火紅的嫁衣襯著肌膚如雪圈膏。梳的紋絲不亂的頭發(fā)上塔猾，一...
開封第一講書人閱讀 49,806評論 1贊 290
城市分裂傳說
那天，我揣著相機與錄音本辐，去河邊找鬼。笑死医增，一個胖子當著我的面吹牛慎皱，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播叶骨，決...
沈念sama閱讀 38,951評論 3贊 407
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼茫多，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了忽刽？” 一聲冷哼從身側響起天揖，我...
開封第一講書人閱讀 37,712評論 0贊 266
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎跪帝，沒想到半個月后今膊，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 44,166評論 1贊 303
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡伞剑，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,510評論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年斑唬，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 38,643評論 1贊 340
活死人
序言：一個原本活蹦亂跳的男人離奇死亡恕刘，死狀恐怖缤谎，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情褐着，我是刑警寧澤坷澡，帶...
沈念sama閱讀 34,306評論 4贊 330
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站含蓉，受9級特大地震影響频敛，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜谴餐，卻給世界環(huán)境...
茶點故事閱讀 39,930評論 3贊 313
男人毒藥：我在死后第九天來索命
文/蒙蒙一姻政、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧岂嗓，春花似錦汁展、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,745評論 0贊 21
一樁弒父案食绿，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至公罕，卻和暖如春器紧，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背楼眷。一陣腳步聲響...
開封第一講書人閱讀 31,983評論 1贊 266
情欲美人皮
我被黑心中介騙來泰國打工铲汪，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人罐柳。一個月前我還...
沈念sama閱讀 46,351評論 2贊 360
代替公主和親
正文我出身青樓掌腰，卻偏偏與公主長得像，于是被迫代替她去往敵國和親张吉。傳聞我的和親對象是個殘疾皇子齿梁，可洞房花燭夜當晚...
茶點故事閱讀 43,509評論 2贊 348