造就數(shù)據(jù)科學(xué)家(轉(zhuǎn)譯)

Neil Zhu佳头,簡(jiǎn)書ID Not_GOD娄柳,University AI 創(chuàng)始人 & Chief Scientist争拐,致力于推進(jìn)世界人工智能化進(jìn)程。制定并實(shí)施 UAI 中長(zhǎng)期增長(zhǎng)戰(zhàn)略和目標(biāo)嫉嘀,帶領(lǐng)團(tuán)隊(duì)快速成長(zhǎng)為人工智能領(lǐng)域最專業(yè)的力量炼邀。
作為行業(yè)領(lǐng)導(dǎo)者魄揉,他和UAI一起在2014年創(chuàng)建了TASA(中國(guó)最早的人工智能社團(tuán)), DL Center(深度學(xué)習(xí)知識(shí)中心全球價(jià)值網(wǎng)絡(luò))剪侮,AI growth(行業(yè)智庫(kù)培訓(xùn))等,為中國(guó)的人工智能人才建設(shè)輸送了大量的血液和養(yǎng)分。此外瓣俯,他還參與或者舉辦過(guò)各類國(guó)際性的人工智能峰會(huì)和活動(dòng)杰标,產(chǎn)生了巨大的影響力,書寫了60萬(wàn)字的人工智能精品技術(shù)內(nèi)容彩匕,生產(chǎn)翻譯了全球第一本深度學(xué)習(xí)入門書《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》腔剂,生產(chǎn)的內(nèi)容被大量的專業(yè)垂直公眾號(hào)和媒體轉(zhuǎn)載與連載。曾經(jīng)受邀為國(guó)內(nèi)頂尖大學(xué)制定人工智能學(xué)習(xí)規(guī)劃和教授人工智能前沿課程驼仪,均受學(xué)生和老師好評(píng)掸犬。

當(dāng)Jeff Hammerbacher和我談到我們的數(shù)據(jù)科學(xué)團(tuán)隊(duì)時(shí),我們意識(shí)到當(dāng)企業(yè)不斷發(fā)展绪爸,我們都需要弄明白如何稱呼團(tuán)隊(duì)的成員湾碎。“商業(yè)分析師”看起來(lái)太受限了奠货〗槿欤“數(shù)據(jù)分析師”是考慮的對(duì)象,但我們感覺(jué)這個(gè)稱謂限制了人們所能做的事情递惋∪崽希總之,我們團(tuán)隊(duì)的很多人都是專家級(jí)工程師萍虽【龋“研究科學(xué)家”是比較合理的職位名稱,通常被Sun杉编、HP喉前、Xerox、Yahoo和IBM這些公司使用王财。然而卵迂,我們覺(jué)得大多數(shù)研究科學(xué)家從事的是比較創(chuàng)新和抽象的,而且工作與實(shí)驗(yàn)室之外的那些產(chǎn)品開發(fā)團(tuán)隊(duì)是隔離的绒净。通常來(lái)說(shuō)见咒,實(shí)驗(yàn)室的研究成果能用于公司關(guān)鍵產(chǎn)品需要好幾年(大部分都無(wú)法最終轉(zhuǎn)化為產(chǎn)品)。我們組織的注意力集中在數(shù)據(jù)應(yīng)用上挂疆,這些工作通常對(duì)于商業(yè)業(yè)務(wù)有著直接和巨大的影響改览。因此最最適合的稱呼應(yīng)該叫做“數(shù)據(jù)科學(xué)家”——那些使用數(shù)據(jù)和科學(xué)來(lái)創(chuàng)造新事物的人們。

(注意:盡管“數(shù)據(jù)科學(xué)”這個(gè)詞已經(jīng)有很長(zhǎng)的歷史缤言,通常是在商務(wù)智能中出現(xiàn)宝当,但是“數(shù)據(jù)科學(xué)家”卻是新的東西。Jeff和我都曾詢問(wèn)過(guò)別人有沒(méi)有見(jiàn)過(guò)這個(gè)稱呼胆萧,結(jié)果是沒(méi)人見(jiàn)過(guò)庆揩。)

但是你如何找到數(shù)據(jù)科學(xué)家俐东?一旦有人問(wèn)起這個(gè),我就讓他們?nèi)ニ伎家粋€(gè)更加根本的問(wèn)題:什么造就一個(gè)好的數(shù)據(jù)科學(xué)家订晌?下面是我的觀點(diǎn):

  • 技術(shù)專長(zhǎng):最佳的數(shù)據(jù)科學(xué)家通常在某個(gè)科學(xué)領(lǐng)域具備很深的技術(shù)專長(zhǎng)虏辫。
  • 好奇心:一種透過(guò)表象、發(fā)現(xiàn)和提取一個(gè)問(wèn)題锈拨,使之能夠通過(guò)建立在一組清晰的假設(shè)集合上從而可以對(duì)其進(jìn)行驗(yàn)證砌庄。
  • 故事性:能夠借助數(shù)據(jù)講出一個(gè)故事,并有效地進(jìn)行交流奕枢。
  • 聰慧:能夠從不同的娄昆、更有創(chuàng)造性的角度來(lái)觀察一個(gè)問(wèn)題。

人們常常假設(shè)數(shù)據(jù)科學(xué)家需要計(jì)算機(jī)科學(xué)的背景缝彬。以我個(gè)人經(jīng)歷稿黄,并不是這樣的:我們的最優(yōu)秀的數(shù)據(jù)科學(xué)家有各種背景。LinkedIn的People You May Know的發(fā)明者就是一個(gè)實(shí)驗(yàn)物理學(xué)家跌造。我團(tuán)隊(duì)的一個(gè)計(jì)算化學(xué)家曾經(jīng)解決了一個(gè)有了100多年歷史的水的能量狀態(tài)問(wèn)題杆怕。一個(gè)海洋作圖師在我們做欺詐行為分析的過(guò)程中產(chǎn)生了重要的影響】翘埃可能最令人詫異的是神經(jīng)外科醫(yī)生搖身一變而為一個(gè)發(fā)現(xiàn)數(shù)據(jù)中潛在的豐富趨勢(shì)(trend)的魔術(shù)師陵珍。

所有頂尖的數(shù)據(jù)科學(xué)家都有著與生俱來(lái)的好奇心。他們的好奇心寬廣遠(yuǎn)超每天的活動(dòng)违施。他們對(duì)公司互纯、商務(wù)、產(chǎn)業(yè)和技術(shù)很多不同的領(lǐng)域都有濃厚的興趣磕蒲。所以留潦,他們經(jīng)常可以將分隔開的領(lǐng)域以一種全新的方式整合起來(lái)辣往。例如兔院,我曾遇到數(shù)據(jù)科學(xué)家觀察研究銷售過(guò)程從而認(rèn)識(shí)到以全新方式來(lái)使用數(shù)據(jù),可以讓銷售團(tuán)隊(duì)變得更加高效站削。還有一些數(shù)據(jù)科學(xué)家將新穎的DNA序列技術(shù)應(yīng)用到欺詐行為檢測(cè)上坊萝。

是什么將這些人統(tǒng)一起來(lái)?他們都擁有強(qiáng)大的技術(shù)背景许起。大多數(shù)有著較高的學(xué)位(當(dāng)然我也曾經(jīng)和若干卓越的沒(méi)能大學(xué)畢業(yè)的數(shù)據(jù)科學(xué)家一起工作過(guò))但是實(shí)際上真正統(tǒng)一的線索是所有人在開始現(xiàn)實(shí)工作前都不得不處理大量的數(shù)據(jù)十偶。

當(dāng)我研究生一年級(jí)時(shí),我對(duì)天氣預(yù)報(bào)很感興趣园细。我曾想過(guò)如何去理解天氣的復(fù)雜性惦积,但是需要大量的數(shù)據(jù)。大多數(shù)數(shù)據(jù)在線可獲得猛频,但是由于其規(guī)模狮崩,數(shù)據(jù)總是以特殊的形式存在并且遍布在不同的系統(tǒng)上蛛勉。為了使數(shù)據(jù)能為我所用,我創(chuàng)建了一個(gè)系統(tǒng)可以兼顧到部門的每臺(tái)電腦(從上午1點(diǎn)到8點(diǎn))在那段時(shí)間內(nèi)厉亏,系統(tǒng)可以獲取董习、清洗和處理數(shù)據(jù)烈和。一旦完成這些工作爱只,最終所得的數(shù)據(jù)集將輕易被放入一個(gè)計(jì)算機(jī)的內(nèi)存中。這就是全部的秘密招刹。這項(xiàng)繁重的工作是我進(jìn)行下一步研究的必備步驟恬试。好的數(shù)據(jù)科學(xué)家深深地明白清洗和準(zhǔn)備在某種程度上意味著問(wèn)題所在,并不是簡(jiǎn)簡(jiǎn)單單的準(zhǔn)備工作疯暑。

下面是一些數(shù)據(jù)科學(xué)家需要得到訓(xùn)練的例子:

  1. 找到豐富的數(shù)據(jù)源
  2. 處理存儲(chǔ)大數(shù)據(jù)的硬件训柴、軟件和帶寬限制
  3. 清洗數(shù)據(jù),確保數(shù)據(jù)的一致性
  4. 將多個(gè)數(shù)據(jù)集合混合起來(lái)
  5. 可視化數(shù)據(jù)
  6. 建立豐富的工具保證其他人高效地使用數(shù)據(jù)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末妇拯,一起剝皮案震驚了整個(gè)濱河市幻馁,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌越锈,老刑警劉巖仗嗦,帶你破解...
    沈念sama閱讀 217,542評(píng)論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異甘凭,居然都是意外死亡稀拐,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,822評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門丹弱,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)德撬,“玉大人,你說(shuō)我怎么就攤上這事躲胳◎押椋” “怎么了?”我有些...
    開封第一講書人閱讀 163,912評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵坯苹,是天一觀的道長(zhǎng)蝠咆。 經(jīng)常有香客問(wèn)我,道長(zhǎng)北滥,這世上最難降的妖魔是什么刚操? 我笑而不...
    開封第一講書人閱讀 58,449評(píng)論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮再芋,結(jié)果婚禮上菊霜,老公的妹妹穿的比我還像新娘。我一直安慰自己济赎,他們只是感情好鉴逞,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,500評(píng)論 6 392
  • 文/花漫 我一把揭開白布记某。 她就那樣靜靜地躺著,像睡著了一般构捡。 火紅的嫁衣襯著肌膚如雪液南。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,370評(píng)論 1 302
  • 那天勾徽,我揣著相機(jī)與錄音滑凉,去河邊找鬼。 笑死喘帚,一個(gè)胖子當(dāng)著我的面吹牛畅姊,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播吹由,決...
    沈念sama閱讀 40,193評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼若未,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了倾鲫?” 一聲冷哼從身側(cè)響起粗合,我...
    開封第一講書人閱讀 39,074評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎乌昔,沒(méi)想到半個(gè)月后隙疚,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,505評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡玫荣,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,722評(píng)論 3 335
  • 正文 我和宋清朗相戀三年甚淡,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片捅厂。...
    茶點(diǎn)故事閱讀 39,841評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡贯卦,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出焙贷,到底是詐尸還是另有隱情撵割,我是刑警寧澤,帶...
    沈念sama閱讀 35,569評(píng)論 5 345
  • 正文 年R本政府宣布辙芍,位于F島的核電站啡彬,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏故硅。R本人自食惡果不足惜庶灿,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,168評(píng)論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望吃衅。 院中可真熱鬧往踢,春花似錦、人聲如沸徘层。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,783評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至瘦癌,卻和暖如春猪贪,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背讯私。 一陣腳步聲響...
    開封第一講書人閱讀 32,918評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工热押, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人妄帘。 一個(gè)月前我還...
    沈念sama閱讀 47,962評(píng)論 2 370
  • 正文 我出身青樓楞黄,卻偏偏與公主長(zhǎng)得像池凄,于是被迫代替她去往敵國(guó)和親抡驼。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,781評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容