Neil Zhu佳头,簡(jiǎn)書ID Not_GOD娄柳,University AI 創(chuàng)始人 & Chief Scientist争拐,致力于推進(jìn)世界人工智能化進(jìn)程。制定并實(shí)施 UAI 中長(zhǎng)期增長(zhǎng)戰(zhàn)略和目標(biāo)嫉嘀,帶領(lǐng)團(tuán)隊(duì)快速成長(zhǎng)為人工智能領(lǐng)域最專業(yè)的力量炼邀。
作為行業(yè)領(lǐng)導(dǎo)者魄揉,他和UAI一起在2014年創(chuàng)建了TASA(中國(guó)最早的人工智能社團(tuán)), DL Center(深度學(xué)習(xí)知識(shí)中心全球價(jià)值網(wǎng)絡(luò))剪侮,AI growth(行業(yè)智庫(kù)培訓(xùn))等,為中國(guó)的人工智能人才建設(shè)輸送了大量的血液和養(yǎng)分。此外瓣俯,他還參與或者舉辦過(guò)各類國(guó)際性的人工智能峰會(huì)和活動(dòng)杰标,產(chǎn)生了巨大的影響力,書寫了60萬(wàn)字的人工智能精品技術(shù)內(nèi)容彩匕,生產(chǎn)翻譯了全球第一本深度學(xué)習(xí)入門書《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》腔剂,生產(chǎn)的內(nèi)容被大量的專業(yè)垂直公眾號(hào)和媒體轉(zhuǎn)載與連載。曾經(jīng)受邀為國(guó)內(nèi)頂尖大學(xué)制定人工智能學(xué)習(xí)規(guī)劃和教授人工智能前沿課程驼仪,均受學(xué)生和老師好評(píng)掸犬。
當(dāng)Jeff Hammerbacher和我談到我們的數(shù)據(jù)科學(xué)團(tuán)隊(duì)時(shí),我們意識(shí)到當(dāng)企業(yè)不斷發(fā)展绪爸,我們都需要弄明白如何稱呼團(tuán)隊(duì)的成員湾碎。“商業(yè)分析師”看起來(lái)太受限了奠货〗槿欤“數(shù)據(jù)分析師”是考慮的對(duì)象,但我們感覺(jué)這個(gè)稱謂限制了人們所能做的事情递惋∪崽希總之,我們團(tuán)隊(duì)的很多人都是專家級(jí)工程師萍虽【龋“研究科學(xué)家”是比較合理的職位名稱,通常被Sun杉编、HP喉前、Xerox、Yahoo和IBM這些公司使用王财。然而卵迂,我們覺(jué)得大多數(shù)研究科學(xué)家從事的是比較創(chuàng)新和抽象的,而且工作與實(shí)驗(yàn)室之外的那些產(chǎn)品開發(fā)團(tuán)隊(duì)是隔離的绒净。通常來(lái)說(shuō)见咒,實(shí)驗(yàn)室的研究成果能用于公司關(guān)鍵產(chǎn)品需要好幾年(大部分都無(wú)法最終轉(zhuǎn)化為產(chǎn)品)。我們組織的注意力集中在數(shù)據(jù)應(yīng)用上挂疆,這些工作通常對(duì)于商業(yè)業(yè)務(wù)有著直接和巨大的影響改览。因此最最適合的稱呼應(yīng)該叫做“數(shù)據(jù)科學(xué)家”——那些使用數(shù)據(jù)和科學(xué)來(lái)創(chuàng)造新事物的人們。
(注意:盡管“數(shù)據(jù)科學(xué)”這個(gè)詞已經(jīng)有很長(zhǎng)的歷史缤言,通常是在商務(wù)智能中出現(xiàn)宝当,但是“數(shù)據(jù)科學(xué)家”卻是新的東西。Jeff和我都曾詢問(wèn)過(guò)別人有沒(méi)有見(jiàn)過(guò)這個(gè)稱呼胆萧,結(jié)果是沒(méi)人見(jiàn)過(guò)庆揩。)
但是你如何找到數(shù)據(jù)科學(xué)家俐东?一旦有人問(wèn)起這個(gè),我就讓他們?nèi)ニ伎家粋€(gè)更加根本的問(wèn)題:什么造就一個(gè)好的數(shù)據(jù)科學(xué)家订晌?下面是我的觀點(diǎn):
- 技術(shù)專長(zhǎng):最佳的數(shù)據(jù)科學(xué)家通常在某個(gè)科學(xué)領(lǐng)域具備很深的技術(shù)專長(zhǎng)虏辫。
- 好奇心:一種透過(guò)表象、發(fā)現(xiàn)和提取一個(gè)問(wèn)題锈拨,使之能夠通過(guò)建立在一組清晰的假設(shè)集合上從而可以對(duì)其進(jìn)行驗(yàn)證砌庄。
- 故事性:能夠借助數(shù)據(jù)講出一個(gè)故事,并有效地進(jìn)行交流奕枢。
- 聰慧:能夠從不同的娄昆、更有創(chuàng)造性的角度來(lái)觀察一個(gè)問(wèn)題。
人們常常假設(shè)數(shù)據(jù)科學(xué)家需要計(jì)算機(jī)科學(xué)的背景缝彬。以我個(gè)人經(jīng)歷稿黄,并不是這樣的:我們的最優(yōu)秀的數(shù)據(jù)科學(xué)家有各種背景。LinkedIn的People You May Know的發(fā)明者就是一個(gè)實(shí)驗(yàn)物理學(xué)家跌造。我團(tuán)隊(duì)的一個(gè)計(jì)算化學(xué)家曾經(jīng)解決了一個(gè)有了100多年歷史的水的能量狀態(tài)問(wèn)題杆怕。一個(gè)海洋作圖師在我們做欺詐行為分析的過(guò)程中產(chǎn)生了重要的影響】翘埃可能最令人詫異的是神經(jīng)外科醫(yī)生搖身一變而為一個(gè)發(fā)現(xiàn)數(shù)據(jù)中潛在的豐富趨勢(shì)(trend)的魔術(shù)師陵珍。
所有頂尖的數(shù)據(jù)科學(xué)家都有著與生俱來(lái)的好奇心。他們的好奇心寬廣遠(yuǎn)超每天的活動(dòng)违施。他們對(duì)公司互纯、商務(wù)、產(chǎn)業(yè)和技術(shù)很多不同的領(lǐng)域都有濃厚的興趣磕蒲。所以留潦,他們經(jīng)常可以將分隔開的領(lǐng)域以一種全新的方式整合起來(lái)辣往。例如兔院,我曾遇到數(shù)據(jù)科學(xué)家觀察研究銷售過(guò)程從而認(rèn)識(shí)到以全新方式來(lái)使用數(shù)據(jù),可以讓銷售團(tuán)隊(duì)變得更加高效站削。還有一些數(shù)據(jù)科學(xué)家將新穎的DNA序列技術(shù)應(yīng)用到欺詐行為檢測(cè)上坊萝。
是什么將這些人統(tǒng)一起來(lái)?他們都擁有強(qiáng)大的技術(shù)背景许起。大多數(shù)有著較高的學(xué)位(當(dāng)然我也曾經(jīng)和若干卓越的沒(méi)能大學(xué)畢業(yè)的數(shù)據(jù)科學(xué)家一起工作過(guò))但是實(shí)際上真正統(tǒng)一的線索是所有人在開始現(xiàn)實(shí)工作前都不得不處理大量的數(shù)據(jù)十偶。
當(dāng)我研究生一年級(jí)時(shí),我對(duì)天氣預(yù)報(bào)很感興趣园细。我曾想過(guò)如何去理解天氣的復(fù)雜性惦积,但是需要大量的數(shù)據(jù)。大多數(shù)數(shù)據(jù)在線可獲得猛频,但是由于其規(guī)模狮崩,數(shù)據(jù)總是以特殊的形式存在并且遍布在不同的系統(tǒng)上蛛勉。為了使數(shù)據(jù)能為我所用,我創(chuàng)建了一個(gè)系統(tǒng)可以兼顧到部門的每臺(tái)電腦(從上午1點(diǎn)到8點(diǎn))在那段時(shí)間內(nèi)厉亏,系統(tǒng)可以獲取董习、清洗和處理數(shù)據(jù)烈和。一旦完成這些工作爱只,最終所得的數(shù)據(jù)集將輕易被放入一個(gè)計(jì)算機(jī)的內(nèi)存中。這就是全部的秘密招刹。這項(xiàng)繁重的工作是我進(jìn)行下一步研究的必備步驟恬试。好的數(shù)據(jù)科學(xué)家深深地明白清洗和準(zhǔn)備在某種程度上意味著問(wèn)題所在,并不是簡(jiǎn)簡(jiǎn)單單的準(zhǔn)備工作疯暑。
下面是一些數(shù)據(jù)科學(xué)家需要得到訓(xùn)練的例子:
- 找到豐富的數(shù)據(jù)源
- 處理存儲(chǔ)大數(shù)據(jù)的硬件训柴、軟件和帶寬限制
- 清洗數(shù)據(jù),確保數(shù)據(jù)的一致性
- 將多個(gè)數(shù)據(jù)集合混合起來(lái)
- 可視化數(shù)據(jù)
- 建立豐富的工具保證其他人高效地使用數(shù)據(jù)