【導(dǎo)讀】2006年Jonathan Goldman到商業(yè)社交網(wǎng)站LinkedIn工作,那時(shí)的LinkedIn還只是剛創(chuàng)業(yè)不久哼绑,網(wǎng)站注冊(cè)人數(shù)不到8百萬(wàn),但是很多成員會(huì)邀請(qǐng)自己的朋友和同學(xué)加入,因此注冊(cè)人數(shù)迅速增加。但是用戶要找到已經(jīng)在網(wǎng)站注冊(cè)的用戶不太容易傻咖,比例達(dá)不到管理人員的期望值解寝。很明顯,有些社交體驗(yàn)缺失了碍沐,這時(shí)最早的大數(shù)據(jù)分析出現(xiàn)了。
Goldman是斯坦福物理學(xué)博士畢業(yè),他非常著迷于越來(lái)越多的用戶關(guān)聯(lián)和豐富的用戶個(gè)人資料席揽。這些原本只能帶來(lái)一堆雜亂的數(shù)據(jù)和笨拙的分析,但當(dāng)他開始探究用戶之間的聯(lián)系時(shí)谓厘,他開始看到新的可能幌羞。于是他開始組織他的理論,檢驗(yàn)他的猜想竟稳,建立模型属桦,預(yù)測(cè)用戶愿意與誰(shuí)建立聯(lián)系熊痴。他感到,他正在開發(fā)的新功能聂宾,能帶給用戶價(jià)值果善。但是LinkedIn的工程師們當(dāng)時(shí)忙于提升網(wǎng)站性能,沒(méi)有理睬系谐,有些同事則公開表示不看好Goldman的想法:為什么用戶想要LinkedIn告訴他們?cè)摵湍男┯脩艚⒙?lián)系呢巾陕?網(wǎng)站已經(jīng)有一個(gè)導(dǎo)入通訊錄的功能,能導(dǎo)入用戶的所有聯(lián)系人纪他。
幸運(yùn)的是鄙煤,公司的聯(lián)合創(chuàng)世人兼當(dāng)時(shí)的CEO ReidHoffman根據(jù)自己在PayPal的經(jīng)驗(yàn),相信數(shù)據(jù)分析的強(qiáng)大力量茶袒,給予了Goldman高度的自主權(quán)梯刚。其中一項(xiàng)就是,Goldman可以繞開傳統(tǒng)的產(chǎn)品發(fā)布流程弹谁,而以廣告的形式把這個(gè)小模塊發(fā)布在網(wǎng)站最受歡迎的頁(yè)面上乾巧。
通過(guò)這個(gè)模塊,Goldman開始了他的試驗(yàn)预愤,用戶可能認(rèn)識(shí)一些人沟于,比如和用戶來(lái)自同一個(gè)學(xué)校或工作單位植康,卻還沒(méi)有在網(wǎng)站上建立起這些關(guān)系旷太,如果把這些名字告訴用戶,他們會(huì)作何反應(yīng)销睁。他根據(jù)用戶在網(wǎng)站上注冊(cè)時(shí)填寫的背景資料供璧,找出了每個(gè)用戶可能最想與之建立聯(lián)系的三個(gè)用戶,然后定制了一套廣告冻记。幾天之內(nèi)睡毒,很明顯地,奇妙的事情發(fā)生了冗栗,這些廣告的點(diǎn)擊率前所未有的高演顾。接下來(lái),Goldman根據(jù)“閉環(huán)理論”改進(jìn)了他的推薦方法隅居,閉環(huán)理論指的是如果你同時(shí)認(rèn)識(shí)張三和李四钠至,那么張三和李四很可能也相互認(rèn)識(shí)。同時(shí)胎源,Goldman和他的團(tuán)隊(duì)讓用戶對(duì)每個(gè)推薦的操作可以一鍵搞定棉钧。
很快LinkedIn的高層開始認(rèn)識(shí)到這是個(gè)很好的主意,并將其列為標(biāo)準(zhǔn)功能涕蚤。從那時(shí)起宪卿,事情真的開始起飛了的诵。“你可能認(rèn)識(shí)的人(People You May Know)”廣告獲得了30%的點(diǎn)擊率愧捕,比其他任何的站內(nèi)推廣廣告點(diǎn)擊率都要高奢驯,共計(jì)產(chǎn)生了數(shù)百萬(wàn)個(gè)新頁(yè)面瀏覽申钩。得益于這項(xiàng)新功能次绘,LinkedIn的成長(zhǎng)速度大幅提升。
大數(shù)據(jù)科學(xué)家撒遣,一個(gè)嶄新的火熱職業(yè)
Goldman是一個(gè)很好的例子來(lái)說(shuō)明組織中的重要新成員——“數(shù)據(jù)科學(xué)家”邮偎。這是非常高階的專業(yè)崗位,要有在數(shù)據(jù)海洋中尋寶的好奇心和相應(yīng)訓(xùn)練义黎。這個(gè)頭銜存在有幾年了禾进,第一次出現(xiàn)是2008由D.J.Patil和Jeff Hammerbacher提出的,他們后來(lái)分別成為了LinkedIn和Facebook的數(shù)據(jù)和分析團(tuán)隊(duì)的負(fù)責(zé)人廉涕。但現(xiàn)在已經(jīng)有數(shù)千位數(shù)據(jù)科學(xué)家工作于創(chuàng)業(yè)公司和成熟的大型企業(yè)泻云。他們?cè)谛袠I(yè)里的忽然走俏,反應(yīng)了這樣一個(gè)現(xiàn)狀狐蜕,企業(yè)需要處理的信息正以從未遇見過(guò)的規(guī)模和渠道涌現(xiàn)宠纯。如果你的機(jī)構(gòu)存儲(chǔ)了幾個(gè)PB的數(shù)據(jù),或者對(duì)于你的生意最重要的信息是表格式的层释,而不再是行列的數(shù)據(jù)婆瓜,或者要回答你最大的問(wèn)題需要各種分析手段的“混搭”,你趕上大數(shù)據(jù)時(shí)代了贡羔。
現(xiàn)階段對(duì)于大數(shù)據(jù)的主要熱情都集中在大數(shù)據(jù)的處理技術(shù)上廉白,比如,使用最廣泛的分布式文件處理系統(tǒng)Hadoop乖寒,和相關(guān)的開源工具猴蹂、云計(jì)算、數(shù)據(jù)可視化技術(shù)楣嘁。這些突破性技術(shù)都是非常重要的磅轻,重要程度就不亞于有能力與腦力并且會(huì)運(yùn)用技術(shù)的人。對(duì)數(shù)據(jù)科學(xué)家的需求快速增加马澈,已經(jīng)超過(guò)了供給瓢省,事實(shí)上,人才缺乏開始嚴(yán)重制約某些行業(yè)痊班。Greylock Partners是一家投資初創(chuàng)企業(yè)的風(fēng)投公司勤婚,曾經(jīng)投資過(guò)Facebook、LinkedIn涤伐,Palo馒胆、Alto缨称、Networks和Workday,它非常擔(dān)憂緊張的人才儲(chǔ)備祝迂,因而建立了自己的招聘團(tuán)隊(duì)睦尽,負(fù)責(zé)給自己投資的公司輸送人才。招聘團(tuán)隊(duì)的負(fù)責(zé)人Dan Portillo說(shuō)型雳,“這些公司一旦有了數(shù)據(jù)当凡,就需要有人管理數(shù)據(jù),發(fā)現(xiàn)真知纠俭⊙亓浚”
如何選擇大數(shù)據(jù)科學(xué)家
從大數(shù)據(jù)中獲利需要雇傭稀缺的數(shù)據(jù)科學(xué)家,管理人員面臨三大挑戰(zhàn)冤荆,識(shí)別人才朴则,吸引人才,善用人才钓简。和其他職責(zé)明確的崗位相比乌妒,這三項(xiàng)任務(wù)都不那么直接明了。首先外邓,目前沒(méi)有高校項(xiàng)目培養(yǎng)相關(guān)人才撤蚊,同時(shí),數(shù)據(jù)科學(xué)家在組織中處于什么位置坐榆,如何讓他們創(chuàng)造最大價(jià)值拴魄,如何衡量他們的作用,這些都沒(méi)有公認(rèn)的標(biāo)準(zhǔn)席镀。
因此匹中,要想挖掘出數(shù)據(jù)科學(xué)家,首先要明白他們?cè)跇I(yè)務(wù)中能干什么豪诲,其次顶捷,他們需要哪些技能?哪些現(xiàn)有的領(lǐng)域會(huì)用到這些技能屎篱?
數(shù)據(jù)科學(xué)家首要任務(wù)是在數(shù)據(jù)的海洋中探索發(fā)現(xiàn)服赎,他們更喜歡用這種方式看待周圍的世界。他們要在數(shù)字王國(guó)里游刃有余交播,把大量散亂的數(shù)據(jù)變成結(jié)構(gòu)化的可供分析的數(shù)據(jù)重虑,還要找出豐富的數(shù)據(jù)源,整合其他可能不完整的數(shù)據(jù)源秦士,并清理成結(jié)果數(shù)據(jù)集缺厉。新的競(jìng)爭(zhēng)環(huán)境中,挑戰(zhàn)不斷地變化,新數(shù)據(jù)不斷地流入提针,數(shù)據(jù)科學(xué)家需要幫助決策者穿梭于各種分析命爬,從臨時(shí)數(shù)據(jù)分析到持續(xù)的數(shù)據(jù)交互分析。
數(shù)據(jù)科學(xué)家會(huì)遇到技術(shù)的局限性辐脖,但不會(huì)讓技術(shù)阻擾他們尋找新穎的解決方案饲宛。當(dāng)他們有所發(fā)現(xiàn),便交流他們的發(fā)現(xiàn)嗜价,建議新的業(yè)務(wù)方向艇抠。通常他們很有創(chuàng)造力的展示視覺(jué)化的信息,也讓找到的模式清晰而有說(shuō)服力炭剪。他們會(huì)把蘊(yùn)含在數(shù)據(jù)中的規(guī)律建議給產(chǎn)品經(jīng)理和主管們练链,從而影響產(chǎn)品翔脱,流程奴拦,和決策。
由于這中行當(dāng)還處于初級(jí)階段届吁,數(shù)據(jù)科學(xué)家常常會(huì)推廣他們自己開發(fā)的工具错妖,甚至進(jìn)行學(xué)術(shù)研究。雅虎之前雇傭的一批數(shù)據(jù)科學(xué)家開發(fā)出了Hadoop疚沐。Facebook的數(shù)據(jù)團(tuán)隊(duì)開發(fā)了在Hadoop上編程的Hive語(yǔ)言暂氯。很多其他的數(shù)據(jù)科學(xué)家都豐富或者優(yōu)化了這套工具,尤其是數(shù)據(jù)驅(qū)動(dòng)的公司亮蛔,比如谷歌痴施,亞馬遜,微軟究流,沃爾瑪辣吃,eBay,LinkedIn和twitter芬探。
什么樣的人有能力做這些呢神得?什么技能讓數(shù)據(jù)科學(xué)家成功呢?你可以把他們看成是數(shù)據(jù)駭客偷仿,分析師哩簿,溝通高手,值得信任的咨詢師酝静,這些東西組合到一起極具威力节榜,也極其少見。
數(shù)據(jù)科學(xué)家最基本最通用的技能是寫代碼别智。也許五年后不太會(huì)這樣了宗苍,那時(shí)很多人都會(huì)在他們的名片上印著“數(shù)據(jù)科學(xué)家”。一個(gè)更保值的技能是用所有相關(guān)方面都能聽得懂語(yǔ)言進(jìn)行溝通亿遂,另一個(gè)是用數(shù)據(jù)講故事的特殊能力浓若,通過(guò)口頭表達(dá)或者視覺(jué)效果渺杉,或者兩者都有。
但我們覺(jué)得挪钓,數(shù)據(jù)科學(xué)家占支配地位的品質(zhì)應(yīng)該是強(qiáng)烈的好奇心是越,想要深入問(wèn)題內(nèi)部的渴望,找到最核心的問(wèn)題碌上,提取成清晰的結(jié)論倚评,并要經(jīng)得起檢驗(yàn)。比如馏予,我們所知道的一位數(shù)據(jù)科學(xué)家天梧,他研究的是欺詐問(wèn)題,但他發(fā)現(xiàn)這個(gè)問(wèn)題和DNA排序問(wèn)題非常類似霞丧,在融合了兩個(gè)完全不相干的世界之后呢岗,他和他的團(tuán)隊(duì)找到了一種能大幅降低欺詐損失的解決方案。
最后
現(xiàn)在你大概清楚了為什么這個(gè)新興的角色會(huì)被稱為“科學(xué)家”蛹尝。比如實(shí)驗(yàn)物理學(xué)家后豫,同樣也需要設(shè)計(jì)儀器,收集數(shù)據(jù)突那,反復(fù)試驗(yàn)挫酿,并最終展示結(jié)果。因此愕难,很多公司尋找能處理復(fù)雜數(shù)據(jù)的人才早龟,很多招到的不錯(cuò)的人才都有物理或社會(huì)科學(xué)領(lǐng)域的學(xué)習(xí)和工作背景。有些最好的最有前途的數(shù)據(jù)科學(xué)家是研究復(fù)雜科學(xué)的博士生猫缭,比如生態(tài)學(xué)或者系統(tǒng)生物學(xué)葱弟。George是硅谷Intuit公司的數(shù)據(jù)科學(xué)團(tuán)隊(duì)的負(fù)責(zé)人,本身是天文學(xué)博士畢業(yè)饵骨。更普遍的是翘悉,當(dāng)今業(yè)界許多數(shù)據(jù)科學(xué)家畢業(yè)于計(jì)算機(jī)科學(xué),數(shù)學(xué)居触,經(jīng)濟(jì)學(xué)妖混,和計(jì)算密集型的領(lǐng)域。
歡迎關(guān)注“云途數(shù)據(jù)”微信公眾號(hào)(ID:yuntudata),每日分享大數(shù)據(jù)干貨轮洋。