原文作者:Figure Eight
原文地址:The 2018 Data Scientist Report
中文版高清PDF下載:2018年數(shù)據(jù)科學(xué)家報告
簡介
近年來苹威,F(xiàn)igure Eight一直在追蹤數(shù)據(jù)科學(xué)的發(fā)展昆咽,自2015年發(fā)布上一版數(shù)據(jù)科學(xué)報告以來(那時我們還叫CrowdFlower),數(shù)據(jù)科學(xué)社區(qū)里發(fā)生了很多變化牙甫。機器學(xué)習(xí)技術(shù)蓬勃發(fā)展掷酗,需要越來越多的數(shù)據(jù)支持。
如今窟哺,互聯(lián)網(wǎng)每天會產(chǎn)出100萬億字節(jié)以上的數(shù)據(jù)供數(shù)據(jù)科學(xué)與機器學(xué)習(xí)分析泻轰。因此,數(shù)據(jù)科學(xué)和機器學(xué)習(xí)也順勢成為領(lǐng)英上增長最快的工作崗位且轨。
2015年以來出現(xiàn)的另一大趨勢是數(shù)據(jù)科學(xué)社區(qū)比以往更加注重倫理問題浮声,數(shù)據(jù)隱私問題越來越引人注目。隨著人工智用于醫(yī)學(xué)診斷旋奢、法律量刑等領(lǐng)域的決策泳挥,需要更加謹(jǐn)慎地論證這些倫理問題。
了解各領(lǐng)域從業(yè)者對前沿技術(shù)的想法十分重要至朗。為此屉符,我們調(diào)研了醫(yī)護(hù)人員、神職人員及執(zhí)法人員等500多位倫理專家锹引。
本報告后面的內(nèi)容矗钟,還將專門對比倫理專家與數(shù)據(jù)科學(xué)家的觀點。
毋庸贅言嫌变,開始閱讀本報告的調(diào)研結(jié)果吧真仲。
數(shù)據(jù)科學(xué)家不但喜歡還熱愛這份工作
認(rèn)為自己幸福和非常幸福的數(shù)據(jù)科學(xué)家
相信很多人都聽過一句話,“干自己喜歡的事初澎,還能掙到錢秸应,就算成功”。假設(shè)這話說的沒錯碑宴,還真的很難找出比數(shù)據(jù)科學(xué)家更成功的職業(yè)软啼。
幾年來,我們一直在跟蹤這個問題延柠,并發(fā)現(xiàn)數(shù)據(jù)科學(xué)家非常熱愛這一行祸挪,即便真正的數(shù)據(jù)科學(xué)家可能會質(zhì)疑1%的增長不具備統(tǒng)計顯著性。
熱愛數(shù)據(jù)科學(xué)贞间?就別錯過機會
這幾年贿条,數(shù)據(jù)與數(shù)據(jù)科學(xué)帶來了很多熱門話題雹仿,谷歌人工智能專家Peter Norvig曾提出著名的“數(shù)據(jù)非理性效果”理論,哈佛商業(yè)評論將數(shù)據(jù)科學(xué)家稱為“21世紀(jì)最性感的工作”整以,經(jīng)濟(jì)學(xué)家雜志甚至說“數(shù)據(jù)是新的石油”胧辽。相信大多數(shù)人還記得大數(shù)據(jù)一夜之間就紅遍全球了。
數(shù)據(jù)科學(xué)家的市場需求
收到工作機會的頻率
雖然公黑,數(shù)據(jù)科學(xué)如今炙手可熱邑商,但要記住以前可不是這樣。畢竟凡蚜,僅僅在10多年前人断,大部分公司根本就不會跟蹤并保存用戶交互數(shù)據(jù),但是如今朝蜘,還是這些公司恶迈,他們會把認(rèn)真采集這些數(shù)據(jù),并將之作為企業(yè)的核心財富小心翼翼的看護(hù)起來谱醇。
隨著服務(wù)器越來越廉價蝉绷,以低成本存貯大量數(shù)據(jù)和信息成為可能,絕大多數(shù)公司都意識到數(shù)據(jù)能實現(xiàn)很多以前無法想象的目標(biāo)枣抱。
既然有這么多數(shù)據(jù)需要處理熔吗,而且為公司創(chuàng)造價值的意愿又如此強烈。這樣一來佳晶,數(shù)據(jù)科學(xué)家有這么高的市場需求就不足為奇了择份。
我們曾咨詢數(shù)據(jù)科學(xué)家一般多久能收到一次新工作推薦疫萤,下圖所示的數(shù)據(jù)說明了不少問題。大約50%的數(shù)據(jù)科學(xué)家每周都會收到一次工作機會,30%的數(shù)據(jù)科學(xué)家每周至少會收到多次工作機會馋劈,85%的數(shù)據(jù)科學(xué)家至少每個月會收到一次工作機會边灭。
換句話說煞额,精英數(shù)據(jù)科學(xué)家的市場需求很高波闹。所以,如果你們公司有一名水平很高的數(shù)據(jù)科學(xué)家驱还,一定要把他哄好嗜暴,因為他還有很多選擇。
什么拖了數(shù)據(jù)科學(xué)家的后腿议蟆,是數(shù)據(jù)闷沥,不是科學(xué)
偷偷告訴大家一個關(guān)于數(shù)據(jù)科學(xué)家的小秘密,他們都非常貪得無厭咐容。這不是說他們的壞話舆逃,實際上,很多數(shù)據(jù)科學(xué)家逢年過節(jié)都會寄給我們非常不錯的禮物。但是路狮,一旦涉及到數(shù)據(jù)虫啥,不管他們已經(jīng)掌握了多少數(shù)據(jù),還永遠(yuǎn)都覺得不夠奄妨。
我們已經(jīng)在數(shù)據(jù)科學(xué)社區(qū)里做了幾年調(diào)研涂籽,這個問題依然是當(dāng)前社區(qū)里最大的挑戰(zhàn)。去年大約有50%的數(shù)據(jù)科學(xué)家會說展蒂,這是他們?nèi)粘9ぷ髦凶铑^疼的三件事之一,而到了今年這個數(shù)字已經(jīng)增長到了55%苔咪,并被列為最頭疼的事情锰悼。
數(shù)據(jù)專家非常清楚只有擁有大規(guī)模的高質(zhì)量數(shù)據(jù),才能建立精準(zhǔn)的模型团赏,并作出精明的決策箕般。高質(zhì)量數(shù)據(jù)越多,他們對所做的模型就越有信心舔清。
公司能為數(shù)據(jù)科學(xué)家做的事就是提供數(shù)據(jù)丝里,而機器學(xué)習(xí)團(tuán)隊擁有的數(shù)據(jù)質(zhì)量會為機器學(xué)習(xí)的結(jié)果帶來極大的區(qū)別,這一點是重中之重体谒。
但是請記住杯聚,數(shù)據(jù)科學(xué)家需要的是高質(zhì)量數(shù)據(jù),通過幾年的調(diào)研發(fā)現(xiàn)抒痒,其實幌绍,數(shù)據(jù)科學(xué)家也非常不喜歡清洗數(shù)據(jù),他們認(rèn)為干這些事情純屬是在浪費生命故响。
機器學(xué)習(xí)使用的數(shù)據(jù)
以前傀广,我們從未問過數(shù)據(jù)科學(xué)家到底拿數(shù)據(jù)來干什么?但是彩届,隨著公司平臺不斷壯大伪冰,我們已經(jīng)能夠解開一些機器學(xué)習(xí)的神秘面紗,越來越多的數(shù)據(jù)直接從我們公司的平臺傳遞給各種人工智能和機器學(xué)習(xí)的項目樟蠕。然后我們就想贮聂,是不是應(yīng)該問一下這些數(shù)據(jù)科學(xué)家,他們所做的工作到底有多少比例用于人工智能寨辩?
約有10%的數(shù)據(jù)科學(xué)家說他們的工作跟人工智能無關(guān)寂汇。不過,還有差不多40%的人說他們的工作和人工智能相關(guān)捣染。
考慮到當(dāng)前投資界對人工智能的投入非常之大骄瓣,我們特別期待看到明年這個數(shù)字會變成什么樣。不過,我們相信一定會變得越來越高榕栏。
數(shù)據(jù)科學(xué)家一般不需要干清洗日志這樣的低級工作畔勤,基本上都是處理公司里最尖端的技術(shù)解決方案,難怪他們會覺得幸福扒磁。
多少時間研發(fā)庆揪,多少時間開發(fā)?
數(shù)據(jù)科學(xué)家使用哪些工具妨托?
2015年缸榛,我們重點關(guān)注數(shù)據(jù)科學(xué)家使用什么工具。雖然兰伤,當(dāng)時Excel還是處理數(shù)據(jù)的主流工具内颗,但那時已經(jīng)出現(xiàn)了很多數(shù)據(jù)工具和處理辦法供數(shù)據(jù)科學(xué)家選擇。實際上敦腔,Partially Derivative公司在一集叫“怪怪的數(shù)據(jù)科學(xué)”播客節(jié)目里就提到過這個問題均澳。
他們的觀點是數(shù)據(jù)科學(xué)是嶄新的領(lǐng)域,沒有哪種語言符衔、工具或框架可以成為主流找前,即便現(xiàn)在也很難說哪種工具是最好的,數(shù)據(jù)科學(xué)家必須具備非凡的創(chuàng)造力判族,找出適于處理手頭上數(shù)據(jù)科學(xué)項目的最佳工具和策略躺盛。
現(xiàn)在機器學(xué)習(xí)與數(shù)據(jù)科學(xué)當(dāng)時的情況差不多,也沒有大家公認(rèn)可行的策略形帮,但是有很多方法供人選擇颗品,用于處理以前難以解決的問題。不過沃缘,現(xiàn)在數(shù)據(jù)科學(xué)社區(qū)里大部分人(約61%)都選擇了Python躯枢。但是,下面列出的常用Python庫大多數(shù)并不是機器學(xué)習(xí)框架槐臀。
開源軟件占這些工具和框架的主流锄蹂。Pandas和NumPy已經(jīng)推出了很長時間,此外水慨,與之類似的還有Scikit-Learn和Matplotlib得糜,也是老牌的Python庫。
TensorFlow雖然是谷歌開發(fā)的晰洒,不過它也是開源軟件朝抖。這里需要提醒的是,不能只根據(jù)數(shù)量進(jìn)行判斷谍珊,但另一方面治宣,這些工具的用戶確實很多,也說明了現(xiàn)在數(shù)據(jù)科學(xué)社區(qū)熱捧開源和社區(qū)驅(qū)動的軟件。
由于這些框架已經(jīng)存在了很長時間侮邀,早期使用者已經(jīng)對它們非常熟悉坏怪,如果新產(chǎn)品想取代這些老牌開源軟件,恐怕還需要投入更多的時間绊茧、努力铝宵,并大力開展市場推廣,比如增加更多的營銷費用华畏。
2018年鹏秋,數(shù)據(jù)科學(xué)家處理哪些數(shù)據(jù)?
今年亡笑,媒體關(guān)注的重點是自動駕駛汽車或家庭助理等機器學(xué)習(xí)項目侣夷,但必須意識到絕大多數(shù)數(shù)據(jù)科學(xué)家處理的數(shù)據(jù)并非激光雷達(dá)和音頻話語數(shù)據(jù)。
我們采訪了不少數(shù)據(jù)科學(xué)家况芒,發(fā)現(xiàn)日常工作中他們還是以處理文本和時間序列數(shù)據(jù)為主惜纸。很少涉及感知器叶撒、音頻和視頻數(shù)據(jù)绝骚,相對而言,排名第四位的是靜態(tài)圖片祠够。
處理結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的比例压汪?
數(shù)據(jù)科學(xué)倫理問題
近年來,人工智能應(yīng)用的倫理問題被炒得熱火朝天古瓤,僅我們就了解到大量關(guān)于人臉識別止剖、招聘審核和聲音助理等子領(lǐng)域的算法歧視案例。去年落君,最高法院曾有機會處理一樁關(guān)于算法量刑的案件(詳見盧米斯訴威斯康星州一案)穿香,但最高法院沒有受理此案,雖然如此绎速,也可以推斷10年內(nèi)很有可能出現(xiàn)關(guān)于機器學(xué)習(xí)的判例皮获。
本文并不關(guān)心遠(yuǎn)期的,諸如未來特工纹冤、普世智能等帶有科幻色彩的洒宝,甚至有關(guān)意識邊界的倫理問題,現(xiàn)實問題涉及的領(lǐng)域才是當(dāng)今大眾真正關(guān)心的內(nèi)容萌京,本文關(guān)注的是這類倫理問題雁歌。
之前曾說過,本次調(diào)研采訪了醫(yī)護(hù)人員知残、神職人員及執(zhí)法人員等各行業(yè)的倫理專家靠瞎。在這一節(jié)里,我們會把他們的觀點與數(shù)據(jù)科學(xué)家的觀點進(jìn)行對比。
一般來說较坛,數(shù)據(jù)科學(xué)家都看好人工智能的發(fā)展印蔗。兩組專家都認(rèn)為人工智能利大于弊,他們之間最大的差異在于倫理專家對人工智能可能會給社會帶來的潛在挑戰(zhàn)漠不關(guān)心丑勤,這一點倒也說的通华嘹。畢竟,大家都知道數(shù)據(jù)科學(xué)家肯定比法官對人工智能了解得更深刻法竞。
數(shù)據(jù)科學(xué)家就身處這個領(lǐng)域耙厚,為人工智能的發(fā)展投入了頗多精力,因此岔霸,要說數(shù)據(jù)科學(xué)家認(rèn)為人工智能不會給社會帶來翻天覆的變化薛躬,那是不可能的。
還不承認(rèn)算法歧視呆细?
上一節(jié)里型宝,我們提到了一些非常知名的算法歧視案例。實際上絮爷,麻省科技評論最近就提出了“算法歧視已經(jīng)遍地都是趴酣,但是大家對此都漠不關(guān)心”的觀點。
但是坑夯,當(dāng)我們問及數(shù)據(jù)科學(xué)家與倫理專家是否認(rèn)為人工智能比人類更容易產(chǎn)生歧視時岖寞,得到的答復(fù)是這樣的:
其實,大家都知道對比技術(shù)是否比人類更容易產(chǎn)生歧視這個問題本身就非彻耱冢滑稽仗谆,這基于你對人類本性的認(rèn)識。歸根結(jié)底淑履,算法歧視源于人類程序員隶垮、數(shù)據(jù)及一些不可言的原因。
但有趣的是秘噪,很多反饋都說算法沒有那么多歧視狸吞,甚至根本就不存在歧視,然而不管怎么說缆娃,我們手里確實有大量現(xiàn)實中已經(jīng)發(fā)生的算法歧視案例捷绒。
我們真正要解決的問題是到底為什么會出現(xiàn)這樣的結(jié)果?要知道在大部分情況下贯要,不是算法模型本身的問題暖侨,而是模型使用的數(shù)據(jù)有問題。
算法模型的歧視是潛在崇渗、無意識的字逗,但又是真實存在的京郑,要解決這個問題需要花費大量的精力,還要對癥下藥葫掉,首先些举,標(biāo)注數(shù)據(jù)時要認(rèn)真負(fù)責(zé),不偏不倚俭厚;然后户魏,還要通過不斷更新數(shù)據(jù)對模型進(jìn)行迭代;并且還要站在最終用戶的角度來思考問題挪挤。
現(xiàn)實世界中叼丑,人工智能到底能干什么
現(xiàn)在,絕大多數(shù)的互聯(lián)網(wǎng)用戶每天都會用到人工智能扛门。產(chǎn)品和娛樂內(nèi)容推薦鸠信、搜索引擎、新聞推薦论寨,你能想到的基本上都有:機器學(xué)習(xí)的應(yīng)用已經(jīng)擴展到越來越多的領(lǐng)域星立。
怎么說呢?實際上葬凳,大部分?jǐn)?shù)據(jù)科學(xué)家覺得人工智能參與決策這件事很正常绰垂。事情越復(fù)雜,數(shù)據(jù)科學(xué)家就會覺得越不舒服沮明。
雖然在一些無關(guān)緊要的場景下辕坝,人工智能的應(yīng)用已經(jīng)取得成功窍奋。但是荐健,在涉及重大的關(guān)鍵性問題時,目前人工智能所取得的成果還不足以讓人給出肯定的答案×瞻溃現(xiàn)在只能說江场,數(shù)據(jù)科學(xué)家還沒有那么大的胃口,將人工智能應(yīng)用于社會的每個角落窖逗。如果人工智能專家要推行更穩(wěn)健或更理智的解決方案址否,大家最好靜下心來聽聽他們說的到底是什么。
倫理:人工智能決策
下面哪些場合可以讓人工智能自行決策碎紊,無需人類干預(yù)佑附。
用不用人工智能,這是個問題
從現(xiàn)在開始每過去一天仗考,音頻交互界面都在變得越來越流行音同。Comscore公司預(yù)測2020年50%的搜索都將是語音搜索。其實即便現(xiàn)在秃嗜,每個月都已經(jīng)差不多有10億條語音搜索了权均。但是顿膨,就算是最先進(jìn)的語音助手仍在與每天遇到的語音作斗爭。尤其是遇到說話的人講的不是母語叽赊,或有口音恋沃、說方言的時候,這個問題就會愈發(fā)嚴(yán)重必指。
就此問題囊咏,我們特意咨詢了相關(guān)數(shù)據(jù)科學(xué)家,希望了解如果推出家庭語音助理類產(chǎn)品塔橡,但該類產(chǎn)品又不能很好地理解口音和方言時匆笤,是不是仍要堅持推出該類產(chǎn)品,還是說要在該類產(chǎn)品上標(biāo)明警示谱邪,提醒哪些人不適用炮捧,或者是否有相關(guān)規(guī)定會限制該類產(chǎn)品在某些區(qū)域銷售。
坦白的說惦银,我們希望數(shù)據(jù)科學(xué)社區(qū)能夠推出這些產(chǎn)品咆课。因為不管怎么說,只有把這些產(chǎn)品銷售出去才能采集更多音頻話語數(shù)據(jù)扯俱,才能對該產(chǎn)品的數(shù)據(jù)模型進(jìn)行迭代书蚪,不斷改善這類產(chǎn)品的識別效果,從而使之能夠理解更多用戶的話語迅栅。但調(diào)查結(jié)果和我們想的并不一樣殊校。
雖然读存,我們對這樣的結(jié)果感到驚訝为流,但這和之前的調(diào)研結(jié)果也非常契合,數(shù)據(jù)科學(xué)社區(qū)對人工智能的應(yīng)用非常謹(jǐn)慎让簿。他們喜歡的事情搞得清清楚楚敬察,然后再實施《保回想數(shù)據(jù)科學(xué)社區(qū)對開源平臺和開源數(shù)據(jù)的熱愛莲祸,就會理解為什么他們會做出這樣的選擇。
對于自動駕駛椭迎,雙方差異極大
我們問了倫理專家和數(shù)據(jù)科學(xué)家一個非常簡單的問題锐帜。如果統(tǒng)計數(shù)據(jù)表明,最新的人工智能比人類駕駛汽車的平均安全系數(shù)更高畜号,你是愿意自己駕車呢缴阎?還是愿意開自動駕駛汽車呢?
對于調(diào)研報告里面的其他內(nèi)容弄兜,兩組調(diào)研對象的反饋基本上都非常相似药蜻,總的來說瓷式,他們都認(rèn)為人工智能利大于弊。即便是對于某些比較敏感的人工智能產(chǎn)品语泽,也只需標(biāo)清哪些人適用贸典,哪些人不適用就可以了。比如踱卵,大家普遍都能接受人工智能驅(qū)動的產(chǎn)品推薦功能廊驼,對人工智能驅(qū)動的貸款審批或案件裁決持保留態(tài)度。
但是對于自動駕駛惋砂,兩組調(diào)研對象存在嚴(yán)重的兩極分化妒挎,這只能說明數(shù)據(jù)科學(xué)家對無人駕駛技術(shù)的運行機制比神職人員了解的更多。不過西饵,我們確實沒有預(yù)料到兩極分化的情況會這么嚴(yán)重酝掩。我們現(xiàn)在還很難解釋清楚為什么兩組調(diào)研對象會有如此不同的反應(yīng),但如果你所從事于自動駕駛汽車行業(yè)眷柔,現(xiàn)在就應(yīng)該清楚你的營銷對象是誰了吧期虾。
自動駕駛,還是手動駕駛驯嘱?
報告背景
今年镶苞,我們通過郵件和現(xiàn)場訪談等形式采訪了240位數(shù)據(jù)科學(xué)家。
如需獲取2015年版數(shù)據(jù)科學(xué)報告鞠评,請到我司官網(wǎng)的資源中心下載茂蚓。
公司簡介
Figure Eight是為數(shù)據(jù)科學(xué)團(tuán)隊提供人際回圈型人工智能平臺的公司。我們?yōu)榭蛻舻臋C器學(xué)習(xí)模型提供高質(zhì)量的自定義訓(xùn)練數(shù)據(jù)剃幌,還為客戶提供易于部署聋涨、便于使用的人工智能模型,及整合人機回圈的工作流锥忿。
我司的軟件平臺支持包括自動駕駛汽車牛郑、個人智能助理怠肋、醫(yī)療圖像分類敬鬓、內(nèi)容分類、客戶支持票證分類笙各、社交數(shù)據(jù)分析钉答、CRM數(shù)據(jù)補值、產(chǎn)品分類及搜索相關(guān)性分析等眾多業(yè)務(wù)類型杈抢。
我司總部位于舊金山数尿,投資者為Canvas創(chuàng)投、Trinity創(chuàng)投惶楼、微軟創(chuàng)投右蹦。Figure Eight是一家涉足多個行業(yè)诊杆,快速增長的數(shù)據(jù)驅(qū)動型公司,我們的客戶主要是財富500強公司的數(shù)據(jù)科學(xué)團(tuán)隊何陆。