導(dǎo)言:
今晚吃飯和媳婦打趣,她把青芒俺孙、梨子辣卒、桃子幾種水果混合在一起榨汁掷贾,解決了冰箱里水果瀕臨吃不完的問題,我來了一句:這些水果通過進(jìn)化荣茫,好不容易才變成不一樣的物種想帅,你又給它們混合回去了。
達(dá)爾文的物種進(jìn)化理論中有一個重要命題啡莉,就是"物種沒有過渡形態(tài)港准,只有最終形態(tài),因?yàn)橛H代會消亡票罐,子代會更加分化"叉趣。這個觀點(diǎn)大方向很好,細(xì)節(jié)有待商榷该押。
1 過渡形態(tài)在哪兒疗杉?
按照我的理解, 過渡形態(tài)無處不在蚕礼,只是因?yàn)樵跉v史的長河中我們對過渡形態(tài)和穩(wěn)定形態(tài)的觀測頻率一樣烟具,才造成了一定的采樣偏差。
先說說采樣偏差奠蹬。我們?nèi)祟愂遣皇亲罱K形態(tài)朝聋?現(xiàn)代人類幾千年的文明歷史在地球的歷史長河里幾乎是觀測不到的(如果200年后我們就滅絕了的話)再比如一個主要依靠打車來運(yùn)輸乘客的交通系統(tǒng),遵循排隊(duì)理論囤躁,如果你在街邊有很多人打不到車冀痕,你能說這個城市較大比例的打車需求無法滿足嗎?不是的狸演,因?yàn)槟悴⒉荒芸匆娔切┠苎杆俅虻杰嚨娜搜陨撸麄円呀?jīng)在路上了!
我們就是如此容易忽略過度形態(tài)宵距,這種忽略是不公平的腊尚。站在任何一個時間截面上,過渡形態(tài)都會以某種非0概率存在满哪,而不是我們常常說的"只有最終形態(tài)"婿斥。這種進(jìn)化是持續(xù)演進(jìn)的,而不會是一蹴而就的哨鸭,過渡形態(tài)一直存在于它們應(yīng)該存在的時空中民宿,而且在那個時間點(diǎn)甚至并沒有顯現(xiàn)出"它們是過度形態(tài)"這一征兆。也許是偶然事件推動像鸡,也許是環(huán)境影響勘高,過渡形態(tài)才會重新分化、進(jìn)化,以至于使自己的形態(tài)最終滅失华望。
聽上去有點(diǎn)可惜,然而抱著不求天長地久仅乓,只求曾經(jīng)擁有的態(tài)度赖舟,倒是也能淡定一些了。
2 關(guān)于數(shù)據(jù)挖掘工程師的進(jìn)化
我聽過一個比較有意思的觀點(diǎn)夸楣,來自于某位互聯(lián)網(wǎng)獵頭顧問:
"外包公司的人的痛往往在于沒辦法在迭代中進(jìn)步宾抓,做事情長期處于entry level會越來越水;而BAT人的痛往往在于N多年永遠(yuǎn)是某個特殊崗位上的螺絲釘豫喧,逐漸精深做的很好石洗,然而轉(zhuǎn)崗跳槽選擇都很少。"
這其實(shí)是在講兩個生態(tài)環(huán)境中的兩種成熟的物種紧显。
前者的程序員更擅長做數(shù)據(jù)的單純開環(huán)而非閉環(huán)讲衫,至于效果、驗(yàn)證孵班、優(yōu)化涉兽,這種東西完全取決于項(xiàng)目人員的節(jié)操。受制于項(xiàng)目成本篙程、甲方的水平枷畏,實(shí)在是沒有辦法在平均意義上做的太有水準(zhǔn),甚至連優(yōu)化迭代這件事的重要性提都不提:即然做完了為什么不直接拿錢走人呢虱饿?這種不負(fù)責(zé)任到底的心態(tài)是甲乙雙方?jīng)]有共同利益點(diǎn)的機(jī)制使然拥诡,半吊子的項(xiàng)目以及殘酷的競標(biāo)環(huán)境,最終帶來的氮发,絕大多數(shù)情況下導(dǎo)致的是令人遺憾的劣幣驅(qū)逐良幣渴肉。
后者的程序員更擅長做數(shù)據(jù)的單純閉環(huán):在組織架構(gòu)分工明確、交接流暢的前提下折柠,每個人都有自己負(fù)責(zé)的那"一小撮"宾娜,只需要擔(dān)心在數(shù)據(jù)pipeline路徑上,數(shù)據(jù)輸入方是什么狀態(tài)扇售,數(shù)據(jù)輸出方是什么狀態(tài)前塔,進(jìn)而如何影響下一次輸入方的數(shù)據(jù)就可以了。不管是單純的日志處理承冰,數(shù)據(jù)倉庫搭建华弓,還是使用數(shù)據(jù)挖掘模型作出預(yù)測,從方法論到工具集基本都是套路困乒,也不太需要創(chuàng)造性思維也能把成果穩(wěn)定一點(diǎn)點(diǎn)提高寂屏,因此也會陷入這種模式:人變成了架構(gòu)、變成了kpi的奴隸,比如預(yù)測/有監(jiān)督學(xué)習(xí)問題中出現(xiàn)百萬吱抚、上億特征而不追求降維、模式研究本身就是一種畸形既绕,這種畸形是"預(yù)測準(zhǔn)確率就是一切"這種思路帶來的袱讹,而且還使人前赴后繼進(jìn)行日復(fù)一日的重復(fù)勞動评肆。
以上兩點(diǎn)說的是某種意義上的最終形態(tài)。盡管"存在即合理",但是容易發(fā)出怨言的人并不只是負(fù)能量的制造機(jī),因?yàn)槟切┤四芸吹阶罱K形態(tài)并不是對于個人而言的最優(yōu)形態(tài)。人有更優(yōu)而不得,才會產(chǎn)生負(fù)能量。對于對于成熟物種的強(qiáng)烈不滿敷钾,會把人導(dǎo)向另外一條進(jìn)化道路峭范,這些人會勇于在合適的創(chuàng)業(yè)公司中把自己變成過渡形態(tài):他們在新業(yè)務(wù)數(shù)據(jù)探索和研究方向上的動機(jī)以及實(shí)踐甜害,與其說是適應(yīng)環(huán)境,還不如說是不滿意環(huán)境主慰,希望構(gòu)建一個新環(huán)境嚣州,然后把自己放在環(huán)境里靜待進(jìn)化。盡管這一小撮人的狀態(tài)對于以上兩種人而言像是過渡形態(tài)共螺,但也可以反過來想:他們追求并構(gòu)建的公司數(shù)據(jù)文化该肴,跟前兩種公司的數(shù)據(jù)文化相比,搞不好還更接近最終形態(tài)呢藐不!
3 關(guān)于數(shù)據(jù)科學(xué)程序語言的進(jìn)化
剛才提到匀哄,個人會進(jìn)化,公司文化也會進(jìn)化雏蛮,它們雖然形成了層級結(jié)構(gòu)涎嚼,但是進(jìn)化的規(guī)律如出一轍。這讓我不禁再往前思考了一步:公司文化這種抽象的鬼東西到底是什么挑秉?公司畢竟是由人組成的法梯,你說公司文化是由ceo/創(chuàng)始人決定的未免太過武斷了,從統(tǒng)計(jì)物理視角來講犀概,不如說是"每一個加盟公司的求同存異的個體所形成系統(tǒng)的最低勢能點(diǎn)"立哑。
把個人-公司文化這種關(guān)系進(jìn)行類比,我比較有興趣聊聊一組類似的關(guān)系:數(shù)據(jù)科學(xué)程序語言-數(shù)據(jù)科學(xué)派別阱冶。
第一類派別就是研究派刁憋。就像人會依附公司一樣,Julia木蹬,R至耻,SAS這種交互式數(shù)據(jù)研究語言也會尋求對Python生態(tài)圈中jupyter notebook的依附若皱,這就很尷尬了,jupyter何德何能讓性能的追逐者尘颓、追求省錢的學(xué)院派走触、老牌統(tǒng)計(jì)分析師一起依附過來呢?也許你會說這玩意的重點(diǎn)在于疤苹,研究派人員對數(shù)據(jù)的交互式探索特別喜愛互广,因?yàn)樗麄兡軓臄?shù)據(jù)中獲得令人驚訝、驚喜卧土、百思而最終得其解的洞察惫皱。這一點(diǎn)說穿了,那就是"讓人從dont know how to analyze走向know how to analyze"尤莺。數(shù)據(jù)驅(qū)動的意思就是一份數(shù)據(jù)一個樣旅敷,A公司今年的經(jīng)驗(yàn)未必適合于B公司,也未必適合A公司明年的情況——這就主要講究一個開腦洞獲得意外驚喜颤霎,因?yàn)橹钡阶詈笠豢滔彼治鰩焸円苍S都不知道數(shù)據(jù)里面究竟包含了怎樣的奧妙。
第二類派別是工程派友酱。這里就得借用一個概念了:Domain Specific Language晴音。這是一種粗放的概念,意思是『在某個領(lǐng)域內(nèi)缔杉,使用特殊的約定锤躁,使代碼完成指定的工作』。不論是SQL壮吩,Regular Expression這種粗暴奔放的工具进苍,還是Functional Programming實(shí)現(xiàn)數(shù)據(jù)管線、流式處理鸭叙,或者是tensorflow觉啊、keras這種高度封裝的api實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的構(gòu)建(如果你們熟悉pylearn2的話也許還記得yaml一樣可以定義網(wǎng)絡(luò)),甚至是openblas沈贝,atlas杠人,intel mkl這種矩陣計(jì)算工具,這種語言宋下、工具的出現(xiàn)都在說明一件事:我們離不開高級抽象嗡善。我們最重要的目標(biāo),就是把know how to do交給其他人并忘記学歧,轉(zhuǎn)而執(zhí)行define what to do罩引。在容易抽象的環(huán)節(jié),程序總是扮演著節(jié)省人類生命而非浪費(fèi)人類生命的角色枝笨,那么define what to do就相當(dāng)于是這種抽象袁铐,用來define的工具就是人類和人類之間達(dá)成的協(xié)議揭蜒。(至于計(jì)算機(jī)領(lǐng)域所說的protocol,我看它們在某種意義上甚至可以稱得上是標(biāo)準(zhǔn)了剔桨,因?yàn)楣?jié)省溝通成本屉更,所以全人類都用一種協(xié)議,就變成了標(biāo)準(zhǔn))在工程方面洒缀,一個高效執(zhí)行的pipeline一定離不開以上提到的所有接近進(jìn)化完全的技能點(diǎn)瑰谜。它能夠同時滿足兩點(diǎn):編碼效率極高,以及執(zhí)行效率接近最優(yōu)树绩。
因此我的個人意見是萨脑,以上兩派數(shù)據(jù)科學(xué)工具最終形成派別。
結(jié)語
本文純屬胡思亂想系列饺饭,說是知識言過其實(shí)砚哗,不如說成是我自己的偏見,僅供參考砰奕。