[語(yǔ)言]9個(gè)最佳的大數(shù)據(jù)處理編程語(yǔ)言

9個(gè)最佳的大數(shù)據(jù)處理編程語(yǔ)言_Python
http://www.41443.com/HTML/Python/20161024/509389.html

大數(shù)據(jù)的浪潮仍在繼續(xù)巴粪。它滲透到了幾乎所有的行業(yè)法精,信息像洪水一樣地席卷企業(yè),使得軟件越發(fā)龐然大物宙地,比如Excel看上去就變得越來(lái)越笨拙。數(shù)據(jù)處理不再無(wú)足輕重
摘要:大數(shù)據(jù)的浪潮仍在繼續(xù)逆皮。它滲透到了幾乎所有的行業(yè)宅粥,信息像洪水一樣地席卷企業(yè),使得軟件越發(fā)龐然大物电谣,比如Excel看上去就變得越來(lái)越笨拙秽梅。數(shù)據(jù)處理不再無(wú)足輕重,并且對(duì)精密分析和強(qiáng)大又實(shí)時(shí)處理的需要變得前所未有的巨大剿牺。
  那么企垦,在巨大的數(shù)據(jù)集中進(jìn)行篩選的最好工具是什么?通過(guò)和數(shù)據(jù)駭客的交流,我們知道了他們用于硬核數(shù)據(jù)分析最喜歡的語(yǔ)言和工具包晒来。
  R語(yǔ)言
  在這些語(yǔ)言名單中钞诡,如果R語(yǔ)言排第二,那就沒(méi)其他能排第一。自1997年以來(lái)臭增,作為昂貴的統(tǒng)計(jì)軟件懂酱,如Matlab和SAS的免費(fèi)替代品,它漸漸風(fēng)靡全球誊抛。
  在過(guò)去的幾年時(shí)間中列牺,R語(yǔ)言已經(jīng)成為了數(shù)據(jù)科學(xué)的寵兒——數(shù)據(jù)科學(xué)現(xiàn)在不僅僅在書(shū)呆子一樣的統(tǒng)計(jì)學(xué)家中人盡皆知,而且也為華爾街交易員拗窃,生物學(xué)家瞎领,和硅谷開(kāi)發(fā)者所家喻戶曉。各種行業(yè)的公司随夸,例如Google九默,F(xiàn)acebook,美國(guó)銀行宾毒,以及紐約時(shí)報(bào)都使用R語(yǔ)言驼修,R語(yǔ)言正在商業(yè)用途上持續(xù)蔓延和擴(kuò)散。
  R語(yǔ)言有著簡(jiǎn)單而明顯的吸引力诈铛。使用R語(yǔ)言乙各,只需要短短的幾行代碼,你就可以在復(fù)雜的數(shù)據(jù)集中篩選幢竹,通過(guò)先進(jìn)的建模函數(shù)處理數(shù)據(jù)耳峦,以及創(chuàng)建平整的圖形來(lái)代表數(shù)字。它被比喻為是Excel的一個(gè)極度活躍版本焕毫。
  R語(yǔ)言最偉大的資本是已圍繞它開(kāi)發(fā)的充滿活力的生態(tài)系統(tǒng):R語(yǔ)言社區(qū)總是在不斷地添加新的軟件包和功能到它已經(jīng)相當(dāng)豐富的功能集中蹲坷。據(jù)估計(jì),超過(guò)200萬(wàn)的人使用R語(yǔ)言邑飒,并且最近的一次投票表明循签,R語(yǔ)言是迄今為止在科學(xué)數(shù)據(jù)中最流行的語(yǔ)言,被61%的受訪者使用(其次是Python疙咸,39%)懦底。
  此外,它的身影也漸漸出現(xiàn)在了華爾街罕扎。以前聚唐,銀行分析師會(huì)全神貫注于Excel文件直到深夜,但現(xiàn)在R語(yǔ)言被越來(lái)越多地用于金融建模R腔召,特別是作為一種可視化工具杆查,Niall O’Connor,美國(guó)銀行的副總裁如是說(shuō)臀蛛。 “R語(yǔ)言使我們平凡的表格與眾不同亲桦,”他說(shuō)崖蜜。
  R語(yǔ)言的日漸成熟,使得它成為了數(shù)據(jù)建模的首選語(yǔ)言客峭,雖然當(dāng)企業(yè)需要生產(chǎn)大型產(chǎn)品時(shí)它的能力會(huì)變得有限豫领,也有的人說(shuō)這是因?yàn)樗牡匚徽诒黄渌Z(yǔ)言篡奪。
  “R更適合于做一個(gè)草圖和大概舔琅,而不是詳細(xì)的構(gòu)建等恐,”Michael Driscoll,Metamarkets的首席執(zhí)行官說(shuō)备蚓。 “你不會(huì)在谷歌的網(wǎng)頁(yè)排名以及Facebook的朋友推薦算法的核心找到R語(yǔ)言课蔬。工程師會(huì)用R語(yǔ)言做原型,然后移交給用Java或Python寫(xiě)的模型郊尝《希”
  話說(shuō)回來(lái),早在2010年流昏,Paul Butler就以R語(yǔ)言打造了全球的Facebook地圖而著名扎即,這證明了該語(yǔ)言豐富的可視化功能。盡管他現(xiàn)在已經(jīng)不像以前那樣頻繁地使用R語(yǔ)言了况凉。
  “R正在一點(diǎn)點(diǎn)地過(guò)時(shí)铺遂,因?yàn)樗木徛吞幚泶笮蛿?shù)據(jù)集的笨重,”Butler說(shuō)茎刚。
  那么,他使用什么代替呢?請(qǐng)繼續(xù)閱往下看撤逢。
  Rython
  如果說(shuō)R語(yǔ)言是一個(gè)神經(jīng)質(zhì)又可愛(ài)的高手膛锭,那么Python是它隨和又靈活的表兄弟。作為一種結(jié)合了R語(yǔ)言快速對(duì)復(fù)雜數(shù)據(jù)進(jìn)行挖掘的能力并構(gòu)建產(chǎn)品的更實(shí)用語(yǔ)言蚊荣,Python迅速得到了主流的吸引力初狰。Python是直觀的,并且比R語(yǔ)言更易于學(xué)習(xí)互例,以及它的生態(tài)系統(tǒng)近年來(lái)急劇增長(zhǎng)奢入,使得它更能夠用于先前為R語(yǔ)言保留的統(tǒng)計(jì)分析。
  “這是這個(gè)行業(yè)的進(jìn)步媳叨。在過(guò)去的兩年時(shí)間中腥光,從R語(yǔ)言到Python已經(jīng)發(fā)生了非常明顯的轉(zhuǎn)變,”Butler說(shuō)糊秆。
  在數(shù)據(jù)處理中武福,在規(guī)模和復(fù)雜性之間往往會(huì)有一個(gè)權(quán)衡,于是Python成為了一種折中方案痘番。IPython notebook和NumPy可以用作輕便工作的一種暫存器捉片,而Python可以作為中等規(guī)模數(shù)據(jù)處理的強(qiáng)大工具平痰。豐富的數(shù)據(jù)社區(qū),也是Python的優(yōu)勢(shì)伍纫,因?yàn)榭梢蕴峁┝舜罅康墓ぞ甙凸δ堋?br>   美國(guó)銀行使用Python在銀行的基礎(chǔ)架構(gòu)中構(gòu)建新的產(chǎn)品和接口宗雇,同時(shí)也用Python處理財(cái)務(wù)數(shù)據(jù)∮ü妫“Python廣泛而靈活赔蒲,因此人們趨之若鶩,”O(jiān)’Donnell說(shuō)访惜。
  不過(guò)嘹履,它并非最高性能的語(yǔ)言,只能偶爾用于大規(guī)模的核心基礎(chǔ)設(shè)施债热,Driscoll這樣說(shuō)道砾嫉。
  Julia
  雖然當(dāng)前的數(shù)據(jù)科學(xué)絕大多數(shù)是通過(guò)R語(yǔ)言,Python窒篱,Java焕刮,MatLab和SAS執(zhí)行的。但依然有其他的語(yǔ)言存活于夾縫中墙杯,Julia就是值得一看的后起之秀配并。
  業(yè)界普遍認(rèn)為Julia過(guò)于晦澀難懂。但數(shù)據(jù)駭客在談到它取代R和Python的潛力時(shí)會(huì)不由得眉飛色舞高镐。Julia是一種高層次的溉旋,極度快速的表達(dá)性語(yǔ)言。它比R語(yǔ)言快嫉髓,比Python更可擴(kuò)展观腊,且相當(dāng)簡(jiǎn)單易學(xué)。
  “它正在一步步成長(zhǎng)算行。最終梧油,使用Julia,你就能夠辦到任何用R和Python可以做到的事情州邢,”Butler說(shuō)儡陨。
  但是至今為止,年輕人對(duì)Julia依然猶豫不前量淌。Julia數(shù)據(jù)社區(qū)還處于早期階段骗村,要能夠和R語(yǔ)言和Python競(jìng)爭(zhēng),它還需要添加更多的軟件包和工具呀枢。
  “它還很年輕叙身,但它正在掀起浪潮并且非常有前途,”Driscoll說(shuō)硫狞。
  JAVA
  Java信轿,以及基于Java的框架晃痴,被發(fā)現(xiàn)儼然成為了硅谷最大的那些高科技公司的骨骼支架。 “如果你去看Twitter财忽,LinkedIn和Facebook倘核,那么你會(huì)發(fā)現(xiàn),Java是它們所有數(shù)據(jù)工程基礎(chǔ)設(shè)施的基礎(chǔ)語(yǔ)言即彪,”Driscoll說(shuō)紧唱。
  Java不能提供R和Python同樣質(zhì)量的可視化,并且它并非統(tǒng)計(jì)建模的最佳選擇隶校。但是漏益,如果你移動(dòng)到過(guò)去的原型制作并需要建立大型系統(tǒng),那么Java往往是你的最佳選擇深胳。
  Hadoop和Hive
  一群基于Java的工具被開(kāi)發(fā)出來(lái)以滿足數(shù)據(jù)處理的巨大需求绰疤。Hadoop作為首選的基于Java的框架用于批處理數(shù)據(jù)已經(jīng)點(diǎn)燃了大家的熱情。Hadoop比其他一些處理工具慢舞终,但它出奇的準(zhǔn)確轻庆,因此被廣泛用于后端分析。它和Hive——一個(gè)基于查詢并且運(yùn)行在頂部的框架可以很好地結(jié)對(duì)工作敛劝。
  Scala
  Scala是另一種基于Java的語(yǔ)言余爆,并且和Java相同的是,它正日益成為大規(guī)模機(jī)器學(xué)習(xí)夸盟,或構(gòu)建高層次算法的工具蛾方。它富有表現(xiàn)力,并且還能夠構(gòu)建健壯的系統(tǒng)上陕。
  “Java就像是建造時(shí)的鋼鐵桩砰,而Scala則像黏土,因?yàn)槟阒罂梢詫⒅湃敫G內(nèi)轉(zhuǎn)變成鋼鐵唆垃,”Driscoll說(shuō)。
  Kafka和Storm
  那么痘儡,當(dāng)你需要快速實(shí)時(shí)的分析時(shí)又該怎么辦呢?Kafka會(huì)成為你的好朋友辕万。它大概5年前就已經(jīng)出現(xiàn)了,但是直到最近才成為流處理的流行框架沉删。
  Kafka渐尿,誕生于LinkedIn內(nèi)部,是一個(gè)超快速的查詢消息系統(tǒng)矾瑰。Kafka的缺點(diǎn)?好吧砖茸,它太快了。在實(shí)時(shí)操作時(shí)會(huì)導(dǎo)致自身出錯(cuò)殴穴,并且偶爾地會(huì)遺漏東西凉夯。
  “有精度和速度之間有一個(gè)權(quán)衡货葬,”Driscoll說(shuō), “因此劲够,硅谷所有的大型高科技公司都會(huì)使用兩條管道:Kafka或Storm用于實(shí)時(shí)處理震桶,然后Hadoop用于批處理系統(tǒng),此時(shí)雖然是緩慢的但超級(jí)準(zhǔn)確征绎《捉悖”
  Storm是用Scala編寫(xiě)的另一個(gè)框架,它在硅谷中因?yàn)榱魈幚矶艿搅舜罅康那嗖A人柿。它被Twitter納入其中柴墩,勿庸置疑的,這樣一來(lái)凫岖,Twitter就能在快速事件處理中得到巨大的裨益江咳。
  鼓勵(lì)獎(jiǎng):
  MatLab
  MatLab一直以來(lái)長(zhǎng)盛不衰,盡管它要價(jià)不菲隘截,但它仍然被廣泛使用在一些非常特殊的領(lǐng)域:研究密集型機(jī)器學(xué)習(xí)扎阶,信號(hào)處理,圖像識(shí)別婶芭,僅舉幾例东臀。
  Octave
  Octave和MatLab非常相似,但它是免費(fèi)的犀农。不過(guò)惰赋,它在學(xué)術(shù)性信號(hào)處理圈子之外很少見(jiàn)到。
  GO
  GO是另一個(gè)正在掀起浪潮的后起之秀呵哨。它由Google開(kāi)發(fā)赁濒,從C語(yǔ)言松散地派生,并在構(gòu)建健壯基礎(chǔ)設(shè)施上孟害,正在贏得競(jìng)爭(zhēng)對(duì)手拒炎,例如Java和Python的份額。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末挨务,一起剝皮案震驚了整個(gè)濱河市击你,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌谎柄,老刑警劉巖丁侄,帶你破解...
    沈念sama閱讀 221,273評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異朝巫,居然都是意外死亡鸿摇,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,349評(píng)論 3 398
  • 文/潘曉璐 我一進(jìn)店門(mén)劈猿,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)拙吉,“玉大人潮孽,你說(shuō)我怎么就攤上這事÷洌” “怎么了恩商?”我有些...
    開(kāi)封第一講書(shū)人閱讀 167,709評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)必逆。 經(jīng)常有香客問(wèn)我怠堪,道長(zhǎng),這世上最難降的妖魔是什么名眉? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 59,520評(píng)論 1 296
  • 正文 為了忘掉前任粟矿,我火速辦了婚禮,結(jié)果婚禮上损拢,老公的妹妹穿的比我還像新娘陌粹。我一直安慰自己,他們只是感情好福压,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,515評(píng)論 6 397
  • 文/花漫 我一把揭開(kāi)白布掏秩。 她就那樣靜靜地躺著,像睡著了一般荆姆。 火紅的嫁衣襯著肌膚如雪蒙幻。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 52,158評(píng)論 1 308
  • 那天胆筒,我揣著相機(jī)與錄音邮破,去河邊找鬼。 笑死仆救,一個(gè)胖子當(dāng)著我的面吹牛抒和,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播彤蔽,決...
    沈念sama閱讀 40,755評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼摧莽,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了顿痪?” 一聲冷哼從身側(cè)響起镊辕,我...
    開(kāi)封第一講書(shū)人閱讀 39,660評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎员魏,沒(méi)想到半個(gè)月后丑蛤,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體叠聋,經(jīng)...
    沈念sama閱讀 46,203評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡撕阎,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,287評(píng)論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了碌补。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片虏束。...
    茶點(diǎn)故事閱讀 40,427評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡棉饶,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出镇匀,到底是詐尸還是另有隱情照藻,我是刑警寧澤,帶...
    沈念sama閱讀 36,122評(píng)論 5 349
  • 正文 年R本政府宣布汗侵,位于F島的核電站幸缕,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏晰韵。R本人自食惡果不足惜发乔,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,801評(píng)論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望雪猪。 院中可真熱鬧栏尚,春花似錦、人聲如沸只恨。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,272評(píng)論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)官觅。三九已至纵菌,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間缰猴,已是汗流浹背产艾。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,393評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留滑绒,地道東北人闷堡。 一個(gè)月前我還...
    沈念sama閱讀 48,808評(píng)論 3 376
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像疑故,于是被迫代替她去往敵國(guó)和親杠览。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,440評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容