10個最佳的大數(shù)據(jù)處理編程語言

姓名:張瀚鐸? ? ? ?學號:17021211233

【嵌牛導讀】:大牛們用于硬核數(shù)據(jù)分析時最喜歡的語言和工具包期贫。

【嵌牛鼻子】:人工智能? ?大數(shù)據(jù)? ?數(shù)據(jù)分析

【嵌牛提問】:在巨大的數(shù)據(jù)集中進行篩選的最好工具是什么?

【嵌牛正文】:

R語言

在這些語言名單中匾乓,如果R語言排第二般堆,那就沒其他能排第一。自1997年以來趾撵,作為昂貴的統(tǒng)計軟件,如Matlab和SAS的免費替代品,它漸漸風靡全球湃密。

在過去的幾年時間中,R語言已經(jīng)成為了數(shù)據(jù)科學的寵兒——數(shù)據(jù)科學現(xiàn)在不僅僅在書呆子一樣的統(tǒng)計學家中人盡皆知四敞,而且也為華爾街交易員泛源,生物學家,和硅谷開發(fā)者所家喻戶曉忿危。各種行業(yè)的公司俩由,例如Google,F(xiàn)acebook癌蚁,美國銀行幻梯,以及紐約時報都使用R語言,R語言正在商業(yè)用途上持續(xù)蔓延和擴散努释。

R語言有著簡單而明顯的吸引力碘梢。使用R語言,只需要短短的幾行代碼伐蒂,你就可以在復雜的數(shù)據(jù)集中篩選煞躬,通過先進的建模函數(shù)處理數(shù)據(jù),以及創(chuàng)建平整的圖形來代表數(shù)字逸邦。它被比喻為是Excel的一個極度活躍版本恩沛。

R語言最偉大的資本是已圍繞它開發(fā)的充滿活力的生態(tài)系統(tǒng):R語言社區(qū)總是在不斷地添加新的軟件包和功能到它已經(jīng)相當豐富的功能集中。據(jù)估計缕减,超過200萬的人使用R語言雷客,并且最近的一次投票表明,R語言是迄今為止在科學數(shù)據(jù)中最流行的語言桥狡,被61%的受訪者使用(其次是Python搅裙,39%)皱卓。

此外,它的身影也漸漸出現(xiàn)在了華爾街部逮。以前娜汁,銀行分析師會全神貫注于Excel文件直到深夜,但現(xiàn)在R語言被越來越多地用于金融建模R兄朋,特別是作為一種可視化工具掐禁,Niall O’Connor,美國銀行的副總裁如是說颅和。 “R語言使我們平凡的表格與眾不同穆桂,”他說。

R語言的日漸成熟融虽,使得它成為了數(shù)據(jù)建模的首選語言享完,雖然當企業(yè)需要生產(chǎn)大型產(chǎn)品時它的能力會變得有限,也有的人說這是因為它的地位正在被其他語言篡奪有额。

“R更適合于做一個草圖和大概般又,而不是詳細的構建,”Michael Driscoll巍佑,Metamarkets的首席執(zhí)行官說茴迁。 “你不會在谷歌的網(wǎng)頁排名以及Facebook的朋友推薦算法的核心找到R語言。工程師會用R語言做原型萤衰,然后移交給用Java或Python寫的模型堕义。”

話說回來,早在2010年,Paul Butler就以R語言打造了全球的Facebook地圖而著名钦听,這證明了該語言豐富的可視化功能。盡管他現(xiàn)在已經(jīng)不像以前那樣頻繁地使用R語言了怕膛。

“R正在一點點地過時,因為它的緩慢和處理大型數(shù)據(jù)集的笨重秦踪,”Butler說褐捻。

那么,他使用什么代替呢?請繼續(xù)閱往下看椅邓。


Python

如果說R語言是一個神經(jīng)質又可愛的高手柠逞,那么Python是它隨和又靈活的表兄弟。作為一種結合了R語言快速對復雜數(shù)據(jù)進行挖掘的能力并構建產(chǎn)品的更實用語言景馁,Python迅速得到了主流的吸引力板壮。Python是直觀的,并且比R語言更易于學習裁僧,以及它的生態(tài)系統(tǒng)近年來急劇增長个束,使得它更能夠用于先前為R語言保留的統(tǒng)計分析。

“這是這個行業(yè)的進步聊疲。在過去的兩年時間中茬底,從R語言到Python已經(jīng)發(fā)生了非常明顯的轉變,”Butler說获洲。

在數(shù)據(jù)處理中阱表,在規(guī)模和復雜性之間往往會有一個權衡,于是Python成為了一種折中方案贡珊。IPython notebook和NumPy可以用作輕便工作的一種暫存器最爬,而Python可以作為中等規(guī)模數(shù)據(jù)處理的強大工具。豐富的數(shù)據(jù)社區(qū)门岔,也是Python的優(yōu)勢爱致,因為可以提供了大量的工具包和功能。

美國銀行使用Python在銀行的基礎架構中構建新的產(chǎn)品和接口寒随,同時也用Python處理財務數(shù)據(jù)糠悯。“Python廣泛而靈活妻往,因此人們趨之若鶩互艾,”O(jiān)’Donnell說。

不過讯泣,它并非最高性能的語言纫普,只能偶爾用于大規(guī)模的核心基礎設施,Driscoll這樣說道好渠。


Julia

雖然當前的數(shù)據(jù)科學絕大多數(shù)是通過R語言昨稼,Python,Java拳锚,MatLab和SAS執(zhí)行的悦昵。但依然有其他的語言存活于夾縫中,Julia就是值得一看的后起之秀晌畅。

業(yè)界普遍認為Julia過于晦澀難懂但指。但數(shù)據(jù)駭客在談到它取代R和Python的潛力時會不由得眉飛色舞。Julia是一種高層次的抗楔,極度快速的表達性語言棋凳。它比R語言快,比Python更可擴展连躏,且相當簡單易學剩岳。

“它正在一步步成長。最終入热,使用Julia拍棕,你就能夠辦到任何用R和Python可以做到的事情晓铆,”Butler說。

但是至今為止绰播,年輕人對Julia依然猶豫不前骄噪。Julia數(shù)據(jù)社區(qū)還處于早期階段,要能夠和R語言和Python競爭蠢箩,它還需要添加更多的軟件包和工具链蕊。

“它還很年輕,但它正在掀起浪潮并且非常有前途谬泌,”Driscoll說滔韵。


JAVA

Java,以及基于Java的框架掌实,被發(fā)現(xiàn)儼然成為了硅谷最大的那些高科技公司的骨骼支架陪蜻。 “如果你去看Twitter,LinkedIn和Facebook贱鼻,那么你會發(fā)現(xiàn)囱皿,Java是它們所有數(shù)據(jù)工程基礎設施的基礎語言,”Driscoll說忱嘹。

Java不能提供R和Python同樣質量的可視化嘱腥,并且它并非統(tǒng)計建模的最佳選擇。但是拘悦,如果你移動到過去的原型制作并需要建立大型系統(tǒng)齿兔,那么Java往往是你的最佳選擇。


hadoop 和 Hive

一群基于Java的工具被開發(fā)出來以滿足數(shù)據(jù)處理的巨大需求础米。Hadoop作為首選的基于Java的框架用于批處理數(shù)據(jù)已經(jīng)點燃了大家的熱情分苇。Hadoop比其他一些處理工具慢,但它出奇的準確屁桑,因此被廣泛用于后端分析医寿。它和Hive——一個基于查詢并且運行在頂部的框架可以很好地結對工作。


Scala

Scala是另一種基于Java的語言蘑斧,并且和Java相同的是靖秩,它正日益成為大規(guī)模機器學習,或構建高層次算法的工具竖瘾。它富有表現(xiàn)力沟突,并且還能夠構建健壯的系統(tǒng)。

“Java就像是建造時的鋼鐵捕传,而Scala則像黏土惠拭,因為你之后可以將之放入窯內(nèi)轉變成鋼鐵,”Driscoll說庸论。


Kafka 和 Storm

那么职辅,當你需要快速實時的分析時又該怎么辦呢?Kafka會成為你的好朋友棒呛。它大概5年前就已經(jīng)出現(xiàn)了,但是直到最近才成為流處理的流行框架域携。

Kafka簇秒,誕生于LinkedIn內(nèi)部,是一個超快速的查詢消息系統(tǒng)涵亏。Kafka的缺點?好吧宰睡,它太快了蒲凶。在實時操作時會導致自身出錯气筋,并且偶爾地會遺漏東西。

“有精度和速度之間有一個權衡旋圆,”Driscoll說宠默, “因此,硅谷所有的大型高科技公司都會使用兩條管道:Kafka或Storm用于實時處理灵巧,然后Hadoop用于批處理系統(tǒng)搀矫,此時雖然是緩慢的但超級準確】桃蓿”

Storm是用Scala編寫的另一個框架瓤球,它在硅谷中因為流處理而受到了大量的青睞。它被Twitter納入其中敏弃,勿庸置疑的卦羡,這樣一來,Twitter就能在快速事件處理中得到巨大的裨益麦到。


鼓勵獎

MatLab

MatLab一直以來長盛不衰绿饵,盡管它要價不菲,但它仍然被廣泛使用在一些非常特殊的領域:研究密集型機器學習瓶颠,信號處理拟赊,圖像識別,僅舉幾例粹淋。

Octave

Octave和MatLab非常相似吸祟,但它是免費的。不過桃移,它在學術性信號處理圈子之外很少見到欢搜。

GO

GO是另一個正在掀起浪潮的后起之秀。它由Google開發(fā)谴轮,從C語言松散地派生炒瘟,并在構建健壯基礎設施上,正在贏得競爭對手第步,例如Java和Python的份額疮装。

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末缘琅,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子廓推,更是在濱河造成了極大的恐慌刷袍,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,198評論 6 514
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件樊展,死亡現(xiàn)場離奇詭異呻纹,居然都是意外死亡,警方通過查閱死者的電腦和手機专缠,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,334評論 3 398
  • 文/潘曉璐 我一進店門雷酪,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人涝婉,你說我怎么就攤上這事哥力。” “怎么了墩弯?”我有些...
    開封第一講書人閱讀 167,643評論 0 360
  • 文/不壞的土叔 我叫張陵吩跋,是天一觀的道長。 經(jīng)常有香客問我渔工,道長锌钮,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,495評論 1 296
  • 正文 為了忘掉前任引矩,我火速辦了婚禮梁丘,結果婚禮上,老公的妹妹穿的比我還像新娘脓魏。我一直安慰自己兰吟,他們只是感情好,可當我...
    茶點故事閱讀 68,502評論 6 397
  • 文/花漫 我一把揭開白布茂翔。 她就那樣靜靜地躺著混蔼,像睡著了一般。 火紅的嫁衣襯著肌膚如雪珊燎。 梳的紋絲不亂的頭發(fā)上惭嚣,一...
    開封第一講書人閱讀 52,156評論 1 308
  • 那天,我揣著相機與錄音悔政,去河邊找鬼晚吞。 笑死,一個胖子當著我的面吹牛谋国,可吹牛的內(nèi)容都是我干的槽地。 我是一名探鬼主播,決...
    沈念sama閱讀 40,743評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼捌蚊!你這毒婦竟也來了集畅?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 39,659評論 0 276
  • 序言:老撾萬榮一對情侶失蹤缅糟,失蹤者是張志新(化名)和其女友劉穎挺智,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體窗宦,經(jīng)...
    沈念sama閱讀 46,200評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡赦颇,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,282評論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了赴涵。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片媒怯。...
    茶點故事閱讀 40,424評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖句占,靈堂內(nèi)的尸體忽然破棺而出沪摄,到底是詐尸還是另有隱情躯嫉,我是刑警寧澤纱烘,帶...
    沈念sama閱讀 36,107評論 5 349
  • 正文 年R本政府宣布,位于F島的核電站祈餐,受9級特大地震影響擂啥,放射性物質發(fā)生泄漏。R本人自食惡果不足惜帆阳,卻給世界環(huán)境...
    茶點故事閱讀 41,789評論 3 333
  • 文/蒙蒙 一哺壶、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧蜒谤,春花似錦山宾、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,264評論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至阶祭,卻和暖如春绷杜,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背濒募。 一陣腳步聲響...
    開封第一講書人閱讀 33,390評論 1 271
  • 我被黑心中介騙來泰國打工鞭盟, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人瑰剃。 一個月前我還...
    沈念sama閱讀 48,798評論 3 376
  • 正文 我出身青樓齿诉,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子粤剧,可洞房花燭夜當晚...
    茶點故事閱讀 45,435評論 2 359

推薦閱讀更多精彩內(nèi)容