數(shù)據(jù)分析工具類(lèi)軟件朴恳,大體可以分為以下5類(lèi):
Excel生態(tài)工具、數(shù)理統(tǒng)計(jì)工具允蚣、BI工具于颖、數(shù)據(jù)庫(kù)工具、編程工具
(Excel單獨(dú)分成一類(lèi)嚷兔,主要是因?yàn)樗鼞?yīng)用場(chǎng)景廣泛森渐,且用戶(hù)基數(shù)過(guò)于龐大,甚至超過(guò)其他所有工具用戶(hù)之和)
每個(gè)類(lèi)別的代表工具分別有:
Excel生態(tài):Excel冒晰、VBA同衣、PowerQuery、PowerPivot壶运、Power View耐齐、Power Map
數(shù)理統(tǒng)計(jì)工具:SAS、SPSS前弯、Stata蚪缀、Minitab、Eviews恕出、Statistica询枚、MATLAB、Mathematica
BI工具:PowerBI浙巫、Tableau金蜀、Qlikview、SAP BI的畴、Oracel BI渊抄、FineBI、Yonghong BI
數(shù)據(jù)庫(kù)工具:MySQL丧裁、PostgreSQL护桦、Oracle、SQLServer煎娇、MongoDB二庵、Hive
編程工具:Python、R缓呛、Julia催享、Scala、Spark哟绊、Java因妙、Hadoop
下面分別就每個(gè)工具做簡(jiǎn)單介紹
Excel生態(tài)
Excel不光包含表格軟件,還有很多內(nèi)置的數(shù)據(jù)分析工具和插件,從群眾基礎(chǔ)來(lái)說(shuō)無(wú)人能及攀涵。
1铣耘、Excel
無(wú)需多言,幾乎人人都在用的數(shù)據(jù)處理軟件汁果,由微軟開(kāi)發(fā)涡拘,是office三劍客之一。
雖然excel很容易入手据德,但大部分人對(duì)excel的使用程度還處在入門(mén)階段,存取數(shù)據(jù)跷车、做做表棘利。
其實(shí)excel可以制作復(fù)雜的報(bào)表、模型朽缴、應(yīng)用善玫、系統(tǒng),比如構(gòu)建金融分析模型密强。
大家學(xué)習(xí)excel茅郎,可以從基本界面、導(dǎo)入導(dǎo)出或渤、公式&函數(shù)系冗、篩選排序、數(shù)據(jù)格式薪鹦、可視化圖表掌敬、數(shù)據(jù)透視表、數(shù)據(jù)模型池磁、工作協(xié)作這幾個(gè)方面入手奔害,最好是按照官網(wǎng)文檔指導(dǎo),配合實(shí)踐地熄,一般進(jìn)步會(huì)很快华临。
2、VBA
Excel里的編程語(yǔ)言端考,通俗理解為宏雅潭,自動(dòng)化地執(zhí)行一些操作。Office 軟件提供豐富的功能接口跛梗,VBA 可以調(diào)用它們寻馏,實(shí)現(xiàn)自定義的需求。
VBA最大的作用是自動(dòng)化核偿、批量化诚欠、智能化地操作Excel,被廣泛應(yīng)用于數(shù)據(jù)分析處理、數(shù)據(jù)建模轰绵、報(bào)表開(kāi)發(fā)粉寞、應(yīng)用開(kāi)發(fā)等,在金融左腔、審計(jì)唧垦、財(cái)務(wù)等行業(yè)非常流行。
3液样、PowerQuery
一種嵌入Excel Microsoft 產(chǎn)品的技術(shù)振亮,旨在幫助你塑造數(shù)據(jù)。 在Excel鞭莽,選擇功能區(qū)上的"數(shù)據(jù)"選項(xiàng)卡坊秸,查看"獲取&轉(zhuǎn)換數(shù)據(jù)和查詢(xún)"&連接"組。
從各種數(shù)據(jù)源導(dǎo)入和刷新數(shù)據(jù)后澎怒,可以在分步轉(zhuǎn)換中調(diào)整數(shù)據(jù)褒搔,逐步創(chuàng)建唯一的表格形狀以滿(mǎn)足數(shù)據(jù)分析需求。
4喷面、PowerPivot
一種數(shù)據(jù)建模技術(shù)星瘾,用于創(chuàng)建數(shù)據(jù)模型,建立關(guān)系惧辈,以及創(chuàng)建計(jì)算琳状。 可使用 PowerPivot 處理大型數(shù)據(jù)集,構(gòu)建廣泛的關(guān)系咬像,以及創(chuàng)建復(fù)雜(或簡(jiǎn)單)的計(jì)算算撮,這些操作全部在高性能環(huán)境中和所你熟悉的 Excel 內(nèi)執(zhí)行。
5县昂、Power View
一種數(shù)據(jù)可視化技術(shù)肮柜,用于創(chuàng)建交互式圖表、圖形倒彰、地圖和其他視覺(jué)效果审洞,以便直觀呈現(xiàn)數(shù)據(jù)。 Power View 在 Excel待讳、BI SharePoint芒澜、SQL Server 和 Power BI 中均可用。
6创淡、Power Map
一種三維 (三維) 數(shù)據(jù)可視化工具痴晦,可用于以新方式查看信息。 通過(guò)電源圖琳彩,可發(fā)現(xiàn)傳統(tǒng)二維表格和圖表中 (二維) 見(jiàn)解誊酌。
使用 Power Map 部凑,可以在三維地球或自定義地圖上繪制地理和時(shí)態(tài)數(shù)據(jù),顯示這些數(shù)據(jù)碧浊,并創(chuàng)建可以與其他人分享的視覺(jué)瀏覽
數(shù)理統(tǒng)計(jì)工具
這類(lèi)工具偏專(zhuān)業(yè)數(shù)學(xué)統(tǒng)計(jì)分析涂邀,可以做數(shù)據(jù)挖掘、數(shù)據(jù)建模箱锐、系統(tǒng)搭建等工作比勉,適合學(xué)術(shù)和大型商業(yè)公司。
7驹止、SAS
三大統(tǒng)計(jì)軟件之一浩聋。是目前國(guó)際上最為流行的一種大型統(tǒng)計(jì)分析系統(tǒng),被譽(yù)為統(tǒng)計(jì)分析的標(biāo)準(zhǔn)軟件臊恋。
它由數(shù)十個(gè)專(zhuān)用模塊構(gòu)成赡勘,功能包括數(shù)據(jù)訪問(wèn)、數(shù)據(jù)儲(chǔ)存及管理捞镰、應(yīng)用開(kāi)發(fā)、圖形處理毙替、數(shù)據(jù)分析岸售、報(bào)告編制、運(yùn)籌學(xué)方法厂画、計(jì)量經(jīng)濟(jì)學(xué)與預(yù)測(cè)等等凸丸。
主要完成以數(shù)據(jù)為中心的四大任務(wù):數(shù)據(jù)訪問(wèn);數(shù)據(jù)管理袱院;數(shù)據(jù)呈現(xiàn)屎慢;數(shù)據(jù)分析。
8忽洛、SPSS
三大統(tǒng)計(jì)軟件之一腻惠。IBM公司的一系列用于統(tǒng)計(jì)學(xué)分析運(yùn)算、數(shù)據(jù)挖掘欲虚、預(yù)測(cè)分析和決策支持任務(wù)的軟件產(chǎn)品及相關(guān)服務(wù)的總稱(chēng)集灌。
SPSS和Excel比較像,界面簡(jiǎn)單复哆,適合初學(xué)者使用欣喧,且統(tǒng)計(jì)功能強(qiáng)大,擁有四大模塊梯找,用于數(shù)據(jù)處理唆阿、描述性分析、推斷性分析和探索性分析锈锤。
SPSS具有完整的數(shù)據(jù)輸入驯鳖、編輯闲询、統(tǒng)計(jì)分析、報(bào)表臼隔、圖形制作等功能嘹裂,自帶11種類(lèi)型136個(gè)函數(shù)。
SPSS提供了從簡(jiǎn)單的統(tǒng)計(jì)描述到復(fù)雜的多因素統(tǒng)計(jì)分析方法摔握,比如數(shù)據(jù)的探索性分析寄狼、統(tǒng)計(jì)描述、列聯(lián)表分析氨淌、二維相關(guān)泊愧、秩相關(guān)、偏相關(guān)盛正、方差分析删咱、非參數(shù)檢驗(yàn)、多元回歸豪筝、生存分析痰滋、協(xié)方差分析、判別分析续崖、因子分析敲街、聚類(lèi)分析、非線性回歸严望、Logistic回歸等多艇。
9、Stata
三大統(tǒng)計(jì)軟件之一像吻。是一套提供其使用者數(shù)據(jù)分析峻黍、數(shù)據(jù)管理以及繪制專(zhuān)業(yè)圖表的完整及整合性統(tǒng)計(jì)軟件。它功能非常強(qiáng)大拨匆,包含線性混合模型姆涩、均衡重復(fù)反復(fù)及多項(xiàng)式普羅比模式。
用Stata繪制的統(tǒng)計(jì)圖形相當(dāng)精美涮雷,且Stata具有操作靈活阵面、簡(jiǎn)單、易學(xué)易用洪鸭、運(yùn)行速度極快等優(yōu)點(diǎn)样刷。
功能包括:數(shù)據(jù)管理,統(tǒng)計(jì)分析览爵,圖表置鼻,模擬,自定義編程蜓竹。
10箕母、Minitab
數(shù)據(jù)分析储藐、統(tǒng)計(jì)、過(guò)程改善工具嘶是。應(yīng)用場(chǎng)景是現(xiàn)代質(zhì)量管理統(tǒng)計(jì)钙勃,通常結(jié)合一些統(tǒng)計(jì)處理方法,如六標(biāo)準(zhǔn)差(Six Sigma), 能力成熟度模型集成(CMMI)聂喇,以及其他制程改善方法等辖源。
11、Statistica
一個(gè)整合數(shù)據(jù)分析希太、圖表繪制克饶、數(shù)據(jù)庫(kù)管理與自訂應(yīng)用發(fā)展系統(tǒng)環(huán)境的專(zhuān)業(yè)軟件。
STATISTICA不僅提供使用者統(tǒng)計(jì)誊辉、繪圖與數(shù)據(jù)管理程序等一般目的的需求矾湃,更提供特定需求所需的數(shù)據(jù)分析方法(例如,數(shù)據(jù)挖掘堕澄、商業(yè)邀跃、社會(huì)科學(xué)、生物研究或工業(yè)工程等)蛙紫。
12坞嘀、MATLAB
三大數(shù)學(xué)軟件之一。一種用于算法開(kāi)發(fā)惊来、數(shù)據(jù)可視化、數(shù)據(jù)分析以及數(shù)值計(jì)算的高級(jí)技術(shù)計(jì)算語(yǔ)言和交互式環(huán)境棺滞。
除矩陣運(yùn)算裁蚁、繪制函數(shù)/數(shù)據(jù)圖像等常用功能外,MATLAB還可用來(lái)創(chuàng)建用戶(hù)界面继准,以及調(diào)用其它語(yǔ)言(包括C枉证、C++、Java移必、Python室谚、FORTRAN)編寫(xiě)的程序。
MATLAB的工具箱非常強(qiáng)大崔泵,可以支持各行各業(yè)做數(shù)據(jù)分析建模秒赤。
典型應(yīng)用有:數(shù)據(jù)分析、數(shù)值與符號(hào)計(jì)算憎瘸、工程與科學(xué)繪圖入篮、控制系統(tǒng)設(shè)計(jì)、航天工業(yè)幌甘、汽車(chē)工業(yè)潮售、生物醫(yī)學(xué)工程痊项、語(yǔ)音處理、圖像與數(shù)字信號(hào)處理酥诽、財(cái)務(wù)鞍泉、金融分析、建模肮帐、仿真及樣機(jī)開(kāi)發(fā)咖驮、新算法研究開(kāi)發(fā)、圖形用戶(hù)界面設(shè)計(jì)等泪姨。
13游沿、Mathematica
三大數(shù)學(xué)軟件之一。一款科學(xué)計(jì)算軟件肮砾,有時(shí)候也被稱(chēng)為計(jì)算機(jī)代數(shù)系統(tǒng)诀黍,廣泛使用于科學(xué)、工程仗处、數(shù)學(xué)眯勾、計(jì)算等領(lǐng)域。
它很好地結(jié)合了數(shù)值和符號(hào)計(jì)算引擎婆誓、圖形系統(tǒng)吃环、編程語(yǔ)言、文本系統(tǒng)洋幻、和與其他應(yīng)用程序的高級(jí)連接郁轻,很多功能在相應(yīng)領(lǐng)域內(nèi)處于世界領(lǐng)先地位。
BI工具
BI也就是商業(yè)智能文留,一般用來(lái)分析商業(yè)數(shù)據(jù)好唯,洞察商業(yè)機(jī)會(huì)。這可以是大部分?jǐn)?shù)據(jù)分析崗位需要用到的工具燥翅,因?yàn)閷W(xué)習(xí)簡(jiǎn)單骑篙,且數(shù)據(jù)處理和展示功能強(qiáng)大。
下圖是Gartner統(tǒng)計(jì)的BI工具實(shí)力榜:
14森书、PowerBI
微軟的BI產(chǎn)品靶端,也是目前世界上最流的BI工具之一,它優(yōu)勢(shì)在于和微軟生態(tài)集成較好凛膏。
Power BI 是軟件服務(wù)杨名、應(yīng)用和連接器的集合,它們協(xié)同工作以將相關(guān)數(shù)據(jù)來(lái)源轉(zhuǎn)換為連貫的視覺(jué)逼真的交互式見(jiàn)解猖毫。
無(wú)論用戶(hù)的數(shù)據(jù)是簡(jiǎn)單的 Excel 電子表格镣煮,還是基于云和本地混合數(shù)據(jù)倉(cāng)庫(kù)的集合,Power BI 都可讓用戶(hù)輕松地連接到數(shù)據(jù)源鄙麦,直觀看到(或發(fā)現(xiàn))重要內(nèi)容典唇,與任何所希望的人進(jìn)行共享镊折。
Power BI 簡(jiǎn)單且快速,能夠從 Excel 電子表格或本地?cái)?shù)據(jù)庫(kù)創(chuàng)建快速見(jiàn)解介衔。 同時(shí) Power BI 也可進(jìn)行豐富的建模和實(shí)時(shí)分析恨胚,及自定義開(kāi)發(fā)。
因此它既是用戶(hù)的個(gè)人報(bào)表和可視化工具炎咖,還可用作組項(xiàng)目赃泡、部門(mén)或整個(gè)企業(yè)背后的分析和決策引擎。
15乘盼、Tableau
同樣是目前世界上最流的BI工具之一升熊,優(yōu)點(diǎn)是數(shù)據(jù)分析、可視化能力強(qiáng)大绸栅。
Tableau是用于可視分析數(shù)據(jù)的商業(yè)智能工具级野。用戶(hù)可以創(chuàng)建和分發(fā)交互式和可共享的儀表板,以圖形和圖表的形式描繪數(shù)據(jù)的趨勢(shì)粹胯,變化和密度蓖柔。
Tableau可以連接到文件,關(guān)系數(shù)據(jù)源和大數(shù)據(jù)源來(lái)獲取和處理數(shù)據(jù)风纠。該軟件允許數(shù)據(jù)混合和實(shí)時(shí)協(xié)作况鸣,這使它非常獨(dú)特。它被企業(yè)竹观,學(xué)術(shù)研究人員和許多政府用來(lái)進(jìn)行視覺(jué)數(shù)據(jù)分析镐捧。它還被定位為Gartner魔力象限中的領(lǐng)導(dǎo)者商業(yè)智能和分析平臺(tái)。
16臭增、Qlikview
一個(gè)完整的商業(yè)分析軟件愤估,使開(kāi)發(fā)者和分析者能夠構(gòu)建和部署強(qiáng)大的分析應(yīng)用。QlikView應(yīng)用使各種各樣的終端用戶(hù)以一個(gè)高度可視化速址,功能強(qiáng)大和創(chuàng)造性的方式,互動(dòng)分析重要業(yè)務(wù)信息由驹。
它讓開(kāi)發(fā)者能從多種數(shù)據(jù)庫(kù)里提取和清洗數(shù)據(jù)芍锚,建立強(qiáng)大、高效的應(yīng)用蔓榄,而且使它們能被Power用戶(hù)并炮、移動(dòng)用戶(hù)和每天的終端用戶(hù)修改后使用。
17甥郑、SAP BI
SAP公司的BI服務(wù)逃魄,一款支持?jǐn)?shù)據(jù)報(bào)告、可視化和共享的集中式套件澜搅。作為 SAP Business Technology Platform [業(yè)務(wù)技術(shù)云平臺(tái)] 的本地 BI 層伍俘,該套件可以隨時(shí)隨地將數(shù)據(jù)轉(zhuǎn)化為有用的洞察邪锌。
18、OracleBI
Oracle公司的BI服務(wù)癌瘾。
19觅丰、FineBI
國(guó)內(nèi)較為領(lǐng)先的BI軟件,定位于自助大數(shù)據(jù)分析的BI工具妨退,提供數(shù)據(jù)處理妇萄、即時(shí)分析、多維度分析咬荷、可視化等服務(wù)冠句。
20、Yonghong BI
同樣是國(guó)內(nèi)較為領(lǐng)先的BI軟件幸乒,基于本機(jī)安裝懦底,省去繁瑣的部署環(huán)節(jié),即裝即用逝变。提供一站式基茵、敏捷、高效的數(shù)據(jù)治理及可視化分析壳影、AI深度分析能力拱层。
數(shù)據(jù)庫(kù)工具
數(shù)據(jù)庫(kù)是數(shù)據(jù)存儲(chǔ)的工具,一般企業(yè)都會(huì)有自己的私有部署數(shù)據(jù)庫(kù)宴咧,或者云數(shù)據(jù)庫(kù)根灯,每一位數(shù)據(jù)從業(yè)者幾乎都需要和數(shù)據(jù)庫(kù)打交道。因?yàn)槭煜じ黝?lèi)數(shù)據(jù)庫(kù)掺栅,并編寫(xiě)SQL查詢(xún)烙肺,是數(shù)據(jù)人必備技能之一富拗。
21壁肋、MySQL
最流行數(shù)據(jù)庫(kù)之一窝撵,國(guó)內(nèi)互聯(lián)網(wǎng)公司最喜歡的數(shù)據(jù)庫(kù)题造,我愿稱(chēng)之為必學(xué)械哟。
MySQL在過(guò)去由于性能高损合、成本低肛响、可靠性好郭膛,已經(jīng)成為最流行的開(kāi)源數(shù)據(jù)庫(kù)闪檬,因此被廣泛地應(yīng)用在Internet上的中小型網(wǎng)站中星著。
隨著MySQL的不斷成熟,它也逐漸用于更多大規(guī)模網(wǎng)站和應(yīng)用粗悯,比如維基百科虚循、Google和Facebook等網(wǎng)站。非常流行的開(kāi)源軟件組合LAMP中的“M”指的就是MySQL。
22横缔、PostgreSQL
最強(qiáng)大且最具潛力的數(shù)據(jù)庫(kù)之一铺遂,開(kāi)源免費(fèi),分析能力強(qiáng)剪廉,穩(wěn)定可靠娃循,支持廣泛。在很多方面都比MySQL強(qiáng)斗蒋,如復(fù)雜SQL的執(zhí)行捌斧、存儲(chǔ)過(guò)程、觸發(fā)器泉沾、索引捞蚂。我愿稱(chēng)之為最強(qiáng)。
23跷究、Oracle
老牌企業(yè)姓迅,最穩(wěn)定的數(shù)據(jù)庫(kù)之一。大部分銀行俊马、證券丁存、電信等行業(yè)都在使用Oracle,因?yàn)槠渖虡I(yè)化程度高柴我、功能強(qiáng)大且穩(wěn)定解寝,所以備受世界500強(qiáng)歡迎。
24艘儒、SQLServer
微軟公司數(shù)據(jù)庫(kù)產(chǎn)品聋伦,windows系統(tǒng)上最強(qiáng)王者。具有易用性界睁、適合分布式組織的可伸縮性觉增、用于決策支持的數(shù)據(jù)倉(cāng)庫(kù)功能、與許多其他服務(wù)器軟件緊密關(guān)聯(lián)的集成性翻斟、良好的性?xún)r(jià)比等逾礁。
25、MongoDB
一個(gè)基于分布式文件存儲(chǔ)的數(shù)據(jù)庫(kù)访惜。由 C++ 語(yǔ)言編寫(xiě)嘹履。旨在為 WEB 應(yīng)用提供可擴(kuò)展的高性能數(shù)據(jù)存儲(chǔ)解決方案。
MongoDB 是一個(gè)介于關(guān)系數(shù)據(jù)庫(kù)和非關(guān)系數(shù)據(jù)庫(kù)之間的產(chǎn)品疾牲,是非關(guān)系數(shù)據(jù)庫(kù)當(dāng)中功能最豐富,最像關(guān)系數(shù)據(jù)庫(kù)的衙解。
26阳柔、Hive
Hadoop大數(shù)據(jù)生態(tài)的數(shù)據(jù)查詢(xún)工具,一個(gè)用來(lái)開(kāi)發(fā)SQL類(lèi)型腳本來(lái)執(zhí)行MapReduce操作的平臺(tái)蚓峦,當(dāng)前在互聯(lián)網(wǎng)公司應(yīng)用非常廣泛舌剂。
具體來(lái)說(shuō)济锄,Hive是一個(gè)數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)設(shè)施工具,用于處理Hadoop中的結(jié)構(gòu)化數(shù)據(jù)霍转。它位于Hadoop的頂部荐绝,用于匯總大數(shù)據(jù),并使查詢(xún)和分析變得輕松避消。
編程工具
除了上述的數(shù)據(jù)分析軟件外低滩,編程用于數(shù)據(jù)分析也是大趨勢(shì)。越來(lái)越多的數(shù)據(jù)分析師通過(guò)Python岩喷、R等進(jìn)行數(shù)據(jù)建模恕沫、可視化,而且編程語(yǔ)言快速纱意、靈活婶溯、復(fù)用性強(qiáng)的特點(diǎn)也適合數(shù)據(jù)處理分析。
27偷霉、Python
目前最火的數(shù)據(jù)科學(xué)編程語(yǔ)言迄委,沒(méi)有之一。Python因?yàn)槠浜?jiǎn)潔的語(yǔ)法类少、強(qiáng)大的生態(tài)叙身、無(wú)所不能的應(yīng)用幾乎已經(jīng)霸占了數(shù)據(jù)分析編程領(lǐng)域的半壁江山。
前段時(shí)間matlab被限制在中國(guó)使用瞒滴,知乎上開(kāi)始討論什么工具可以替代matlab曲梗,python是被提及最多的編程語(yǔ)言。
且不說(shuō)python能否替代matlab妓忍,就目前python在科學(xué)計(jì)算虏两、模型構(gòu)建、可視化上的能力就已經(jīng)可以傲視編程界世剖,其擁有像numpy定罢、scipy、statemodels旁瘫、pandas祖凫、matplotlib等眾多現(xiàn)象級(jí)的數(shù)據(jù)科學(xué)庫(kù)。
不管是github酬凳、kaggle惠况、天池,還是企業(yè)高校里的數(shù)據(jù)項(xiàng)目宁仔,python幾乎都已成為首選支持語(yǔ)言之一稠屠。
另外在高端科技領(lǐng)域,同樣有python的身影。自 1997 年权埠,NASA 就大量使用 Python 進(jìn)行各種復(fù)雜的科學(xué)運(yùn)算榨了。
至于AI,這也是python的看家本領(lǐng)了攘蔽,其應(yīng)用生態(tài)可謂波瀾壯闊龙屉、群星云集。
不僅有tensorflow满俗、pytorch转捕、caffe、keras等主流人工智能學(xué)習(xí)框架漫雷,還有Gensim瓜富、NLTK、OpenCV降盹、Mahotas等專(zhuān)注于nlp与柑、cv細(xì)分領(lǐng)域的經(jīng)典開(kāi)發(fā)工具。
28蓄坏、R
編程統(tǒng)計(jì)工具的鼻祖价捧。作為一種統(tǒng)計(jì)分析軟件,是集統(tǒng)計(jì)分析與圖形顯示于一體的涡戳。它可以運(yùn)行于UNIX结蟋、Windows和Macintosh的操作系統(tǒng)上,而且嵌入了一個(gè)非常方便實(shí)用的幫助系統(tǒng)渔彰。
R是一套由數(shù)據(jù)操作嵌屎、計(jì)算和圖形展示功能整合而成的套件。
包括:有效的數(shù)據(jù)存儲(chǔ)和處理功能恍涂,一套完整的數(shù)組(特別是矩陣)計(jì)算操作符宝惰,擁有完整體系的數(shù)據(jù)分析工具,為數(shù)據(jù)分析和顯示提供的強(qiáng)大圖形功能再沧,一套(源自S語(yǔ)言)完善尼夺、簡(jiǎn)單、有效的編程語(yǔ)言(包括條件炒瘸、循環(huán)淤堵、自定義函數(shù)、輸入輸出功能)顷扩。
29拐邪、Julia
編程數(shù)據(jù)分析領(lǐng)域的新星。Julia 是一個(gè)面向科學(xué)計(jì)算的高性能動(dòng)態(tài)高級(jí)程序設(shè)計(jì)語(yǔ)言隘截,
首先定位是通用編程語(yǔ)言扎阶,其次是高性能計(jì)算語(yǔ)言事富。
Julia在分布式并行化、精確數(shù)值計(jì)算等方面提供了獨(dú)具特色的支持乘陪,并包含大量可擴(kuò)展的數(shù)學(xué)函數(shù)庫(kù)。
尤其是在線性代數(shù)雕擂、隨機(jī)數(shù)生成啡邑、信號(hào)處理、字符串處理等方面井赌,集成了眾多成熟谤逼、優(yōu)秀的基于C和Fortran開(kāi)發(fā)的開(kāi)源庫(kù),有著很高的性能與效率仇穗。
另外流部,Julia有著強(qiáng)大開(kāi)放的開(kāi)發(fā)者社區(qū),貢獻(xiàn)了大量的第三方庫(kù)纹坐,并可通過(guò)內(nèi)置的包(Package)管理器進(jìn)行方便的安裝使用枝冀。
30、Scala
Java的衍生語(yǔ)言耘子,用于spark數(shù)據(jù)分析果漾、大數(shù)據(jù)開(kāi)發(fā)等。
31谷誓、Spark
一個(gè)開(kāi)源集群運(yùn)算框架绒障,Spark在存儲(chǔ)器內(nèi)執(zhí)行程序的運(yùn)算速度能做到比Hadoop MapReduce的運(yùn)算速度快上100倍,即便是執(zhí)行程序于硬盤(pán)時(shí)捍歪,Spark也能快上10倍速度户辱。
Spark允許用戶(hù)將資料加載至集群存儲(chǔ)器,并多次對(duì)其進(jìn)行查詢(xún)糙臼,非常適合用于機(jī)器學(xué)習(xí)算法庐镐。
32、Java
不用多說(shuō)弓摘,最流行的編程語(yǔ)言焚鹊。其在數(shù)據(jù)分析領(lǐng)域的應(yīng)用主要是搭建大數(shù)據(jù)框架。
33韧献、Hadoop
最流行的大數(shù)據(jù)框架末患,幾乎大部分互聯(lián)網(wǎng)公司都在用,如果你做大數(shù)據(jù)锤窑,肯定離不開(kāi)它璧针。
簡(jiǎn)答來(lái)說(shuō),Hadoop是一款支持?jǐn)?shù)據(jù)密集型分布式應(yīng)用程序渊啰,并以Apache 2.0許可協(xié)議發(fā)布的開(kāi)源軟件框架探橱。它支持在商用硬件構(gòu)建的大型集群上運(yùn)行的應(yīng)用程序申屹。
Hadoop是根據(jù)谷歌公司發(fā)表的MapReduce和Google文件系統(tǒng)的論文自行實(shí)現(xiàn)而成。所有的Hadoop模塊都有一個(gè)基本假設(shè)隧膏,即硬件故障是常見(jiàn)情況哗讥,應(yīng)該由框架自動(dòng)處理。
部分信息來(lái)源:維基百科胞枕、百度百科杆煞、百度文庫(kù)