Hadoop和大數(shù)據(jù):60款頂級大數(shù)據(jù)開源工具

圖片發(fā)自簡書App

說到處理大數(shù)據(jù)的工具例嘱,普通的開源解決方案(尤其是Apache Hadoop)堪稱中流砥柱。弗雷斯特調(diào)研公司的分析師Mike Gualtieri最近預測涮坐,在接下來幾年己儒,“100%的大公司”會采用Hadoop。Market Research的一份報告預測巾腕,到2011年面睛,Hadoop市場會以58%的年復合增長率(CAGR)高速增長;到2020年祠墅,市場產(chǎn)值會超過10億美元侮穿。IBM更是非掣杈叮看好開源大數(shù)據(jù)工具毁嗦,派出了3500名研究人員開發(fā)Apache Spark,這個工具是Hadoop生態(tài)系統(tǒng)的一部分回铛。

這回我們推出了最新的頂級開源大數(shù)據(jù)工具排行榜狗准。這個領(lǐng)域最近方興未艾克锣,許多新項目紛紛啟動。許多最知名的項目由Apache基金會管理腔长,與Hadoop密切相關(guān)袭祟。

請注意:本文不是要搞什么排名;相反捞附,項目按類別加以介紹巾乳。與往常一樣,要是你知道另外的開源大數(shù)據(jù)及/或Hadoop工具應(yīng)該榜上有名鸟召,歡迎留言交流胆绊。

一、Hadoop相關(guān)工具

1.Hadoop

Apache的Hadoop項目已幾乎與大數(shù)據(jù)劃上了等號欧募。它不斷壯大起來压状,已成為一個完整的生態(tài)系統(tǒng),眾多開源工具面向高度擴展的分布式計算跟继。

支持的操作系統(tǒng):Windows种冬、Linux和OS X。

相關(guān)鏈接:http://hadoop.apache.org

2.Ambari

作為Hadoop生態(tài)系統(tǒng)的一部分舔糖,這個Apache項目提供了基于Web的直觀界面娱两,可用于配置、管理和監(jiān)控Hadoop集群金吗。有些開發(fā)人員想把Ambari的功能整合到自己的應(yīng)用程序當中谷婆,Ambari也為他們提供了充分利用REST(代表性狀態(tài)傳輸協(xié)議)的API。

支持的操作系統(tǒng):Windows辽聊、Linux和OS X纪挎。

相關(guān)鏈接:http://ambari.apache.org

3.Avro

這個Apache項目提供了數(shù)據(jù)序列化系統(tǒng),擁有豐富的數(shù)據(jù)結(jié)構(gòu)和緊湊格式跟匆。模式用JSON來定義异袄,它很容易與動態(tài)語言整合起來。

支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)玛臂。

相關(guān)鏈接:http://avro.apache.org

4.Cascading

Cascading是一款基于Hadoop的應(yīng)用程序開發(fā)平臺烤蜕。提供商業(yè)支持和培訓服務(wù)。

支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)迹冤。

相關(guān)鏈接:http://www.cascading.org/projects/cascading/

5.Chukwa

Chukwa基于Hadoop讽营,可以收集來自大型分布式系統(tǒng)的數(shù)據(jù),用于監(jiān)控泡徙。它還含有用于分析和顯示數(shù)據(jù)的工具橱鹏。

支持的操作系統(tǒng):Linux和OS X。

相關(guān)鏈接:http://chukwa.apache.org

6.Flume

Flume可以從其他應(yīng)用程序收集日志數(shù)據(jù),然后將這些數(shù)據(jù)送入到Hadoop莉兰。官方網(wǎng)站聲稱:“它功能強大挑围、具有容錯性,還擁有可以調(diào)整優(yōu)化的可靠性機制和許多故障切換及恢復機制糖荒∩颊蓿”

支持的操作系統(tǒng):Linux和OS X。

相關(guān)鏈接:https://cwiki.apache.org/confluence/display/FLUME/Home

7.HBase

HBase是為有數(shù)十億行和數(shù)百萬列的超大表設(shè)計的捶朵,這是一種分布式數(shù)據(jù)庫蜘矢,可以對大數(shù)據(jù)進行隨機性的實時讀取/寫入訪問。它有點類似谷歌的Bigtable综看,不過基于Hadoop和Hadoop分布式文件系統(tǒng)(HDFS)而建硼端。

支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。

相關(guān)鏈接:http://hbase.apache.org

8.Hadoop分布式文件系統(tǒng)(HDFS)

HDFS是面向Hadoop的文件系統(tǒng)寓搬,不過它也可以用作一種獨立的分布式文件系統(tǒng)珍昨。它基于Java,具有容錯性句喷、高度擴展性和高度配置性镣典。

支持的操作系統(tǒng):Windows、Linux和OS X唾琼。

相關(guān)鏈接:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HdfsUserGuide.html

9.Hive

Apache Hive是面向Hadoop生態(tài)系統(tǒng)的數(shù)據(jù)倉庫兄春。它讓用戶可以使用HiveQL查詢和管理大數(shù)據(jù),這是一種類似SQL的語言锡溯。

支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)赶舆。

相關(guān)鏈接:http://hive.apache.org

10.Hivemall

Hivemall結(jié)合了面向Hive的多種機器學習算法。它包括諸多高度擴展性算法祭饭,可用于數(shù)據(jù)分類芜茵、遞歸、推薦倡蝙、k最近鄰九串、異常檢測和特征哈希。

支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)寺鸥。

相關(guān)鏈接:https://github.com/myui/hivemall

11.Mahout

據(jù)官方網(wǎng)站聲稱猪钮,Mahout項目的目的是“為迅速構(gòu)建可擴展、高性能的機器學習應(yīng)用程序打造一個環(huán)境胆建】镜停”它包括用于在Hadoop MapReduce上進行數(shù)據(jù)挖掘的眾多算法,還包括一些面向Scala和Spark環(huán)境的新穎算法笆载。

支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)扑馁。

相關(guān)鏈接:http://mahout.apache.org

12.MapReduce

作為Hadoop一個不可或缺的部分涯呻,MapReduce這種編程模型為處理大型分布式數(shù)據(jù)集提供了一種方法。它最初是由谷歌開發(fā)的檐蚜,但現(xiàn)在也被本文介紹的另外幾個大數(shù)據(jù)工具所使用魄懂,包括CouchDB沿侈、MongoDB和Riak闯第。

支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。

相關(guān)鏈接:http://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html

13.Oozie

這種工作流程調(diào)度工具是為了管理Hadoop任務(wù)而專門設(shè)計的缀拭。它能夠按照時間或按照數(shù)據(jù)可用情況觸發(fā)任務(wù)咳短,并與MapReduce、Pig蛛淋、Hive咙好、Sqoop及其他許多相關(guān)工具整合起來。

支持的操作系統(tǒng):Linux和OS X褐荷。

相關(guān)鏈接:http://oozie.apache.org

14.Pig

Apache Pig是一種面向分布式大數(shù)據(jù)分析的平臺勾效。它依賴一種名為Pig Latin的編程語言,擁有簡化的并行編程叛甫、優(yōu)化和可擴展性等優(yōu)點层宫。

支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。

相關(guān)鏈接:http://pig.apache.org

15.Sqoop

企業(yè)經(jīng)常需要在關(guān)系數(shù)據(jù)庫與Hadoop之間傳輸數(shù)據(jù)其监,而Sqoop就是能完成這項任務(wù)的一款工具萌腿。它可以將數(shù)據(jù)導入到Hive或HBase,并從Hadoop導出到關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)抖苦。

支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)毁菱。

相關(guān)鏈接:http://sqoop.apache.org

16.Spark

作為MapReduce之外的一種選擇,Spark是一種數(shù)據(jù)處理引擎锌历。它聲稱贮庞,用在內(nèi)存中時,其速度比MapReduce最多快100倍究西;用在磁盤上時贸伐,其速度比MapReduce最多快10倍。它可以與Hadoop和Apache Mesos一起使用怔揩,也可以獨立使用捉邢。

支持的操作系統(tǒng):Windows、Linux和OS X商膊。

相關(guān)鏈接:http://spark.apache.org

17.Tez

Tez建立在Apache Hadoop YARN的基礎(chǔ)上伏伐,這是“一種應(yīng)用程序框架,允許為任務(wù)構(gòu)建一種復雜的有向無環(huán)圖晕拆,以便處理數(shù)據(jù)藐翎〔牡牛”它讓Hive和Pig可以簡化復雜的任務(wù),而這些任務(wù)原本需要多個步驟才能完成吝镣。

支持的操作系統(tǒng):Windows堤器、Linux和OS X。

相關(guān)鏈接:http://tez.apache.org

18.Zookeeper

這種大數(shù)據(jù)管理工具自稱是“一項集中式服務(wù)末贾,可用于維護配置信息闸溃、命名、提供分布式同步以及提供群組服務(wù)拱撵』源ǎ”它讓Hadoop集群里面的節(jié)點可以彼此協(xié)調(diào)。

支持的操作系統(tǒng):Linux拴测、Windows(只適合開發(fā)環(huán)境)和OS X(只適合開發(fā)環(huán)境)乓旗。

相關(guān)鏈接:http://zookeeper.apache.org

二、大數(shù)據(jù)分析平臺和工具

19.Disco

Disco最初由諾基亞開發(fā)集索,這是一種分布式計算框架屿愚,與Hadoop一樣,它也基于MapReduce务荆。它包括一種分布式文件系統(tǒng)以及支持數(shù)十億個鍵和值的數(shù)據(jù)庫妆距。

支持的操作系統(tǒng):Linux和OS X。

相關(guān)鏈接:http://discoproject.org

20.HPCC

作為Hadoop之外的一種選擇蛹含,HPCC這種大數(shù)據(jù)平臺承諾速度非骋愫瘢快,擴展性超強浦箱。除了免費社區(qū)版外诵棵,HPCC Systems還提供收費的企業(yè)版迫横、收費模塊淹遵、培訓耕捞、咨詢及其他服務(wù)。

支持的操作系統(tǒng):Linux蓬推。

相關(guān)鏈接:http://hpccsystems.com

21.Lumify

Lumify歸Altamira科技公司(以國家安全技術(shù)而聞名)所有妆棒,這是一種開源大數(shù)據(jù)整合、分析和可視化平臺沸伏。你只要在Try.Lumify.io試一下演示版糕珊,就能看看它的實際效果。

支持的操作系統(tǒng):Linux毅糟。

相關(guān)鏈接:http://www.jboss.org/infinispan.html

22.Pandas

Pandas項目包括基于Python編程語言的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)分析工具红选。它讓企業(yè)組織可以將Python用作R之外的一種選擇,用于大數(shù)據(jù)分析項目姆另。

支持的操作系統(tǒng):Windows喇肋、Linux和OS X坟乾。

相關(guān)鏈接:http://pandas.pydata.org

23.Storm

Storm現(xiàn)在是一個Apache項目,它提供了實時處理大數(shù)據(jù)的功能(不像Hadoop只提供批任務(wù)處理)蝶防。其用戶包括推特甚侣、美國天氣頻道、WebMD间学、阿里巴巴殷费、Yelp、雅虎日本菱鸥、Spotify宗兼、Group躏鱼、Flipboard及其他許多公司氮采。

支持的操作系統(tǒng):Linux。

相關(guān)鏈接:https://storm.apache.org

三染苛、數(shù)據(jù)庫/數(shù)據(jù)倉庫

24.Blazegraph

Blazegraph之前名為“Bigdata”鹊漠,這是一種高度擴展、高性能的數(shù)據(jù)庫茶行。它既有使用開源許可證的版本躯概,也有使用商業(yè)許可證的版本。

支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)畔师。

相關(guān)鏈接:http://www.systap.com/bigdata

25.Cassandra

這種NoSQL數(shù)據(jù)庫最初由Facebook開發(fā)娶靡,現(xiàn)已被1500多家企業(yè)組織使用,包括蘋果看锉、歐洲原子核研究組織(CERN)姿锭、康卡斯特、電子港灣伯铣、GitHub呻此、GoDaddy、Hulu腔寡、Instagram焚鲜、Intuit、Netfilx放前、Reddit及其他機構(gòu)忿磅。它能支持超大規(guī)模集群;比如說凭语,蘋果部署的Cassandra系統(tǒng)就包括75000多個節(jié)點葱她,擁有的數(shù)據(jù)量超過10 PB。

支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)叽粹。

相關(guān)鏈接:http://cassandra.apache.org

26.CouchDB

CouchDB號稱是“一款完全擁抱互聯(lián)網(wǎng)的數(shù)據(jù)庫”览效,它將數(shù)據(jù)存儲在JSON文檔中却舀,這種文檔可以通過Web瀏覽器來查詢,并且用JavaScript來處理锤灿。它易于使用挽拔,在分布式上網(wǎng)絡(luò)上具有高可用性和高擴展性。

支持的操作系統(tǒng):Windows但校、Linux螃诅、OS X和安卓。

相關(guān)鏈接:http://couchdb.apache.org

27.FlockDB

由推特開發(fā)的FlockDB是一種非匙创眩快术裸、擴展性非常好的圖形數(shù)據(jù)庫,擅長存儲社交網(wǎng)絡(luò)數(shù)據(jù)亭枷。雖然它仍可用于下載袭艺,但是這個項目的開源版已有一段時間沒有更新了。

支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)叨粘。

相關(guān)鏈接:https://github.com/twitter/flockdb

28.Hibari

這個基于Erlang的項目自稱是“一種分布式有序鍵值存儲系統(tǒng)猾编,保證擁有很強的一致性”。它最初是由Gemini Mobile Technologies開發(fā)的升敲,現(xiàn)在已被歐洲和亞洲的幾家電信運營商所使用答倡。

支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。

相關(guān)鏈接:http://hibari.github.io/hibari-doc/

29.Hypertable

Hypertable是一種與Hadoop兼容的大數(shù)據(jù)數(shù)據(jù)庫驴党,承諾性能超高瘪撇,其用戶包括電子港灣、百度港庄、高朋倔既、Yelp及另外許多互聯(lián)網(wǎng)公司。提供商業(yè)支持服務(wù)攘轩。

支持的操作系統(tǒng):Linux和OS X叉存。

相關(guān)鏈接:http://hypertable.org

30.Impala

Cloudera聲稱,基于SQL的Impala數(shù)據(jù)庫是“面向Apache Hadoop的領(lǐng)先的開源分析數(shù)據(jù)庫”度帮。它可以作為一款獨立產(chǎn)品來下載歼捏,又是Cloudera的商業(yè)大數(shù)據(jù)產(chǎn)品的一部分。

支持的操作系統(tǒng):Linux和OS X笨篷。

相關(guān)鏈接:http://www.cloudera.com/content/cloudera/en/products-and-services/cdh/impala.html

31.InfoBright社區(qū)版

InfoBright為數(shù)據(jù)分析而設(shè)計瞳秽,這是一種面向列的數(shù)據(jù)庫,具有很高的壓縮比率翅。InfoBright.com提供基于同一代碼的收費產(chǎn)品练俐,提供支持服務(wù)。

支持的操作系統(tǒng):Windows和Linux冕臭。

相關(guān)鏈接:http://www.infobright.org

32.MongoDB

mongoDB的下載量已超過1000萬人次腺晾,這是一種極其受歡迎的NoSQL數(shù)據(jù)庫燕锥。MongoDB.com上提供了企業(yè)版、支持悯蝉、培訓及相關(guān)產(chǎn)品和服務(wù)归形。

支持的操作系統(tǒng):Windows、Linux鼻由、OS X和Solaris暇榴。

相關(guān)鏈接:http://www.mongodb.org

33.Neo4j

Neo4j自稱是“速度最快、擴展性最佳的原生圖形數(shù)據(jù)庫”蕉世,它承諾具有大規(guī)模擴展性蔼紧、快速的密碼查詢性能和經(jīng)過改進的開發(fā)效率。用戶包括電子港灣狠轻、必能寶(Pitney Bowes)奸例、沃爾瑪、德國漢莎航空公司和CrunchBase哈误。

支持的操作系統(tǒng):Windows和Linux哩至。

相關(guān)鏈接:http://neo4j.org

34.OrientDB

這款多模型數(shù)據(jù)庫結(jié)合了圖形數(shù)據(jù)庫的一些功能和文檔數(shù)據(jù)庫的一些功能躏嚎。提供收費支持蜜自、培訓和咨詢等服務(wù)。

支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)卢佣。

相關(guān)鏈接:http://www.orientdb.org/index.htm

35.Pivotal Greenplum Database

Pivotal聲稱重荠,Greenplum是“同類中最佳的企業(yè)級分析數(shù)據(jù)庫”,能夠非承椴瑁快速地對龐大的海量數(shù)據(jù)進行功能強大的分析戈鲁。它是Pivotal大數(shù)據(jù)庫套件的一部分。

支持的操作系統(tǒng):Windows嘹叫、Linux和OS X婆殿。

相關(guān)鏈接:http://pivotal.io/big-data/pivotal-greenplum-database

36.Riak

Riak“功能完備”,有兩個版本:KV是分布式NoSQL數(shù)據(jù)庫罩扇,S2提供了面向云環(huán)境的對象存儲婆芦。它既有開源版,也有商業(yè)版喂饥,還有支持Spark消约、Redis和Solr的附件。

支持的操作系統(tǒng):Linux和OS X员帮。

相關(guān)鏈接:http://basho.com/riak-0-10-is-full-of-great-stuff/

37.Redis

Redis現(xiàn)在由Pivotal贊助或粮,這是一種鍵值緩存和存儲系統(tǒng)。提供收費支持捞高。要注意:雖然該項目并不正式支持Windows氯材,不過微軟在GitHub上有一個Windows派生版渣锦。

支持的操作系統(tǒng):Linux。

相關(guān)鏈接:http://redis.io

四氢哮、商業(yè)智能

38.Talend Open Studio

Talend的下載量已超過200萬人次泡挺,其開源軟件提供了數(shù)據(jù)整合功能。該公司還開發(fā)收費的大數(shù)據(jù)命浴、云娄猫、數(shù)據(jù)整合、應(yīng)用程序整合和主數(shù)據(jù)管理等工具生闲。其用戶包括美國國際集團(AIG)媳溺、康卡斯特、電子港灣碍讯、通用電氣悬蔽、三星、Ticketmaster和韋里遜等企業(yè)組織捉兴。

支持的操作系統(tǒng):Windows蝎困、Linux和OS X。

相關(guān)鏈接:http://www.talend.com/index.php

39.Jaspersoft

Jaspersoft提供了靈活倍啥、可嵌入的商業(yè)智能工具禾乘,用戶包括眾多企業(yè)組織:高朋、冠群科技虽缕、美國農(nóng)業(yè)部始藕、愛立信、時代華納有線電視氮趋、奧林匹克鋼鐵伍派、內(nèi)斯拉斯加大學和通用動力公司。除了開源社區(qū)版外剩胁,它還提供收費的報表版诉植、亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)版、專業(yè)版和企業(yè)版昵观。

支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)晾腔。

相關(guān)鏈接:http://www.jaspersoft.com

40.Pentaho

Pentaho歸日立數(shù)據(jù)系統(tǒng)公司所有,它提供了一系列數(shù)據(jù)整合和業(yè)務(wù)分析工具索昂。官方網(wǎng)站上提供了三個社區(qū)版建车;訪問Pentaho.com,即可了解收費支持版方面的信息椒惨。

支持的操作系統(tǒng):Windows缤至、Linux和OS X。

相關(guān)鏈接:http://community.pentaho.com

41.SpagoBI

Spago被市場分析師們稱為“開源領(lǐng)袖”,它提供商業(yè)智能领斥、中間件和質(zhì)量保證軟件嫉到,另外還提供Java EE應(yīng)用程序開發(fā)框架。該軟件百分之分免費月洛、開源何恶,不過也提供收費的支持、咨詢嚼黔、培訓及其他服務(wù)细层。

支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。

相關(guān)鏈接:http://www.spagoworld.org/xwiki/bin/view/SpagoWorld/

42.KNIME

KNIME的全稱是“康斯坦茨信息挖掘工具”(Konstanz Information Miner)唬涧,這是一種開源分析和報表平臺疫赎。提供了幾個商業(yè)和開源擴展件,以增強其功能碎节。

支持的操作系統(tǒng):Windows捧搞、Linux和OS X。

相關(guān)鏈接:http://www.knime.org

43.BIRT

BIRT的全稱是“商業(yè)智能和報表工具”狮荔。它提供的一種平臺可用于制作可以嵌入到應(yīng)用程序和網(wǎng)站中的可視化元素及報表胎撇。它是Eclipse社區(qū)的一部分,得到了Actuate殖氏、IBM和Innovent Solutions的支持晚树。

支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。

相關(guān)鏈接:http://www.eclipse.org/birt/

五受葛、數(shù)據(jù)挖掘

44.DataMelt

作為jHepWork的后續(xù)者题涨,DataMelt可以處理數(shù)學運算、數(shù)據(jù)挖掘总滩、統(tǒng)計分析和數(shù)據(jù)可視化等任務(wù)。它支持Java及相關(guān)的編程語言巡雨,包括Jython闰渔、Groovy、JRuby和Beanshell铐望。

支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)冈涧。

相關(guān)鏈接:http://jwork.org/dmelt/

45.KEEL

KEEL的全稱是“基于進化學習的知識提取”,這是一種基于Java的機器學習工具正蛙,為一系列大數(shù)據(jù)任務(wù)提供了算法督弓。它還有助于評估算法在處理遞歸、分類乒验、集群愚隧、模式挖掘及類似任務(wù)時的效果。

支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)锻全。

相關(guān)鏈接:http://keel.es

46.Orange

Orange認為數(shù)據(jù)挖掘應(yīng)該是“碩果累累狂塘、妙趣橫生”录煤,無論你是有多年的豐富經(jīng)驗,還是剛開始接觸這個領(lǐng)域荞胡。它提供了可視化編程和Python腳本工具妈踊,可用于數(shù)據(jù)可視化和分析。

支持的操作系統(tǒng):Windows泪漂、Linux和OS X廊营。

相關(guān)鏈接:http://orange.biolab.si

47.RapidMiner

RapidMiner聲稱擁有250000多個用戶,包括貝寶萝勤、德勤赘风、電子港灣、思科和大眾纵刘。它提供一系列廣泛的開源版和收費版邀窃,不過要注意:免費的開源版只支持CSV格式或Excel格式的數(shù)據(jù)。

支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)假哎。

相關(guān)鏈接:https://rapidminer.com

48.Rattle

Rattle的全稱是“易學易用的R分析工具”瞬捕。它為R編程語言提供了一種圖形化界面,簡化了這些過程:構(gòu)建數(shù)據(jù)的統(tǒng)計或可視化摘要舵抹、構(gòu)建模型以及執(zhí)行數(shù)據(jù)轉(zhuǎn)換肪虎。

支持的操作系統(tǒng):Windows、Linux和OS X惧蛹。

相關(guān)鏈接:http://rattle.togaware.com

49.SPMF

SPMF現(xiàn)在包括93種算法扇救,可用于順序模式挖掘、關(guān)聯(lián)規(guī)則挖掘香嗓、項集挖掘迅腔、順序規(guī)則挖掘和集群。它可以獨立使用靠娱,也可以整合到其他基于Java的程序中沧烈。

支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。

相關(guān)鏈接:http://www.philippe-fournier-viger.com/spmf/

50.Weka

懷卡托知識分析環(huán)境(Weka)是一組基于Java的機器學習算法像云,面向數(shù)據(jù)挖掘锌雀。它可以執(zhí)行數(shù)據(jù)預處理、分類迅诬、遞歸腋逆、集群、關(guān)聯(lián)規(guī)則和可視化侈贷。

支持的操作系統(tǒng):Windows惩歉、Linux和OS X。

相關(guān)鏈接:http://www.cs.waikato.ac.nz/~ml/weka/

六、查詢引擎

51.Drill

這個Apache項目讓用戶可以使用基于SQL的查詢柬泽,查詢Hadoop慎菲、NoSQL數(shù)據(jù)庫和云存儲服務(wù)。它可用于數(shù)據(jù)挖掘和即席查詢锨并,它支持一系列廣泛的數(shù)據(jù)庫露该,包括HBase、MongoDB第煮、MapR-DB解幼、HDFS、MapR-FS包警、亞馬遜S3撵摆、Azure Blob Storage、谷歌云存儲和Swift害晦。

支持的操作系統(tǒng):Windows特铝、Linux和OS X。

相關(guān)鏈接:http://drill.apache.org

七壹瘟、編程語言

52.R

R類似S語言和環(huán)境鲫剿,旨在處理統(tǒng)計計算和圖形。它包括一套整合的大數(shù)據(jù)工具稻轨,可用于數(shù)據(jù)處理灵莲、計算和可視化。

支持的操作系統(tǒng):Windows殴俱、Linux和OS X政冻。

相關(guān)鏈接:http://www.r-project.org

53.ECL

企業(yè)控制語言(ECL)是開發(fā)人員用來在HPCC平臺上構(gòu)建大數(shù)據(jù)應(yīng)用程序的語言。HPCC Systems官方網(wǎng)站上有集成開發(fā)環(huán)境(IDE)线欲、教程以及處理該語言的眾多相關(guān)工具明场。

支持的操作系統(tǒng):Linux。

相關(guān)鏈接:http://hpccsystems.com/download/docs/ecl-language-reference

八询筏、大數(shù)據(jù)搜索

54.Lucene

基于Java的Lucene可以非常迅速地執(zhí)行全文搜索榕堰。據(jù)官方網(wǎng)站聲稱,它在現(xiàn)代硬件上每小時能夠檢索超過150GB的數(shù)據(jù)嫌套,它含有強大而高效的搜索算法。開發(fā)工作得到了Apache軟件基金會的贊助圾旨。

支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)踱讨。

相關(guān)鏈接:http://lucene.apache.org/core/

55.Solr

Solr基于Apache Lucene,是一種高度可靠砍的、高度擴展的企業(yè)搜索平臺痹筛。知名用戶包括eHarmony、西爾斯、StubHub帚稠、Zappos谣旁、百思買、AT&T滋早、Instagram榄审、Netflix、彭博社和Travelocity杆麸。

支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)搁进。

相關(guān)鏈接:http://lucene.apache.org/solr/

九、內(nèi)存中技術(shù)

56.Ignite

這個Apache項目自稱是“一種高性能昔头、整合式饼问、分布式的內(nèi)存中平臺,可用于對大規(guī)模數(shù)據(jù)集執(zhí)行實時計算和處理揭斧,速度比傳統(tǒng)的基于磁盤的技術(shù)或閃存技術(shù)高出好幾個數(shù)量級莱革。”該平臺包括數(shù)據(jù)網(wǎng)格讹开、計算網(wǎng)格盅视、服務(wù)網(wǎng)格、流媒體萧吠、Hadoop加速左冬、高級集群、文件系統(tǒng)纸型、消息傳遞拇砰、事件和數(shù)據(jù)結(jié)構(gòu)等功能。

支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)狰腌。

相關(guān)鏈接:https://ignite.incubator.apache.org

57.Terracotta

Terracotta聲稱其BigMemory技術(shù)是“世界上數(shù)一數(shù)二的內(nèi)存中數(shù)據(jù)管理平臺”除破,聲稱擁有210萬開發(fā)人員,250家企業(yè)組織部署了其軟件琼腔。該公司還提供商業(yè)版軟件瑰枫,另外提供支持、咨詢和培訓等服務(wù)丹莲。

支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)光坝。

相關(guān)鏈接:http://www.terracotta.org

58.Pivotal GemFire/Geode

今年早些時候,Pivotal宣布它將開放其大數(shù)據(jù)套件關(guān)鍵組件的源代碼甥材,其中包括GemFire內(nèi)存中NoSQL數(shù)據(jù)庫盯另。它已向Apache軟件基金會遞交了一項提案,以便在“Geode”的名下管理GemFire數(shù)據(jù)庫的核心引擎洲赵。還提供該軟件的商業(yè)版鸳惯。

支持的操作系統(tǒng):Windows和Linux商蕴。

相關(guān)鏈接:http://pivotal.io/big-data/pivotal-gemfire

59.GridGain

由Apache Ignite驅(qū)動的GridGrain提供內(nèi)存中數(shù)據(jù)結(jié)構(gòu),用于迅速處理大數(shù)據(jù)芝发,還提供基于同一技術(shù)的Hadoop加速器绪商。它既有收費的企業(yè)版,也有免費的社區(qū)版辅鲸,后者包括免費的基本支持格郁。

支持的操作系統(tǒng):Windows、Linux和OS X瓢湃。

相關(guān)鏈接:http://www.gridgain.com

60.Infinispan

作為一個紅帽JBoss項目理张,基于Java的Infinispan是一種分布式內(nèi)存中數(shù)據(jù)網(wǎng)格。它可以用作緩存绵患、用作高性能NoSQL數(shù)據(jù)庫雾叭,或者為諸多框架添加集群功能。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)落蝙。
作者: LinkinPark

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末织狐,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子筏勒,更是在濱河造成了極大的恐慌移迫,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,820評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件管行,死亡現(xiàn)場離奇詭異厨埋,居然都是意外死亡,警方通過查閱死者的電腦和手機捐顷,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,648評論 3 399
  • 文/潘曉璐 我一進店門荡陷,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人迅涮,你說我怎么就攤上這事废赞。” “怎么了叮姑?”我有些...
    開封第一講書人閱讀 168,324評論 0 360
  • 文/不壞的土叔 我叫張陵唉地,是天一觀的道長。 經(jīng)常有香客問我传透,道長耘沼,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,714評論 1 297
  • 正文 為了忘掉前任朱盐,我火速辦了婚禮耕拷,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘托享。我一直安慰自己骚烧,他們只是感情好,可當我...
    茶點故事閱讀 68,724評論 6 397
  • 文/花漫 我一把揭開白布闰围。 她就那樣靜靜地躺著赃绊,像睡著了一般。 火紅的嫁衣襯著肌膚如雪羡榴。 梳的紋絲不亂的頭發(fā)上碧查,一...
    開封第一講書人閱讀 52,328評論 1 310
  • 那天,我揣著相機與錄音校仑,去河邊找鬼忠售。 笑死,一個胖子當著我的面吹牛迄沫,可吹牛的內(nèi)容都是我干的稻扬。 我是一名探鬼主播,決...
    沈念sama閱讀 40,897評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼羊瘩,長吁一口氣:“原來是場噩夢啊……” “哼泰佳!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起尘吗,我...
    開封第一講書人閱讀 39,804評論 0 276
  • 序言:老撾萬榮一對情侶失蹤逝她,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后睬捶,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體黔宛,經(jīng)...
    沈念sama閱讀 46,345評論 1 318
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,431評論 3 340
  • 正文 我和宋清朗相戀三年擒贸,在試婚紗的時候發(fā)現(xiàn)自己被綠了臀晃。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,561評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡酗宋,死狀恐怖积仗,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情蜕猫,我是刑警寧澤寂曹,帶...
    沈念sama閱讀 36,238評論 5 350
  • 正文 年R本政府宣布,位于F島的核電站回右,受9級特大地震影響隆圆,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜翔烁,卻給世界環(huán)境...
    茶點故事閱讀 41,928評論 3 334
  • 文/蒙蒙 一渺氧、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧蹬屹,春花似錦侣背、人聲如沸白华。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,417評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽弧腥。三九已至,卻和暖如春潮太,著一層夾襖步出監(jiān)牢的瞬間管搪,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,528評論 1 272
  • 我被黑心中介騙來泰國打工铡买, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留更鲁,地道東北人。 一個月前我還...
    沈念sama閱讀 48,983評論 3 376
  • 正文 我出身青樓奇钞,卻偏偏與公主長得像澡为,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子蛇券,可洞房花燭夜當晚...
    茶點故事閱讀 45,573評論 2 359

推薦閱讀更多精彩內(nèi)容