不管會不會关筒,先混個耳熟.....
說到處理大數(shù)據(jù)的工具秋泳,普通的開源解決方案(尤其是Apache Hadoop)堪稱中流砥柱献丑。弗雷斯特調(diào)研公司的分析師Mike Gualtieri最近預(yù)測,在接下來幾年咐熙,“100%的大公司”會采用Hadoop挺举。Market Research的一份報告預(yù)測杀赢,到2011年,Hadoop市場會以58%的年復(fù)合增長率(CAGR)高速增長湘纵;到2020年脂崔,市場產(chǎn)值會超過10億美元。IBM更是非澄嗯纾看好開源大數(shù)據(jù)工具砌左,派出了3500名研究人員開發(fā)Apache Spark,這個工具是Hadoop生態(tài)系統(tǒng)的一部分铺敌。
這回我們推出了最新的頂級開源大數(shù)據(jù)工具排行榜汇歹。這個領(lǐng)域最近方興未艾,許多新項目紛紛啟動偿凭。許多最知名的項目由Apache基金會管理产弹,與Hadoop密切相關(guān)。
請注意:本文不是要搞什么排名弯囊;相反痰哨,項目按類別加以介紹。與往常一樣匾嘱,要是你知道另外的開源大數(shù)據(jù)及/或Hadoop工具應(yīng)該榜上有名斤斧,歡迎留言交流。
一霎烙、Hadoop相關(guān)工具
- Hadoop
Apache的Hadoop項目已幾乎與大數(shù)據(jù)劃上了等號折欠。它不斷壯大起來,已成為一個完整的生態(tài)系統(tǒng)吼过,眾多開源工具面向高度擴展的分布式計算。
支持的操作系統(tǒng):Windows咪奖、Linux和OS X盗忱。
相關(guān)鏈接:http://hadoop.apache.org - Ambari
作為Hadoop生態(tài)系統(tǒng)的一部分,這個Apache項目提供了基于Web的直觀界面羊赵,可用于配置趟佃、管理和監(jiān)控Hadoop集群扇谣。有些開發(fā)人員想把Ambari的功能整合到自己的應(yīng)用程序當(dāng)中,Ambari也為他們提供了充分利用REST(代表性狀態(tài)傳輸協(xié)議)的API闲昭。
支持的操作系統(tǒng):Windows罐寨、Linux和OS X。
相關(guān)鏈接:http://ambari.apache.org - Avro
這個Apache項目提供了數(shù)據(jù)序列化系統(tǒng)序矩,擁有豐富的數(shù)據(jù)結(jié)構(gòu)和緊湊格式鸯绿。模式用JSON來定義,它很容易與動態(tài)語言整合起來簸淀。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)瓶蝴。
相關(guān)鏈接:http://avro.apache.org - Cascading
Cascading是一款基于Hadoop的應(yīng)用程序開發(fā)平臺。提供商業(yè)支持和培訓(xùn)服務(wù)租幕。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)舷手。
相關(guān)鏈接:http://www.cascading.org/projects/cascading/ - Chukwa
Chukwa基于Hadoop,可以收集來自大型分布式系統(tǒng)的數(shù)據(jù)劲绪,用于監(jiān)控男窟。它還含有用于分析和顯示數(shù)據(jù)的工具。
支持的操作系統(tǒng):Linux和OS X贾富。
相關(guān)鏈接:http://chukwa.apache.org - Flume
Flume可以從其他應(yīng)用程序收集日志數(shù)據(jù)歉眷,然后將這些數(shù)據(jù)送入到Hadoop。官方網(wǎng)站聲稱:“它功能強大祷安、具有容錯性姥芥,還擁有可以調(diào)整優(yōu)化的可靠性機制和許多故障切換及恢復(fù)機制』惚蓿”
支持的操作系統(tǒng):Linux和OS X凉唐。
相關(guān)鏈接:https://cwiki.apache.org/confluence/display/FLUME/Home - HBase
HBase是為有數(shù)十億行和數(shù)百萬列的超大表設(shè)計的,這是一種分布式數(shù)據(jù)庫霍骄,可以對大數(shù)據(jù)進行隨機性的實時讀取/寫入訪問台囱。它有點類似谷歌的Bigtable,不過基于Hadoop和Hadoop分布式文件系統(tǒng)(HDFS)而建读整。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)簿训。
相關(guān)鏈接:http://hbase.apache.org - Hadoop分布式文件系統(tǒng)(HDFS)
HDFS是面向Hadoop的文件系統(tǒng),不過它也可以用作一種獨立的分布式文件系統(tǒng)米间。它基于Java强品,具有容錯性、高度擴展性和高度配置性屈糊。
支持的操作系統(tǒng):Windows的榛、Linux和OS X。
相關(guān)鏈接:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HdfsUserGuide.html - Hive
Apache Hive是面向Hadoop生態(tài)系統(tǒng)的數(shù)據(jù)倉庫逻锐。它讓用戶可以使用HiveQL查詢和管理大數(shù)據(jù)夫晌,這是一種類似SQL的語言雕薪。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。
相關(guān)鏈接:http://hive.apache.org - Hivemall
Hivemall結(jié)合了面向Hive的多種機器學(xué)習(xí)算法晓淀。它包括諸多高度擴展性算法所袁,可用于數(shù)據(jù)分類、遞歸凶掰、推薦燥爷、k最近鄰、異常檢測和特征哈希锄俄。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)局劲。
相關(guān)鏈接:https://github.com/myui/hivemall - Mahout
據(jù)官方網(wǎng)站聲稱,Mahout項目的目的是“為迅速構(gòu)建可擴展奶赠、高性能的機器學(xué)習(xí)應(yīng)用程序打造一個環(huán)境鱼填。”它包括用于在Hadoop MapReduce上進行數(shù)據(jù)挖掘的眾多算法毅戈,還包括一些面向Scala和Spark環(huán)境的新穎算法苹丸。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。
相關(guān)鏈接:http://mahout.apache.org - MapReduce
作為Hadoop一個不可或缺的部分苇经,MapReduce這種編程模型為處理大型分布式數(shù)據(jù)集提供了一種方法赘理。它最初是由谷歌開發(fā)的,但現(xiàn)在也被本文介紹的另外幾個大數(shù)據(jù)工具所使用扇单,包括CouchDB商模、MongoDB和Riak。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)蜘澜。
相關(guān)鏈接:http://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html - Oozie
這種工作流程調(diào)度工具是為了管理Hadoop任務(wù)而專門設(shè)計的施流。它能夠按照時間或按照數(shù)據(jù)可用情況觸發(fā)任務(wù),并與MapReduce鄙信、Pig瞪醋、Hive、Sqoop及其他許多相關(guān)工具整合起來装诡。
支持的操作系統(tǒng):Linux和OS X银受。
相關(guān)鏈接:http://oozie.apache.org - Pig
Apache Pig是一種面向分布式大數(shù)據(jù)分析的平臺。它依賴一種名為Pig Latin的編程語言鸦采,擁有簡化的并行編程宾巍、優(yōu)化和可擴展性等優(yōu)點。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)渔伯。
相關(guān)鏈接:http://pig.apache.org - Sqoop
企業(yè)經(jīng)常需要在關(guān)系數(shù)據(jù)庫與Hadoop之間傳輸數(shù)據(jù)顶霞,而Sqoop就是能完成這項任務(wù)的一款工具。它可以將數(shù)據(jù)導(dǎo)入到Hive或HBase咱旱,并從Hadoop導(dǎo)出到關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)确丢。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。
相關(guān)鏈接:http://sqoop.apache.org - Spark
作為MapReduce之外的一種選擇吐限,Spark是一種數(shù)據(jù)處理引擎鲜侥。它聲稱,用在內(nèi)存中時诸典,其速度比MapReduce最多快100倍描函;用在磁盤上時,其速度比MapReduce最多快10倍狐粱。它可以與Hadoop和Apache Mesos一起使用舀寓,也可以獨立使用。
支持的操作系統(tǒng):Windows肌蜻、Linux和OS X互墓。
相關(guān)鏈接:http://spark.apache.org - Tez
Tez建立在Apache Hadoop YARN的基礎(chǔ)上,這是“一種應(yīng)用程序框架蒋搜,允許為任務(wù)構(gòu)建一種復(fù)雜的有向無環(huán)圖篡撵,以便處理數(shù)據(jù)《雇欤”它讓Hive和Pig可以簡化復(fù)雜的任務(wù)育谬,而這些任務(wù)原本需要多個步驟才能完成。
支持的操作系統(tǒng):Windows帮哈、Linux和OS X膛檀。
相關(guān)鏈接:http://tez.apache.org - Zookeeper
這種大數(shù)據(jù)管理工具自稱是“一項集中式服務(wù),可用于維護配置信息娘侍、命名咖刃、提供分布式同步以及提供群組服務(wù)∷嚼伲”它讓Hadoop集群里面的節(jié)點可以彼此協(xié)調(diào)僵缺。
支持的操作系統(tǒng):Linux、Windows(只適合開發(fā)環(huán)境)和OS X(只適合開發(fā)環(huán)境)踩叭。
相關(guān)鏈接:http://zookeeper.apache.org
二磕潮、大數(shù)據(jù)分析平臺和工具
- Disco
Disco最初由諾基亞開發(fā),這是一種分布式計算框架容贝,與Hadoop一樣自脯,它也基于MapReduce闷哆。它包括一種分布式文件系統(tǒng)以及支持數(shù)十億個鍵和值的數(shù)據(jù)庫这橙。
支持的操作系統(tǒng):Linux和OS X不从。
相關(guān)鏈接:http://discoproject.org - HPCC
作為Hadoop之外的一種選擇价脾,HPCC這種大數(shù)據(jù)平臺承諾速度非澄赫幔快,擴展性超強理疙。除了免費社區(qū)版外齿梁,HPCC Systems還提供收費的企業(yè)版、收費模塊叠纷、培訓(xùn)刻帚、咨詢及其他服務(wù)。
支持的操作系統(tǒng):Linux涩嚣。
相關(guān)鏈接:http://hpccsystems.com - Lumify
Lumify歸Altamira科技公司(以國家安全技術(shù)而聞名)所有崇众,這是一種開源大數(shù)據(jù)整合、分析和可視化平臺航厚。你只要在Try.Lumify.io試一下演示版顷歌,就能看看它的實際效果。
支持的操作系統(tǒng):Linux幔睬。
相關(guān)鏈接:http://www.jboss.org/infinispan.html - Pandas
Pandas項目包括基于Python編程語言的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)分析工具眯漩。它讓企業(yè)組織可以將Python用作R之外的一種選擇,用于大數(shù)據(jù)分析項目溪窒。
支持的操作系統(tǒng):Windows坤塞、Linux和OS X。
相關(guān)鏈接:http://pandas.pydata.org - Storm
Storm現(xiàn)在是一個Apache項目澈蚌,它提供了實時處理大數(shù)據(jù)的功能(不像Hadoop只提供批任務(wù)處理)摹芙。其用戶包括推特、美國天氣頻道宛瞄、WebMD浮禾、阿里巴巴、Yelp份汗、雅虎日本盈电、Spotify、Group杯活、Flipboard及其他許多公司匆帚。
支持的操作系統(tǒng):Linux。
相關(guān)鏈接:https://storm.apache.org
三旁钧、數(shù)據(jù)庫/數(shù)據(jù)倉庫
- Blazegraph
Blazegraph之前名為“Bigdata”吸重,這是一種高度擴展、高性能的數(shù)據(jù)庫歪今。它既有使用開源許可證的版本嚎幸,也有使用商業(yè)許可證的版本。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)寄猩。
相關(guān)鏈接:http://www.systap.com/bigdata - Cassandra
這種NoSQL數(shù)據(jù)庫最初由Facebook開發(fā)嫉晶,現(xiàn)已被1500多家企業(yè)組織使用,包括蘋果、歐洲原子核研究組織(CERN)替废、康卡斯特箍铭、電子港灣、GitHub椎镣、GoDaddy坡疼、Hulu、Instagram衣陶、Intuit、Netfilx闸氮、Reddit及其他機構(gòu)剪况。它能支持超大規(guī)模集群;比如說蒲跨,蘋果部署的Cassandra系統(tǒng)就包括75000多個節(jié)點译断,擁有的數(shù)據(jù)量超過10 PB。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)或悲。
相關(guān)鏈接:http://cassandra.apache.org - CouchDB
CouchDB號稱是“一款完全擁抱互聯(lián)網(wǎng)的數(shù)據(jù)庫”孙咪,它將數(shù)據(jù)存儲在JSON文檔中,這種文檔可以通過Web瀏覽器來查詢巡语,并且用JavaScript來處理翎蹈。它易于使用,在分布式上網(wǎng)絡(luò)上具有高可用性和高擴展性男公。
支持的操作系統(tǒng):Windows荤堪、Linux、OS X和安卓枢赔。
相關(guān)鏈接:http://couchdb.apache.org - FlockDB
由推特開發(fā)的FlockDB是一種非吵窝簦快、擴展性非常好的圖形數(shù)據(jù)庫踏拜,擅長存儲社交網(wǎng)絡(luò)數(shù)據(jù)碎赢。雖然它仍可用于下載,但是這個項目的開源版已有一段時間沒有更新了速梗。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)肮塞。
相關(guān)鏈接:https://github.com/twitter/flockdb - Hibari
這個基于Erlang的項目自稱是“一種分布式有序鍵值存儲系統(tǒng),保證擁有很強的一致性”镀琉。它最初是由Gemini Mobile Technologies開發(fā)的峦嗤,現(xiàn)在已被歐洲和亞洲的幾家電信運營商所使用。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)屋摔。
相關(guān)鏈接:http://hibari.github.io/hibari-doc/ - Hypertable
Hypertable是一種與Hadoop兼容的大數(shù)據(jù)數(shù)據(jù)庫烁设,承諾性能超高,其用戶包括電子港灣、百度装黑、高朋副瀑、Yelp及另外許多互聯(lián)網(wǎng)公司。提供商業(yè)支持服務(wù)恋谭。
支持的操作系統(tǒng):Linux和OS X糠睡。
相關(guān)鏈接:http://hypertable.org - Impala
Cloudera聲稱,基于SQL的Impala數(shù)據(jù)庫是“面向Apache Hadoop的領(lǐng)先的開源分析數(shù)據(jù)庫”疚颊。它可以作為一款獨立產(chǎn)品來下載狈孔,又是Cloudera的商業(yè)大數(shù)據(jù)產(chǎn)品的一部分。
支持的操作系統(tǒng):Linux和OS X材义。
相關(guān)鏈接:http://www.cloudera.com/content/cloudera/en/products-and-services/cdh/impala.html - InfoBright社區(qū)版
InfoBright為數(shù)據(jù)分析而設(shè)計均抽,這是一種面向列的數(shù)據(jù)庫,具有很高的壓縮比其掂。InfoBright.com提供基于同一代碼的收費產(chǎn)品油挥,提供支持服務(wù)。
支持的操作系統(tǒng):Windows和Linux款熬。
相關(guān)鏈接:http://www.infobright.org - MongoDB
mongoDB的下載量已超過1000萬人次深寥,這是一種極其受歡迎的NoSQL數(shù)據(jù)庫。MongoDB.com上提供了企業(yè)版贤牛、支持惋鹅、培訓(xùn)及相關(guān)產(chǎn)品和服務(wù)。
支持的操作系統(tǒng):Windows殉簸、Linux负饲、OS X和Solaris。
相關(guān)鏈接:http://www.mongodb.org - Neo4j
Neo4j自稱是“速度最快喂链、擴展性最佳的原生圖形數(shù)據(jù)庫”返十,它承諾具有大規(guī)模擴展性、快速的密碼查詢性能和經(jīng)過改進的開發(fā)效率椭微。用戶包括電子港灣洞坑、必能寶(Pitney Bowes)、沃爾瑪蝇率、德國漢莎航空公司和CrunchBase迟杂。
支持的操作系統(tǒng):Windows和Linux。
相關(guān)鏈接:http://neo4j.org - OrientDB
這款多模型數(shù)據(jù)庫結(jié)合了圖形數(shù)據(jù)庫的一些功能和文檔數(shù)據(jù)庫的一些功能本慕。提供收費支持排拷、培訓(xùn)和咨詢等服務(wù)。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)锅尘。
相關(guān)鏈接:http://www.orientdb.org/index.htm - Pivotal Greenplum Database
Pivotal聲稱监氢,Greenplum是“同類中最佳的企業(yè)級分析數(shù)據(jù)庫”,能夠非常快速地對龐大的海量數(shù)據(jù)進行功能強大的分析浪腐。它是Pivotal大數(shù)據(jù)庫套件的一部分纵揍。
支持的操作系統(tǒng):Windows、Linux和OS X议街。
相關(guān)鏈接:http://pivotal.io/big-data/pivotal-greenplum-database - Riak
Riak“功能完備”泽谨,有兩個版本:KV是分布式NoSQL數(shù)據(jù)庫,S2提供了面向云環(huán)境的對象存儲特漩。它既有開源版吧雹,也有商業(yè)版,還有支持Spark涂身、Redis和Solr的附件吮炕。
支持的操作系統(tǒng):Linux和OS X。
相關(guān)鏈接:http://basho.com/riak-0-10-is-full-of-great-stuff/ - Redis
Redis現(xiàn)在由Pivotal贊助访得,這是一種鍵值緩存和存儲系統(tǒng)。提供收費支持陕凹。要注意:雖然該項目并不正式支持Windows悍抑,不過微軟在GitHub上有一個Windows派生版。
支持的操作系統(tǒng):Linux杜耙。
相關(guān)鏈接:http://redis.io
四搜骡、商業(yè)智能
- Talend Open Studio
Talend的下載量已超過200萬人次,其開源軟件提供了數(shù)據(jù)整合功能佑女。該公司還開發(fā)收費的大數(shù)據(jù)记靡、云、數(shù)據(jù)整合团驱、應(yīng)用程序整合和主數(shù)據(jù)管理等工具摸吠。其用戶包括美國國際集團(AIG)、康卡斯特嚎花、電子港灣寸痢、通用電氣、三星紊选、Ticketmaster和韋里遜等企業(yè)組織啼止。
支持的操作系統(tǒng):Windows、Linux和OS X兵罢。
相關(guān)鏈接:http://www.talend.com/index.php - Jaspersoft
Jaspersoft提供了靈活献烦、可嵌入的商業(yè)智能工具,用戶包括眾多企業(yè)組織:高朋卖词、冠群科技巩那、美國農(nóng)業(yè)部、愛立信、時代華納有線電視拢操、奧林匹克鋼鐵锦亦、內(nèi)斯拉斯加大學(xué)和通用動力公司。除了開源社區(qū)版外令境,它還提供收費的報表版杠园、亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)版、專業(yè)版和企業(yè)版舔庶。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)抛蚁。
相關(guān)鏈接:http://www.jaspersoft.com - Pentaho
Pentaho歸日立數(shù)據(jù)系統(tǒng)公司所有,它提供了一系列數(shù)據(jù)整合和業(yè)務(wù)分析工具惕橙。官方網(wǎng)站上提供了三個社區(qū)版瞧甩;訪問Pentaho.com,即可了解收費支持版方面的信息弥鹦。
支持的操作系統(tǒng):Windows肚逸、Linux和OS X。
相關(guān)鏈接:http://community.pentaho.com - SpagoBI
Spago被市場分析師們稱為“開源領(lǐng)袖”彬坏,它提供商業(yè)智能朦促、中間件和質(zhì)量保證軟件,另外還提供Java EE應(yīng)用程序開發(fā)框架栓始。該軟件百分之分免費务冕、開源,不過也提供收費的支持幻赚、咨詢禀忆、培訓(xùn)及其他服務(wù)。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)落恼。
相關(guān)鏈接:http://www.spagoworld.org/xwiki/bin/view/SpagoWorld/ - KNIME
KNIME的全稱是“康斯坦茨信息挖掘工具”(Konstanz Information Miner)箩退,這是一種開源分析和報表平臺。提供了幾個商業(yè)和開源擴展件佳谦,以增強其功能乏德。
支持的操作系統(tǒng):Windows、Linux和OS X吠昭。
相關(guān)鏈接:http://www.knime.org - BIRT
BIRT的全稱是“商業(yè)智能和報表工具”喊括。它提供的一種平臺可用于制作可以嵌入到應(yīng)用程序和網(wǎng)站中的可視化元素及報表。它是Eclipse社區(qū)的一部分矢棚,得到了Actuate郑什、IBM和Innovent Solutions的支持。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)蒲肋。
相關(guān)鏈接:http://www.eclipse.org/birt/
五蘑拯、數(shù)據(jù)挖掘
44.DataMelt
作為jHepWork的后續(xù)者钝满,DataMelt可以處理數(shù)學(xué)運算、數(shù)據(jù)挖掘申窘、統(tǒng)計分析和數(shù)據(jù)可視化等任務(wù)弯蚜。它支持Java及相關(guān)的編程語言,包括Jython剃法、Groovy碎捺、JRuby和Beanshell。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)贷洲。
相關(guān)鏈接:http://jwork.org/dmelt/
- KEEL
KEEL的全稱是“基于進化學(xué)習(xí)的知識提取”收厨,這是一種基于Java的機器學(xué)習(xí)工具,為一系列大數(shù)據(jù)任務(wù)提供了算法优构。它還有助于評估算法在處理遞歸诵叁、分類、集群钦椭、模式挖掘及類似任務(wù)時的效果拧额。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。
相關(guān)鏈接:http://keel.es - Orange
Orange認為數(shù)據(jù)挖掘應(yīng)該是“碩果累累彪腔、妙趣橫生”侥锦,無論你是有多年的豐富經(jīng)驗,還是剛開始接觸這個領(lǐng)域漫仆。它提供了可視化編程和Python腳本工具,可用于數(shù)據(jù)可視化和分析泪幌。
支持的操作系統(tǒng):Windows盲厌、Linux和OS X。
相關(guān)鏈接:http://orange.biolab.si - RapidMiner
RapidMiner聲稱擁有250000多個用戶祸泪,包括貝寶吗浩、德勤、電子港灣没隘、思科和大眾懂扼。它提供一系列廣泛的開源版和收費版,不過要注意:免費的開源版只支持CSV格式或Excel格式的數(shù)據(jù)右蒲。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)阀湿。
相關(guān)鏈接:https://rapidminer.com - Rattle
Rattle的全稱是“易學(xué)易用的R分析工具”。它為R編程語言提供了一種圖形化界面瑰妄,簡化了這些過程:構(gòu)建數(shù)據(jù)的統(tǒng)計或可視化摘要陷嘴、構(gòu)建模型以及執(zhí)行數(shù)據(jù)轉(zhuǎn)換。
支持的操作系統(tǒng):Windows间坐、Linux和OS X灾挨。
相關(guān)鏈接:http://rattle.togaware.com - SPMF
SPMF現(xiàn)在包括93種算法邑退,可用于順序模式挖掘、關(guān)聯(lián)規(guī)則挖掘劳澄、項集挖掘地技、順序規(guī)則挖掘和集群。它可以獨立使用秒拔,也可以整合到其他基于Java的程序中莫矗。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。
相關(guān)鏈接:http://www.philippe-fournier-viger.com/spmf/ - Weka
懷卡托知識分析環(huán)境(Weka)是一組基于Java的機器學(xué)習(xí)算法溯警,面向數(shù)據(jù)挖掘趣苏。它可以執(zhí)行數(shù)據(jù)預(yù)處理、分類梯轻、遞歸食磕、集群、關(guān)聯(lián)規(guī)則和可視化喳挑。
支持的操作系統(tǒng):Windows彬伦、Linux和OS X。
相關(guān)鏈接:http://www.cs.waikato.ac.nz/~ml/weka/
六伊诵、查詢引擎
- Drill
這個Apache項目讓用戶可以使用基于SQL的查詢单绑,查詢Hadoop、NoSQL數(shù)據(jù)庫和云存儲服務(wù)曹宴。它可用于數(shù)據(jù)挖掘和即席查詢搂橙,它支持一系列廣泛的數(shù)據(jù)庫,包括HBase笛坦、MongoDB区转、MapR-DB、HDFS版扩、MapR-FS废离、亞馬遜S3、Azure Blob Storage礁芦、谷歌云存儲和Swift蜻韭。
支持的操作系統(tǒng):Windows、Linux和OS X柿扣。
相關(guān)鏈接:http://drill.apache.org
七肖方、編程語言
- R
R類似S語言和環(huán)境,旨在處理統(tǒng)計計算和圖形未状。它包括一套整合的大數(shù)據(jù)工具窥妇,可用于數(shù)據(jù)處理、計算和可視化娩践。
支持的操作系統(tǒng):Windows活翩、Linux和OS X烹骨。
相關(guān)鏈接:http://www.r-project.org - ECL
企業(yè)控制語言(ECL)是開發(fā)人員用來在HPCC平臺上構(gòu)建大數(shù)據(jù)應(yīng)用程序的語言。HPCC Systems官方網(wǎng)站上有集成開發(fā)環(huán)境(IDE)材泄、教程以及處理該語言的眾多相關(guān)工具沮焕。
支持的操作系統(tǒng):Linux。
相關(guān)鏈接:http://hpccsystems.com/download/docs/ecl-language-reference
八拉宗、大數(shù)據(jù)搜索
- Lucene
基于Java的Lucene可以非常迅速地執(zhí)行全文搜索峦树。據(jù)官方網(wǎng)站聲稱,它在現(xiàn)代硬件上每小時能夠檢索超過150GB的數(shù)據(jù)旦事,它含有強大而高效的搜索算法魁巩。開發(fā)工作得到了Apache軟件基金會的贊助。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)姐浮。
相關(guān)鏈接:http://lucene.apache.org/core/ - Solr
Solr基于Apache Lucene谷遂,是一種高度可靠、高度擴展的企業(yè)搜索平臺卖鲤。知名用戶包括eHarmony肾扰、西爾斯、StubHub蛋逾、Zappos集晚、百思買、AT&T区匣、Instagram偷拔、Netflix、彭博社和Travelocity亏钩。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)莲绰。
相關(guān)鏈接:http://lucene.apache.org/solr/
九、內(nèi)存中技術(shù) - Ignite
這個Apache項目自稱是“一種高性能铸屉、整合式钉蒲、分布式的內(nèi)存中平臺切端,可用于對大規(guī)模數(shù)據(jù)集執(zhí)行實時計算和處理彻坛,速度比傳統(tǒng)的基于磁盤的技術(shù)或閃存技術(shù)高出好幾個數(shù)量級√ぴ妫”該平臺包括數(shù)據(jù)網(wǎng)格昌屉、計算網(wǎng)格、服務(wù)網(wǎng)格茵瀑、流媒體间驮、Hadoop加速、高級集群马昨、文件系統(tǒng)竞帽、消息傳遞扛施、事件和數(shù)據(jù)結(jié)構(gòu)等功能。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)屹篓。
相關(guān)鏈接:https://ignite.incubator.apache.org - Terracotta
Terracotta聲稱其BigMemory技術(shù)是“世界上數(shù)一數(shù)二的內(nèi)存中數(shù)據(jù)管理平臺”疙渣,聲稱擁有210萬開發(fā)人員,250家企業(yè)組織部署了其軟件堆巧。該公司還提供商業(yè)版軟件妄荔,另外提供支持、咨詢和培訓(xùn)等服務(wù)谍肤。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)啦租。
相關(guān)鏈接:http://www.terracotta.org - Pivotal GemFire/Geode
今年早些時候,Pivotal宣布它將開放其大數(shù)據(jù)套件關(guān)鍵組件的源代碼荒揣,其中包括GemFire內(nèi)存中NoSQL數(shù)據(jù)庫篷角。它已向Apache軟件基金會遞交了一項提案,以便在“Geode”的名下管理GemFire數(shù)據(jù)庫的核心引擎乳附。還提供該軟件的商業(yè)版内地。
支持的操作系統(tǒng):Windows和Linux。
相關(guān)鏈接:http://pivotal.io/big-data/pivotal-gemfire - GridGain
由Apache Ignite驅(qū)動的GridGrain提供內(nèi)存中數(shù)據(jù)結(jié)構(gòu)赋除,用于迅速處理大數(shù)據(jù)阱缓,還提供基于同一技術(shù)的Hadoop加速器。它既有收費的企業(yè)版举农,也有免費的社區(qū)版荆针,后者包括免費的基本支持。
支持的操作系統(tǒng):Windows颁糟、Linux和OS X航背。
相關(guān)鏈接:http://www.gridgain.com - Infinispan
作為一個紅帽JBoss項目,基于Java的Infinispan是一種分布式內(nèi)存中數(shù)據(jù)網(wǎng)格棱貌。它可以用作緩存玖媚、用作高性能NoSQL數(shù)據(jù)庫,或者為諸多框架添加集群功能婚脱。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)今魔。