60款頂級大數(shù)據(jù)開源工具

//
推薦:60款頂級大數(shù)據(jù)開源工具
http://www.cnfffff.com/a/tj/678985.html

摘要:說到處理大數(shù)據(jù)的工具入蛆,普通的開源解決方案(尤其是Apache Hadoop)堪稱中流砥柱优烧。

弗雷斯特調(diào)研公司的分析師Mike Gualtieri最近預(yù)測翰撑,在接下來幾年,“100%的大公司”會采用Hadoop移宅。Market Research的一份報告預(yù)測畸肆,到2011年,Hadoop市場會以58%的年復(fù)合增長率(CAGR)高速增長句葵;到2020年厕鹃,市場產(chǎn)值會超過10億美元兢仰。

IBM更是非痴д桑看好開源大數(shù)據(jù)工具,派出了3500名研究人員開發(fā)Apache Spark把将,這個工具是Hadoop生態(tài)系統(tǒng)的一部分轻专。

這回我們推出了最新的頂級開源大數(shù)據(jù)工具排行榜。這個領(lǐng)域最近方興未艾察蹲,許多新項(xiàng)目紛紛啟動请垛。許多最知名的項(xiàng)目由Apache基金會管理,與Hadoop密切相關(guān)洽议。

請注意:本文不是要搞什么排名宗收;相反,項(xiàng)目按類別加以介紹亚兄。與往常一樣混稽,要是你知道另外的開源大數(shù)據(jù)及/或Hadoop工具應(yīng)該榜上有名,歡迎留言交流审胚。


Hadoop相關(guān)工具

  1. Hadoop
    Apache的Hadoop項(xiàng)目已幾乎與大數(shù)據(jù)劃上了等號匈勋。它不斷壯大起來,已成為一個完整的生態(tài)系統(tǒng)膳叨,眾多開源工具面向高度擴(kuò)展的分布式計(jì)算洽洁。
    支持的操作系統(tǒng):Windows、Linux和OS X菲嘴。
    相關(guān)鏈接:http://hadoop.apache.org

  2. Ambari
    作為Hadoop生態(tài)系統(tǒng)的一部分饿自,這個Apache項(xiàng)目提供了基于Web的直觀界面,可用于配置龄坪、管理和監(jiān)控Hadoop集群昭雌。有些開發(fā)人員想把Ambari的功能整合到自己的應(yīng)用程序當(dāng)中,Ambari也為他們提供了充分利用REST(代表性狀態(tài)傳輸協(xié)議)的API悉默。
    支持的操作系統(tǒng):Windows城豁、Linux和OS X。
    相關(guān)鏈接:http://ambari.apache.org

  3. Avro
    這個Apache項(xiàng)目提供了數(shù)據(jù)序列化系統(tǒng)抄课,擁有豐富的數(shù)據(jù)結(jié)構(gòu)和緊湊格式唱星。模式用JSON來定義,它很容易與動態(tài)語言整合起來跟磨。
    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)间聊。
    相關(guān)鏈接:http://avro.apache.org

  4. Cascading
    Cascading是一款基于Hadoop的應(yīng)用程序開發(fā)平臺。提供商業(yè)支持和培訓(xùn)服務(wù)抵拘。
    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)哎榴。
    相關(guān)鏈接:http://www.cascading.org/projects/cascading/

  5. Chukwa
    Chukwa基于Hadoop,可以收集來自大型分布式系統(tǒng)的數(shù)據(jù),用于監(jiān)控尚蝌。它還含有用于分析和顯示數(shù)據(jù)的工具迎变。
    支持的操作系統(tǒng):Linux和OS X。
    相關(guān)鏈接:http://chukwa.apache.org

  6. Flume
    Flume可以從其他應(yīng)用程序收集日志數(shù)據(jù)飘言,然后將這些數(shù)據(jù)送入到Hadoop衣形。官方網(wǎng)站聲稱:“它功能強(qiáng)大、具有容錯性姿鸿,還擁有可以調(diào)整優(yōu)化的可靠性機(jī)制和許多故障切換及恢復(fù)機(jī)制谆吴。”
    支持的操作系統(tǒng):Linux和OS X苛预。
    相關(guān)鏈接:https://cwiki.apache.org/confluence/display/FLUME/Home

  7. HBase
    HBase是為有數(shù)十億行和數(shù)百萬列的超大表設(shè)計(jì)的句狼,這是一種分布式數(shù)據(jù)庫,可以對大數(shù)據(jù)進(jìn)行隨機(jī)性的實(shí)時讀取/寫入訪問热某。它有點(diǎn)類似谷歌的Bigtable腻菇,不過基于Hadoop和Hadoop分布式文件系統(tǒng)(HDFS)而建。
    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)苫拍。
    相關(guān)鏈接:http://hbase.apache.org

  8. Hadoop分布式文件系統(tǒng)(HDFS)
    HDFS是面向Hadoop的文件系統(tǒng)芜繁,不過它也可以用作一種獨(dú)立的分布式文件系統(tǒng)。它基于Java骏令,具有容錯性垄提、高度擴(kuò)展性和高度配置性。
    支持的操作系統(tǒng):Windows铡俐、Linux和OS X。
    相關(guān)鏈接:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HdfsUserGuide.html

  9. Hive
    Apache Hive是面向Hadoop生態(tài)系統(tǒng)的數(shù)據(jù)倉庫审丘。它讓用戶可以使用HiveQL查詢和管理大數(shù)據(jù),這是一種類似SQL的語言滩报。
    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)锅知。
    相關(guān)鏈接:http://hive.apache.org

  10. Hivemall
    Hivemall結(jié)合了面向Hive的多種機(jī)器學(xué)習(xí)算法脓钾。它包括諸多高度擴(kuò)展性算法可训,可用于數(shù)據(jù)分類捶枢、遞歸烂叔、推薦蚜厉、k最近鄰昼牛、異常檢測和特征哈希贰健。
    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)伶椿。
    相關(guān)鏈接:https://github.com/myui/hivemall

  11. Mahout
    據(jù)官方網(wǎng)站聲稱氓侧,Mahout項(xiàng)目的目的是“為迅速構(gòu)建可擴(kuò)展、高性能的機(jī)器學(xué)習(xí)應(yīng)用程序打造一個環(huán)境偎痛〔嚷螅”它包括用于在Hadoop MapReduce上進(jìn)行數(shù)據(jù)挖掘的眾多算法氓癌,還包括一些面向Scala和Spark環(huán)境的新穎算法贪婉。
    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)疲迂。
    相關(guān)鏈接:http://mahout.apache.org

  12. MapReduce
    作為Hadoop一個不可或缺的部分鬼譬,MapReduce這種編程模型為處理大型分布式數(shù)據(jù)集提供了一種方法优质。它最初是由谷歌開發(fā)的,但現(xiàn)在也被本文介紹的另外幾個大數(shù)據(jù)工具所使用匕争,包括CouchDB爷耀、MongoDB和Riak歹叮。
    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)咆耿。
    相關(guān)鏈接:http://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html

  13. Oozie
    這種工作流程調(diào)度工具是為了管理Hadoop任務(wù)而專門設(shè)計(jì)的萨螺。它能夠按照時間或按照數(shù)據(jù)可用情況觸發(fā)任務(wù)慰技,并與MapReduce吻商、Pig、Hive蚯舱、Sqoop及其他許多相關(guān)工具整合起來枉昏。
    支持的操作系統(tǒng):Linux和OS X兄裂。
    相關(guān)鏈接:http://oozie.apache.org

  14. Pig
    Apache Pig是一種面向分布式大數(shù)據(jù)分析的平臺晰奖。它依賴一種名為Pig Latin的編程語言匾南,擁有簡化的并行編程蛆楞、優(yōu)化和可擴(kuò)展性等優(yōu)點(diǎn)。
    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)裆悄。
    相關(guān)鏈接:http://pig.apache.org

  15. Sqoop
    企業(yè)經(jīng)常需要在關(guān)系數(shù)據(jù)庫與Hadoop之間傳輸數(shù)據(jù)光稼,而Sqoop就是能完成這項(xiàng)任務(wù)的一款工具艾君。它可以將數(shù)據(jù)導(dǎo)入到Hive或HBase腻贰,并從Hadoop導(dǎo)出到關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)。
    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)伴奥。
    相關(guān)鏈接:http://sqoop.apache.org

  16. Spark
    作為MapReduce之外的一種選擇拾徙,Spark是一種數(shù)據(jù)處理引擎尼啡。它聲稱崖瞭,用在內(nèi)存中時书聚,其速度比MapReduce最多快100倍;用在磁盤上時雌续,其速度比MapReduce最多快10倍驯杜。它可以與Hadoop和Apache Mesos一起使用做个,也可以獨(dú)立使用。
    支持的操作系統(tǒng):Windows核畴、Linux和OS X谤草。
    相關(guān)鏈接:http://spark.apache.org

  17. Tez
    Tez建立在Apache Hadoop YARN的基礎(chǔ)上丑孩,這是“一種應(yīng)用程序框架温学,允許為任務(wù)構(gòu)建一種復(fù)雜的有向無環(huán)圖仗岖,以便處理數(shù)據(jù)轧拄¢莸纾”它讓Hive和Pig可以簡化復(fù)雜的任務(wù)俐末,而這些任務(wù)原本需要多個步驟才能完成卓箫。
    支持的操作系統(tǒng):Windows丽柿、Linux和OS X甫题。
    相關(guān)鏈接:http://tez.apache.org

  18. Zookeeper
    這種大數(shù)據(jù)管理工具自稱是“一項(xiàng)集中式服務(wù)坠非,可用于維護(hù)配置信息炎码、命名潦闲、提供分布式同步以及提供群組服務(wù)歉闰『途矗”它讓Hadoop集群里面的節(jié)點(diǎn)可以彼此協(xié)調(diào)昼弟。
    支持的操作系統(tǒng):Linux舱痘、Windows(只適合開發(fā)環(huán)境)和OS X(只適合開發(fā)環(huán)境)衰粹。
    相關(guān)鏈接:http://zookeeper.apache.org


大數(shù)據(jù)分析平臺和工具

  1. Disco
    Disco最初由諾基亞開發(fā)铝耻,這是一種分布式計(jì)算框架瓢捉,與Hadoop一樣泡态,它也基于MapReduce某弦。它包括一種分布式文件系統(tǒng)以及支持?jǐn)?shù)十億個鍵和值的數(shù)據(jù)庫靶壮。
    支持的操作系統(tǒng):Linux和OS X。
    相關(guān)鏈接:http://discoproject.org

  2. HPCC
    作為Hadoop之外的一種選擇螃壤,HPCC這種大數(shù)據(jù)平臺承諾速度非臣榍纾快寄啼,擴(kuò)展性超強(qiáng)辕录。除了免費(fèi)社區(qū)版外走诞,HPCC Systems還提供收費(fèi)的企業(yè)版蚣旱、收費(fèi)模塊塞绿、培訓(xùn)异吻、咨詢及其他服務(wù)诀浪。
    支持的操作系統(tǒng):Linux雷猪。
    相關(guān)鏈接:http://hpccsystems.com

  3. Lumify
    Lumify歸Altamira科技公司(以國家安全技術(shù)而聞名)所有求摇,這是一種開源大數(shù)據(jù)整合验夯、分析和可視化平臺簿姨。你只要在Try.Lumify.io試一下演示版扁位,就能看看它的實(shí)際效果域仇。
    支持的操作系統(tǒng):Linux暇务。
    相關(guān)鏈接:http://www.jboss.org/infinispan.html

  4. Pandas
    Pandas項(xiàng)目包括基于Python編程語言的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)分析工具择镇。它讓企業(yè)組織可以將Python用作R之外的一種選擇腻豌,用于大數(shù)據(jù)分析項(xiàng)目吝梅。
    支持的操作系統(tǒng):Windows苏携、Linux和OS X右冻。
    相關(guān)鏈接:http://pandas.pydata.org

  5. Storm
    Storm現(xiàn)在是一個Apache項(xiàng)目,它提供了實(shí)時處理大數(shù)據(jù)的功能(不像Hadoop只提供批任務(wù)處理)。其用戶包括推特峦萎、美國天氣頻道爱榔、WebMD详幽、阿里巴巴唇聘、Yelp剥险、雅虎日本表制、Spotify么介、Group壤短、Flipboard及其他許多公司鸽扁。
    支持的操作系統(tǒng):Linux。
    相關(guān)鏈接:https://storm.apache.org


數(shù)據(jù)庫/數(shù)據(jù)倉庫

  1. Blazegraph
    Blazegraph之前名為“Bigdata”镶骗,這是一種高度擴(kuò)展桶现、高性能的數(shù)據(jù)庫。它既有使用開源許可證的版本鼎姊,也有使用商業(yè)許可證的版本骡和。
    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。
    相關(guān)鏈接:http://www.systap.com/bigdata

  2. Cassandra
    這種NoSQL數(shù)據(jù)庫最初由Facebook開發(fā)相寇,現(xiàn)已被1500多家企業(yè)組織使用,包括蘋果唤衫、歐洲原子核研究組織(CERN)婆赠、康卡斯特、電子港灣佳励、GitHub休里、GoDaddy、Hulu赃承、Instagram妙黍、Intuit、Netfilx瞧剖、Reddit及其他機(jī)構(gòu)拭嫁。它能支持超大規(guī)模集群;比如說可免,蘋果部署的Cassandra系統(tǒng)就包括75000多個節(jié)點(diǎn),擁有的數(shù)據(jù)量超過10 PB做粤。
    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)浇借。
    相關(guān)鏈接:http://cassandra.apache.org

  3. CouchDB
    CouchDB號稱是“一款完全擁抱互聯(lián)網(wǎng)的數(shù)據(jù)庫”,它將數(shù)據(jù)存儲在JSON文檔中驮宴,這種文檔可以通過Web瀏覽器來查詢逮刨,并且用JavaScript來處理。它易于使用堵泽,在分布式上網(wǎng)絡(luò)上具有高可用性和高擴(kuò)展性修己。
    支持的操作系統(tǒng):Windows、Linux迎罗、OS X和安卓睬愤。
    相關(guān)鏈接:http://couchdb.apache.org

  4. FlockDB
    由推特開發(fā)的FlockDB是一種非常快纹安、擴(kuò)展性非常好的圖形數(shù)據(jù)庫尤辱,擅長存儲社交網(wǎng)絡(luò)數(shù)據(jù)。雖然它仍可用于下載厢岂,但是這個項(xiàng)目的開源版已有一段時間沒有更新了光督。
    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。
    相關(guān)鏈接:https://github.com/twitter/flockdb

  5. Hibari
    這個基于Erlang的項(xiàng)目自稱是“一種分布式有序鍵值存儲系統(tǒng)塔粒,保證擁有很強(qiáng)的一致性”结借。它最初是由Gemini Mobile Technologies開發(fā)的,現(xiàn)在已被歐洲和亞洲的幾家電信運(yùn)營商所使用卒茬。
    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)船老。
    相關(guān)鏈接:http://hibari.github.io/hibari-doc/

  6. Hypertable
    Hypertable是一種與Hadoop兼容的大數(shù)據(jù)數(shù)據(jù)庫,承諾性能超高圃酵,其用戶包括電子港灣柳畔、百度、高朋郭赐、Yelp及另外許多互聯(lián)網(wǎng)公司薪韩。提供商業(yè)支持服務(wù)。
    支持的操作系統(tǒng):Linux和OS X捌锭。
    相關(guān)鏈接:http://hypertable.org

  7. Impala
    Cloudera聲稱躬存,基于SQL的Impala數(shù)據(jù)庫是“面向Apache Hadoop的領(lǐng)先的開源分析數(shù)據(jù)庫”。它可以作為一款獨(dú)立產(chǎn)品來下載舀锨,又是Cloudera的商業(yè)大數(shù)據(jù)產(chǎn)品的一部分。
    支持的操作系統(tǒng):Linux和OS X宛逗。
    相關(guān)鏈接:http://www.cloudera.com/content/cloudera/en/products-and-services/cdh/impala.html

  8. InfoBright社區(qū)版
    InfoBright為數(shù)據(jù)分析而設(shè)計(jì)坎匿,這是一種面向列的數(shù)據(jù)庫,具有很高的壓縮比。InfoBright.com提供基于同一代碼的收費(fèi)產(chǎn)品替蔬,提供支持服務(wù)告私。
    支持的操作系統(tǒng):Windows和Linux。
    相關(guān)鏈接:http://www.infobright.org

  9. MongoDB
    mongoDB的下載量已超過1000萬人次承桥,這是一種極其受歡迎的NoSQL數(shù)據(jù)庫驻粟。MongoDB.com上提供了企業(yè)版、支持凶异、培訓(xùn)及相關(guān)產(chǎn)品和服務(wù)蜀撑。
    支持的操作系統(tǒng):Windows、Linux剩彬、OS X和Solaris酷麦。
    相關(guān)鏈接:http://www.mongodb.org

  10. Neo4j
    Neo4j自稱是“速度最快、擴(kuò)展性最佳的原生圖形數(shù)據(jù)庫”喉恋,它承諾具有大規(guī)模擴(kuò)展性沃饶、快速的密碼查詢性能和經(jīng)過改進(jìn)的開發(fā)效率。用戶包括電子港灣轻黑、必能寶(Pitney Bowes)糊肤、沃爾瑪、德國漢莎航空公司和CrunchBase氓鄙。
    支持的操作系統(tǒng):Windows和Linux馆揉。
    相關(guān)鏈接:http://neo4j.org

  11. OrientDB
    這款多模型數(shù)據(jù)庫結(jié)合了圖形數(shù)據(jù)庫的一些功能和文檔數(shù)據(jù)庫的一些功能。提供收費(fèi)支持玖详、培訓(xùn)和咨詢等服務(wù)把介。
    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。
    相關(guān)鏈接:http://www.orientdb.org/index.htm

  12. Pivotal Greenplum Database
    Pivotal聲稱蟋座,Greenplum是“同類中最佳的企業(yè)級分析數(shù)據(jù)庫”拗踢,能夠非常快速地對龐大的海量數(shù)據(jù)進(jìn)行功能強(qiáng)大的分析向臀。它是Pivotal大數(shù)據(jù)庫套件的一部分巢墅。
    支持的操作系統(tǒng):Windows、Linux和OS X券膀。
    相關(guān)鏈接:http://pivotal.io/big-data/pivotal-greenplum-database

  13. Riak
    Riak“功能完備”君纫,有兩個版本:KV是分布式NoSQL數(shù)據(jù)庫,S2提供了面向云環(huán)境的對象存儲芹彬。它既有開源版蓄髓,也有商業(yè)版,還有支持Spark舒帮、Redis和Solr的附件会喝。
    支持的操作系統(tǒng):Linux和OS X陡叠。
    相關(guān)鏈接:http://basho.com/riak-0-10-is-full-of-great-stuff/

  14. Redis
    Redis現(xiàn)在由Pivotal贊助,這是一種鍵值緩存和存儲系統(tǒng)肢执。提供收費(fèi)支持枉阵。要注意:雖然該項(xiàng)目并不正式支持Windows,不過微軟在GitHub上有一個Windows派生版预茄。
    支持的操作系統(tǒng):Linux兴溜。
    相關(guān)鏈接:http://redis.io


商業(yè)智能

  1. Talend Open Studio
    Talend的下載量已超過200萬人次,其開源軟件提供了數(shù)據(jù)整合功能耻陕。該公司還開發(fā)收費(fèi)的大數(shù)據(jù)拙徽、云、數(shù)據(jù)整合淮蜈、應(yīng)用程序整合和主數(shù)據(jù)管理等工具斋攀。其用戶包括美國國際集團(tuán)(AIG)、康卡斯特梧田、電子港灣淳蔼、通用電氣、三星裁眯、Ticketmaster和韋里遜等企業(yè)組織鹉梨。
    支持的操作系統(tǒng):Windows、Linux和OS X穿稳。
    相關(guān)鏈接:http://www.talend.com/index.php

  2. Jaspersoft
    Jaspersoft提供了靈活存皂、可嵌入的商業(yè)智能工具,用戶包括眾多企業(yè)組織:高朋逢艘、冠群科技旦袋、美國農(nóng)業(yè)部、愛立信它改、時代華納有線電視疤孕、奧林匹克鋼鐵、內(nèi)斯拉斯加大學(xué)和通用動力公司央拖。除了開源社區(qū)版外祭阀,它還提供收費(fèi)的報表版、亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)版鲜戒、專業(yè)版和企業(yè)版专控。
    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。
    相關(guān)鏈接:http://www.jaspersoft.com

  3. Pentaho
    Pentaho歸日立數(shù)據(jù)系統(tǒng)公司所有遏餐,它提供了一系列數(shù)據(jù)整合和業(yè)務(wù)分析工具伦腐。官方網(wǎng)站上提供了三個社區(qū)版;訪問Pentaho.com,即可了解收費(fèi)支持版方面的信息失都。
    支持的操作系統(tǒng):Windows蔗牡、Linux和OS X颖系。
    相關(guān)鏈接:http://community.pentaho.com

  4. SpagoBI
    Spago被市場分析師們稱為“開源領(lǐng)袖”,它提供商業(yè)智能辩越、中間件和質(zhì)量保證軟件,另外還提供Java EE應(yīng)用程序開發(fā)框架信粮。該軟件百分之分免費(fèi)黔攒、開源,不過也提供收費(fèi)的支持强缘、咨詢督惰、培訓(xùn)及其他服務(wù)。
    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)旅掂。
    相關(guān)鏈接:http://www.spagoworld.org/xwiki/bin/view/SpagoWorld/

  5. KNIME
    KNIME的全稱是“康斯坦茨信息挖掘工具”(Konstanz Information Miner)赏胚,這是一種開源分析和報表平臺。提供了幾個商業(yè)和開源擴(kuò)展件商虐,以增強(qiáng)其功能觉阅。
    支持的操作系統(tǒng):Windows、Linux和OS X秘车。
    相關(guān)鏈接:http://www.knime.org

  6. BIRT
    BIRT的全稱是“商業(yè)智能和報表工具”典勇。它提供的一種平臺可用于制作可以嵌入到應(yīng)用程序和網(wǎng)站中的可視化元素及報表。它是Eclipse社區(qū)的一部分叮趴,得到了Actuate割笙、IBM和Innovent Solutions的支持。
    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)眯亦。
    相關(guān)鏈接:http://www.eclipse.org/birt/


數(shù)據(jù)挖掘
44.DataMelt
作為jHepWork的后續(xù)者伤溉,DataMelt可以處理數(shù)學(xué)運(yùn)算、數(shù)據(jù)挖掘妻率、統(tǒng)計(jì)分析和數(shù)據(jù)可視化等任務(wù)乱顾。它支持Java及相關(guān)的編程語言,包括Jython舌涨、Groovy糯耍、JRuby和Beanshell。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)囊嘉。
相關(guān)鏈接:http://jwork.org/dmelt/

  1. KEEL
    KEEL的全稱是“基于進(jìn)化學(xué)習(xí)的知識提取”温技,這是一種基于Java的機(jī)器學(xué)習(xí)工具,為一系列大數(shù)據(jù)任務(wù)提供了算法扭粱。它還有助于評估算法在處理遞歸舵鳞、分類、集群琢蛤、模式挖掘及類似任務(wù)時的效果蜓堕。
    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)抛虏。
    相關(guān)鏈接:http://keel.es

  2. Orange
    Orange認(rèn)為數(shù)據(jù)挖掘應(yīng)該是“碩果累累、妙趣橫生”套才,無論你是有多年的豐富經(jīng)驗(yàn)迂猴,還是剛開始接觸這個領(lǐng)域。它提供了可視化編程和Python腳本工具背伴,可用于數(shù)據(jù)可視化和分析沸毁。
    支持的操作系統(tǒng):Windows、Linux和OS X傻寂。
    相關(guān)鏈接:http://orange.biolab.si

  3. RapidMiner
    RapidMiner聲稱擁有250000多個用戶息尺,包括貝寶、德勤疾掰、電子港灣搂誉、思科和大眾。它提供一系列廣泛的開源版和收費(fèi)版静檬,不過要注意:免費(fèi)的開源版只支持CSV格式或Excel格式的數(shù)據(jù)炭懊。
    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。
    相關(guān)鏈接:https://rapidminer.com

  4. Rattle
    Rattle的全稱是“易學(xué)易用的R分析工具”巴柿。它為R編程語言提供了一種圖形化界面凛虽,簡化了這些過程:構(gòu)建數(shù)據(jù)的統(tǒng)計(jì)或可視化摘要、構(gòu)建模型以及執(zhí)行數(shù)據(jù)轉(zhuǎn)換广恢。
    支持的操作系統(tǒng):Windows凯旋、Linux和OS X。
    相關(guān)鏈接:http://rattle.togaware.com

  5. SPMF
    SPMF現(xiàn)在包括93種算法钉迷,可用于順序模式挖掘至非、關(guān)聯(lián)規(guī)則挖掘、項(xiàng)集挖掘糠聪、順序規(guī)則挖掘和集群荒椭。它可以獨(dú)立使用,也可以整合到其他基于Java的程序中舰蟆。
    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)趣惠。
    相關(guān)鏈接:http://www.philippe-fournier-viger.com/spmf/

  6. Weka
    懷卡托知識分析環(huán)境(Weka)是一組基于Java的機(jī)器學(xué)習(xí)算法,面向數(shù)據(jù)挖掘身害。它可以執(zhí)行數(shù)據(jù)預(yù)處理味悄、分類、遞歸塌鸯、集群侍瑟、關(guān)聯(lián)規(guī)則和可視化。
    支持的操作系統(tǒng):Windows、Linux和OS X涨颜。
    相關(guān)鏈接:http://www.cs.waikato.ac.nz/~ml/weka/


查詢引擎

  1. Drill
    這個Apache項(xiàng)目讓用戶可以使用基于SQL的查詢费韭,查詢Hadoop、NoSQL數(shù)據(jù)庫和云存儲服務(wù)庭瑰。它可用于數(shù)據(jù)挖掘和即席查詢星持,它支持一系列廣泛的數(shù)據(jù)庫,包括HBase弹灭、MongoDB钉汗、MapR-DB、HDFS鲤屡、MapR-FS、亞馬遜S3福侈、Azure Blob Storage酒来、谷歌云存儲和Swift。
    支持的操作系統(tǒng):Windows肪凛、Linux和OS X堰汉。
    相關(guān)鏈接:http://drill.apache.org


編程語言

  1. R
    R類似S語言和環(huán)境,旨在處理統(tǒng)計(jì)計(jì)算和圖形伟墙。它包括一套整合的大數(shù)據(jù)工具翘鸭,可用于數(shù)據(jù)處理、計(jì)算和可視化戳葵。
    支持的操作系統(tǒng):Windows就乓、Linux和OS X。
    相關(guān)鏈接:http://www.r-project.org

  2. ECL
    企業(yè)控制語言(ECL)是開發(fā)人員用來在HPCC平臺上構(gòu)建大數(shù)據(jù)應(yīng)用程序的語言拱烁。HPCC Systems官方網(wǎng)站上有集成開發(fā)環(huán)境(IDE)生蚁、教程以及處理該語言的眾多相關(guān)工具。
    支持的操作系統(tǒng):Linux戏自。
    相關(guān)鏈接:http://hpccsystems.com/download/docs/ecl-language-reference


大數(shù)據(jù)搜索

  1. Lucene
    基于Java的Lucene可以非常迅速地執(zhí)行全文搜索邦投。據(jù)官方網(wǎng)站聲稱,它在現(xiàn)代硬件上每小時能夠檢索超過150GB的數(shù)據(jù)擅笔,它含有強(qiáng)大而高效的搜索算法志衣。開發(fā)工作得到了Apache軟件基金會的贊助。
    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)猛们。
    相關(guān)鏈接:http://lucene.apache.org/core/

  2. Solr
    Solr基于Apache Lucene念脯,是一種高度可靠、高度擴(kuò)展的企業(yè)搜索平臺。知名用戶包括eHarmony、西爾斯锌介、StubHub独撇、Zappos羹蚣、百思買闲勺、AT&T绿贞、Instagram陋守、Netflix废登、彭博社和Travelocity淹魄。
    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。
    相關(guān)鏈接:http://lucene.apache.org/solr/


內(nèi)存中技術(shù)

  1. Ignite
    這個Apache項(xiàng)目自稱是“一種高性能堡距、整合式甲锡、分布式的內(nèi)存中平臺,可用于對大規(guī)模數(shù)據(jù)集執(zhí)行實(shí)時計(jì)算和處理羽戒,速度比傳統(tǒng)的基于磁盤的技術(shù)或閃存技術(shù)高出好幾個數(shù)量級缤沦。”該平臺包括數(shù)據(jù)網(wǎng)格易稠、計(jì)算網(wǎng)格缸废、服務(wù)網(wǎng)格、流媒體驶社、Hadoop加速企量、高級集群、文件系統(tǒng)亡电、消息傳遞届巩、事件和數(shù)據(jù)結(jié)構(gòu)等功能。
    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)份乒。
    相關(guān)鏈接:https://ignite.incubator.apache.org

  2. Terracotta
    Terracotta聲稱其BigMemory技術(shù)是“世界上數(shù)一數(shù)二的內(nèi)存中數(shù)據(jù)管理平臺”恕汇,聲稱擁有210萬開發(fā)人員,250家企業(yè)組織部署了其軟件冒嫡。該公司還提供商業(yè)版軟件拇勃,另外提供支持、咨詢和培訓(xùn)等服務(wù)孝凌。
    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)方咆。
    相關(guān)鏈接:http://www.terracotta.org

  3. Pivotal GemFire/Geode
    今年早些時候,Pivotal宣布它將開放其大數(shù)據(jù)套件關(guān)鍵組件的源代碼蟀架,其中包括GemFire內(nèi)存中NoSQL數(shù)據(jù)庫瓣赂。它已向Apache軟件基金會遞交了一項(xiàng)提案,以便在“Geode”的名下管理GemFire數(shù)據(jù)庫的核心引擎片拍。還提供該軟件的商業(yè)版煌集。
    支持的操作系統(tǒng):Windows和Linux。
    相關(guān)鏈接:http://pivotal.io/big-data/pivotal-gemfire

  4. GridGain
    由Apache Ignite驅(qū)動的GridGrain提供內(nèi)存中數(shù)據(jù)結(jié)構(gòu)捌省,用于迅速處理大數(shù)據(jù)苫纤,還提供基于同一技術(shù)的Hadoop加速器。它既有收費(fèi)的企業(yè)版,也有免費(fèi)的社區(qū)版卷拘,后者包括免費(fèi)的基本支持喊废。
    支持的操作系統(tǒng):Windows、Linux和OS X栗弟。
    相關(guān)鏈接:http://www.gridgain.com

  5. Infinispan
    作為一個紅帽JBoss項(xiàng)目污筷,基于Java的Infinispan是一種分布式內(nèi)存中數(shù)據(jù)網(wǎng)格。它可以用作緩存乍赫、用作高性能NoSQL數(shù)據(jù)庫瓣蛀,或者為諸多框架添加集群功能。
    支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)雷厂。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末惋增,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子改鲫,更是在濱河造成了極大的恐慌器腋,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,548評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件钩杰,死亡現(xiàn)場離奇詭異,居然都是意外死亡诊县,警方通過查閱死者的電腦和手機(jī)讲弄,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,497評論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來依痊,“玉大人避除,你說我怎么就攤上這事⌒剜遥” “怎么了瓶摆?”我有些...
    開封第一講書人閱讀 167,990評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長性宏。 經(jīng)常有香客問我群井,道長,這世上最難降的妖魔是什么毫胜? 我笑而不...
    開封第一講書人閱讀 59,618評論 1 296
  • 正文 為了忘掉前任书斜,我火速辦了婚禮,結(jié)果婚禮上酵使,老公的妹妹穿的比我還像新娘荐吉。我一直安慰自己,他們只是感情好口渔,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,618評論 6 397
  • 文/花漫 我一把揭開白布样屠。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪痪欲。 梳的紋絲不亂的頭發(fā)上悦穿,一...
    開封第一講書人閱讀 52,246評論 1 308
  • 那天,我揣著相機(jī)與錄音勤揩,去河邊找鬼咧党。 笑死,一個胖子當(dāng)著我的面吹牛陨亡,可吹牛的內(nèi)容都是我干的傍衡。 我是一名探鬼主播,決...
    沈念sama閱讀 40,819評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼负蠕,長吁一口氣:“原來是場噩夢啊……” “哼蛙埂!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起遮糖,我...
    開封第一講書人閱讀 39,725評論 0 276
  • 序言:老撾萬榮一對情侶失蹤绣的,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后欲账,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體屡江,經(jīng)...
    沈念sama閱讀 46,268評論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,356評論 3 340
  • 正文 我和宋清朗相戀三年赛不,在試婚紗的時候發(fā)現(xiàn)自己被綠了惩嘉。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,488評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡踢故,死狀恐怖文黎,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情耸峭,我是刑警寧澤,帶...
    沈念sama閱讀 36,181評論 5 350
  • 正文 年R本政府宣布淋纲,位于F島的核電站,受9級特大地震影響洽瞬,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜片任,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,862評論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望对供。 院中可真熱鬧氛濒,春花似錦、人聲如沸鹅髓。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,331評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至醒串,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間芜赌,已是汗流浹背仰挣。 一陣腳步聲響...
    開封第一講書人閱讀 33,445評論 1 272
  • 我被黑心中介騙來泰國打工膘壶, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人洲愤。 一個月前我還...
    沈念sama閱讀 48,897評論 3 376
  • 正文 我出身青樓,卻偏偏與公主長得像柬赐,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子躺率,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,500評論 2 359

推薦閱讀更多精彩內(nèi)容