大數(shù)據(jù)相關(guān)開源項目及組件匯總

(轉(zhuǎn))URL:https://www.codetd.com/article/11598609

前言

花了一點時間筷狼,整理了大數(shù)據(jù)相關(guān)開源項目哨坪、組件和官網(wǎng)地址。按照實際應(yīng)用功能的不同喇辽,分為以下10個部分周霉,并在目錄圖中進(jìn)行歸納,后續(xù)章節(jié)的內(nèi)容則是分別介紹各組件的背景及應(yīng)用場景摊欠。

調(diào)度與管理服務(wù)

文件系統(tǒng)

數(shù)據(jù)搜集

消息系統(tǒng)

內(nèi)存技術(shù)

數(shù)據(jù)處理

查詢引擎

分析和報告工具

機(jī)器學(xué)習(xí)

開發(fā)平臺

目錄圖:類別與開源項目

| 調(diào)度與管理服務(wù) | Azkaban 迁杨、YARN 钻心、Mesos、Ambari 铅协、ZooKeeper 捷沸、Thrift 、Chukwa |

| 文件系統(tǒng) | Lustre 狐史、HDFS 痒给、GlusterFS 、Alluxio 骏全、Ceph苍柏、PVFS 、QFS |

| 數(shù)據(jù)搜集 | Logstash 姜贡、Scribe 试吁、Flume |

| 消息系統(tǒng)?|?RabbitMQ 、ActiveMQ 楼咳、ActiveMQ 熄捍、Kafka |

|?內(nèi)存技術(shù)?|?Terracotta 、Ignite 母怜、GemFire 余耽、GridGain |

|?數(shù)據(jù)處理?|?Spark,Kinesis ,Hadoop ,F(xiàn)link 苹熏,Storm碟贾,HaLoop |

|?查詢引擎?|?Presto ,Drill 轨域,Phoenix 袱耽,Hive ,SparkSQL,Tajo 干发,Impala 扛邑,Elasticsearch ,Solr 铐然,Shark 蔬崩,Lucene |

|?分析和報告工具?|?Kettle,Kylin 搀暑,Kibana 沥阳,Druid ,KNIME 自点,Zeppelin 桐罕,Talend ,Splunk ,Pentaho 功炮,Jaspersoft 溅潜,SpagoBI?|

|?機(jī)器學(xué)習(xí)?|?Tensorflow,Theano薪伏,Keras滚澜,DSSTNE,Lasagne嫁怀,Torch设捐,mxnet,DL4J塘淑,Cognitive Toolkit萝招,Caffe,Hivemall 存捺,RapidMiner 槐沼,Mahout?|

|?開發(fā)平臺?|?Lumify ,Lingual 捌治,Beam 岗钩,Cascading ,HPCC?|

1:調(diào)度與管理服務(wù)

大數(shù)據(jù)調(diào)度與管理服務(wù)主要包括以下相關(guān)軟件:

Azkaban 具滴、YARN 、Mesos师倔、Ambari 构韵、ZooKeeper 、Thrift 趋艘、Chukwa 疲恢。以下將分別介紹。

1.1:Azkaban

Azkaban 是一款基于Java編寫的任務(wù)調(diào)度系統(tǒng)任務(wù)調(diào)度瓷胧,來自LinkedIn公司显拳,用于管理他們的Hadoop批處理工作流。Azkaban根據(jù)工作的依賴性進(jìn)行排序搓萧,提供友好的Web用戶界面來維護(hù)和跟蹤用戶的工作流程杂数。

Azkaban官網(wǎng)

1.2:YARN

YARN 是一種新的Hadoop資源管理器,它是一個通用資源管理系統(tǒng)瘸洛,可為上層應(yīng)用提供統(tǒng)一的資源管理和調(diào)度揍移,解決了舊MapReduce框架的性能瓶頸。它的基本思想是把資源管理和作業(yè)調(diào)度/監(jiān)控的功能分割到單獨的守護(hù)進(jìn)程反肋。

Hadoop官網(wǎng)中關(guān)于Yarn的介紹

1.3:Mesos

Mesos 是由加州大學(xué)伯克利分校的AMPLab首先開發(fā)的一款開源群集管理軟件那伐,支持Hadoop、ElasticSearch、Spark罕邀、Storm 和Kafka等架構(gòu)畅形。對數(shù)據(jù)中心而言它就像一個單一的資源池,從物理或虛擬機(jī)器中抽離了CPU诉探,內(nèi)存日熬,存儲以及其它計算資源, 很容易建立和有效運行具備容錯性和彈性的分布式系統(tǒng)阵具。

Mesos 官網(wǎng)

1.4:Ambari

Ambari 作為Hadoop生態(tài)系統(tǒng)的一部分碍遍,提供了基于Web的直觀界面,可用于配置阳液、管理和監(jiān)控Hadoop集群怕敬。目前已支持大多數(shù)Hadoop組件,包括HDFS帘皿、MapReduce东跪、Hive、Pig鹰溜、 Hbase虽填、Zookeper、Sqoop和Hcatalog等曹动。

Ambari 官網(wǎng)

1.5:ZooKeeper

ZooKeeper 是一個分布式的應(yīng)用程序協(xié)調(diào)服務(wù)斋日,是Hadoop和Hbase的重要組件。它是一個為分布式應(yīng)用提供一致性服務(wù)的工具墓陈,讓Hadoop集群里面的節(jié)點可以彼此協(xié)調(diào)恶守。ZooKeeper現(xiàn)在已經(jīng)成為了 Apache的頂級項目,為分布式系統(tǒng)提供了高效可靠且易于使用的協(xié)同服務(wù)贡必。

ZooKeeper 官網(wǎng)

1.6:Thrift

Thrift 在2007年facebook提交Apache基金會將Thrift作為一個開源項目兔港,對于當(dāng)時的facebook來說創(chuàng)造thrift是為了解決facebook系統(tǒng)中各系統(tǒng)間大數(shù)據(jù)量的傳輸通信以及系統(tǒng)之間語言環(huán)境不同需要跨平臺的特性。

Thrift 官網(wǎng)

1.7:Chukwa

Chukwa 是監(jiān)測大型分布式系統(tǒng)的一個開源數(shù)據(jù)采集系統(tǒng)仔拟,建立在HDFS/MapReduce框架之上并繼承了Hadoop的可伸縮性和可靠性衫樊,可以收集來自大型分布式系統(tǒng)的數(shù)據(jù),用于監(jiān)控利花。它還包括靈活而強(qiáng)大的顯示工具用于監(jiān)控科侈、分析結(jié)果。

Chukwa 官網(wǎng)

2:文件系統(tǒng)

大數(shù)據(jù)文件系統(tǒng)主要包括以下相關(guān)軟件:

Lustre 炒事、HDFS 兑徘、GlusterFS 、Alluxio 羡洛、Ceph挂脑、PVFS 藕漱、QFS,以下將分別介紹崭闲。

2.1:Lustre

Lustre 是一個大規(guī)模的肋联、安全可靠的、具備高可用性的集群文件系統(tǒng)刁俭,它是由SUN公司開發(fā)和維護(hù)的橄仍。該項目主要的目的就是開發(fā)下一代的集群文件系統(tǒng),目前可以支持超過10000個節(jié)點牍戚,數(shù)以PB的數(shù)據(jù)存儲量侮繁。

Lustre 官網(wǎng)

2.2:HDFS

HDFS Hadoop Distributed File System,簡稱HDFS如孝,是一個分布式文件系統(tǒng)宪哩。HDFS是一個高度容錯性的系統(tǒng),適合部署在廉價的機(jī)器上第晰。HDFS能提供高吞吐量的數(shù)據(jù)訪問锁孟,非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。

Hadoop官網(wǎng)中關(guān)于HDFS的介紹

2.3:GlusterFS

GlusterFS 是一個集群的文件系統(tǒng)茁瘦,支持PB級的數(shù)據(jù)量品抽。GlusterFS 通過RDMA和TCP/IP方式將分布到不同服務(wù)器上的存儲空間匯集成一個大的網(wǎng)絡(luò)化并行文件系統(tǒng)。

GlusterFS 官網(wǎng)

2.4:Alluxio

Alluxio 前身是Tachyon甜熔,是以內(nèi)存為中心的分布式文件系統(tǒng)圆恤,擁有高性能和容錯能力,能夠為集群框架(如Spark腔稀、MapReduce)提供可靠的內(nèi)存級速度的文件共享服務(wù)盆昙。

Alluxio 官網(wǎng)

2.5:Ceph

Ceph 是新一代開源分布式文件系統(tǒng),主要目標(biāo)是設(shè)計成基于POSIX的沒有單點故障的分布式文件系統(tǒng),提高數(shù)據(jù)的容錯性并實現(xiàn)無縫的復(fù)制。

Ceph 官網(wǎng)

2.6:PVFS

PVFS 是一個高性能菱农、開源的并行文件系統(tǒng)缠借,主要用于并行計算環(huán)境中的應(yīng)用。PVFS特別為超大數(shù)量的客戶端和服務(wù)器端所設(shè)計跳夭,它的模塊化設(shè)計結(jié)構(gòu)可輕松的添加新的硬件和算法支持涂圆。

PVFS 官網(wǎng)

2.7:QFS

QFS Quantcast File System (QFS) 是一個高性能、容錯好币叹、分布式的文件系統(tǒng)润歉,用于開發(fā)支持 MapReduce處理或者需要順序讀寫大文件的應(yīng)用。

QFS 官網(wǎng)

3:數(shù)據(jù)搜集

大數(shù)據(jù)數(shù)據(jù)搜集主要包括以下相關(guān)軟件:Logstash 颈抚、Scribe 踩衩、Flume ,以下將分別介紹。

3.1:Logstash

Logstash 是一個應(yīng)用程序日志驱富、事件的傳輸锚赤、處理、管理和搜索的平臺褐鸥∠呓牛可以用它來統(tǒng)一對應(yīng)用程序日志進(jìn)行收集管理,提供了Web接口用于查詢和統(tǒng)計叫榕。

Logstash 官網(wǎng)

3.2:Scribe

Scribe是Facebook開源的日志收集系統(tǒng)浑侥,它能夠從各種日志源上收集日志,存儲到一個中央存儲系統(tǒng)(可以是NFS晰绎,分布式文件系統(tǒng)等)上寓落,以便于進(jìn)行集中統(tǒng)計分析處理。

Scribe相關(guān)信息

3.3:Flume

Flume 是Cloudera提供的一個高可用的寒匙、高可靠的零如、分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng)锄弱。Flume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方考蕾,用于收集數(shù)據(jù)。同時会宪,F(xiàn)lume支持對數(shù)據(jù)進(jìn)行簡單處理肖卧,并寫入各種數(shù)據(jù)接受方(可定制)。

Flume 官網(wǎng)

4:消息系統(tǒng)

大數(shù)據(jù)消息系統(tǒng)主要包括以下相關(guān)軟件:

RabbitMQ 掸鹅、ActiveMQ 塞帐、ActiveMQ 、Kafka 巍沙,以下將分別介紹葵姥。

4.1:RabbitMQ

RabbitMQ 是一個受歡迎的消息代理系統(tǒng),通常用于應(yīng)用程序之間或者程序的不同組件之間通過消息來進(jìn)行集成句携。RabbitMQ提供可靠的應(yīng)用消息發(fā)送榔幸、易于使用、支持所有主流操作系統(tǒng)矮嫉、支持大量開發(fā)者平臺削咆。

RabbitMQ 官網(wǎng)

4.1:ActiveMQ

ActiveMQ 是Apache出品,號稱“最流行的蠢笋,最強(qiáng)大”的開源消息集成模式服務(wù)器拨齐。ActiveMQ特點是速度快,支持多種跨語言的客戶端和協(xié)議昨寞,其企業(yè)集成模式和許多先進(jìn)的功能易于使用瞻惋,是一個完全支持JMS1.1和J2EE 1.4規(guī)范的JMS Provider實現(xiàn)厦滤。

ActiveMQ 官網(wǎng)

4.3:Kafka

Kafka 是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng),它可以處理消費者規(guī)模網(wǎng)站中的所有動作流數(shù)據(jù)歼狼,目前已成為大數(shù)據(jù)系統(tǒng)在異步和分布式消息之間的最佳選擇馁害。

Kafka 官網(wǎng)

5:內(nèi)存技術(shù)

大數(shù)據(jù)內(nèi)存技術(shù)主要包括以下相關(guān)軟件:

Terracotta 、Ignite 蹂匹、GemFire 碘菜、GridGain 。以下將分別介紹限寞。

5.1:Terracotta

Terracotta 聲稱其BigMemory技術(shù)是“世界上首屈一指的內(nèi)存中數(shù)據(jù)管理平臺”忍啸,支持簡單、可擴(kuò)展履植、實時消息计雌,聲稱在190個國家擁有210萬開發(fā)人員,全球1000家企業(yè)部署了其軟件玫霎。

Terracotta 官網(wǎng)

5.2:Ignite

Ignite 是一種高性能凿滤、整合式、分布式的內(nèi)存中平臺庶近,可用于對大規(guī)模數(shù)據(jù)集執(zhí)行實時計算和處理翁脆,速度比傳統(tǒng)的基于磁盤的技術(shù)或閃存技術(shù)高出好幾個數(shù)量級。該平臺包括數(shù)據(jù)網(wǎng)格鼻种、計算網(wǎng)格反番、服務(wù)網(wǎng)格、流媒體叉钥、Hadoop加速罢缸、高級集群、文件系統(tǒng)投队、消息傳遞枫疆、事件和數(shù)據(jù)結(jié)構(gòu)等功能。

Ignite 官網(wǎng)

5.3:GemFire

GemFire Pivotal宣布它將開放其大數(shù)據(jù)套件關(guān)鍵組件的源代碼敷鸦,其中包括GemFire內(nèi)存中NoSQL數(shù)據(jù)庫息楔。它已向Apache軟件基金會遞交了一項提案,以便在“Geode”的名下管理GemFire數(shù)據(jù)庫的核心引擎轧膘。

GemFire 官網(wǎng)

5.4:GridGain

GridGain 由Apache Ignite驅(qū)動的GridGrain提供內(nèi)存中數(shù)據(jù)結(jié)構(gòu)钞螟,用于迅速處理大數(shù)據(jù)兔甘,還提供基于同一技術(shù)的Hadoop加速器谎碍。

GridGain 官網(wǎng)

6:數(shù)據(jù)處理

數(shù)據(jù)處理主要包括以下相關(guān)軟件技術(shù):

Spark,Kinesis ,Hadoop ,F(xiàn)link 洞焙,Storm蟆淀,HaLoop

6.1:Spark

Spark 是一個高速拯啦、通用大數(shù)據(jù)計算處理引擎。擁有Hadoop MapReduce所具有的優(yōu)點熔任,但不同的是Job的中間輸出結(jié)果可以保存在內(nèi)存中褒链,從而不再需要讀寫HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的MapReduce的算法疑苔。它可以與Hadoop和Apache Mesos一起使用甫匹,也可以獨立使用

Spark 官網(wǎng)

6.2:Kinesis

Kinesis 可以構(gòu)建用于處理或分析流數(shù)據(jù)的自定義應(yīng)用程序,來滿足特定需求惦费。Amazon Kinesis Streams 每小時可從數(shù)十萬種來源中連續(xù)捕獲和存儲數(shù)TB數(shù)據(jù)兵迅,如網(wǎng)站點擊流、財務(wù)交易薪贫、社交媒體源恍箭、IT日志和定位追蹤事件。

Kinesis Github

6.3:Hadoop

Hadoop 是一個開源框架瞧省,適合運行在通用硬件扯夭,支持用簡單程序模型分布式處理跨集群大數(shù)據(jù)集,支持從單一服務(wù)器到上千服務(wù)器的水平scale up鞍匾。Apache的Hadoop項目已幾乎與大數(shù)據(jù)劃上了等號交洗,它不斷壯大起來,已成為一個完整的生態(tài)系統(tǒng)橡淑,擁有眾多開源工具面向高度擴(kuò)展的分布式計算藕筋。高效、可靠梳码、可伸縮隐圾,能夠為你的數(shù)據(jù)存儲項目提供所需的YARN、HDFS和基礎(chǔ)架構(gòu)掰茶,并且運行主要的大數(shù)據(jù)服務(wù)和應(yīng)用程序暇藏。

Hadoop官網(wǎng)

6.4:Spark Streaming

Spark Streaming 實現(xiàn)微批處理,目標(biāo)是很方便的建立可擴(kuò)展濒蒋、容錯的流應(yīng)用盐碱,支持Java、Scala和Python沪伙,和Spark無縫集成瓮顽。Spark Streaming可以讀取數(shù)據(jù)HDFS,F(xiàn)lume围橡,Kafka暖混,Twitter和ZeroMQ,也可以讀取自定義數(shù)據(jù)翁授。

6.5:Trident

Trident 是對Storm的更高一層的抽象拣播,除了提供一套簡單易用的流數(shù)據(jù)處理API之外晾咪,它以batch(一組tuples)為單位進(jìn)行處理,這樣一來贮配,可以使得一些處理更簡單和高效谍倦。

Spark Streaming官網(wǎng)介紹

6.6:Flink

Flink 于今年躋身Apache頂級開源項目,與HDFS完全兼容泪勒。Flink提供了基于Java和Scala的API昼蛀,是一個高效、分布式的通用大數(shù)據(jù)分析引擎圆存。更主要的是曹洽,F(xiàn)link支持增量迭代計算,使得系統(tǒng)可以快速地處理數(shù)據(jù)密集型辽剧、迭代的任務(wù)送淆。

Flink 官網(wǎng)

6.7:Samza

Samza 出自于LinkedIn,構(gòu)建在Kafka之上的分布式流計算框架怕轿,是Apache頂級開源項目偷崩。可直接利用Kafka和Hadoop YARN提供容錯撞羽、進(jìn)程隔離以及安全阐斜、資源管理。

Samza 官網(wǎng)

6.8:Storm

Storm是Twitter開源的一個類似于Hadoop的實時數(shù)據(jù)處理框架诀紊。編程模型簡單谒出,顯著地降低了實時處理的難度,也是當(dāng)下最人氣的流計算框架之一邻奠。與其他計算框架相比笤喳,Storm最大的優(yōu)點是毫秒級低延時。

Storm官網(wǎng)

6.9:Yahoo S4

Yahoo S4 (Simple Scalable Streaming System)是一個分布式流計算平臺碌宴,具備通用杀狡、分布式、可擴(kuò)展的贰镣、容錯呜象、可插拔等特點,程序員可以很容易地開發(fā)處理連續(xù)無邊界數(shù)據(jù)流(continuous unbounded streams of data)的應(yīng)用碑隆。它的目標(biāo)是填補(bǔ)復(fù)雜專有系統(tǒng)和面向批處理開源產(chǎn)品之間的空白恭陡,并提供高性能計算平臺來解決并發(fā)處理系統(tǒng)的復(fù)雜度。

Yahoo S4 官網(wǎng)

6.10:HaLoop

HaLoop 是一個Hadoop MapReduce框架的修改版本上煤,其目標(biāo)是為了高效支持 迭代休玩,遞歸數(shù)據(jù) 分析任務(wù),如PageRank,HITs哥捕,K-means,sssp等嘉熊。

7:查詢引擎

查詢引擎主要包括以下相關(guān)軟件技術(shù):

Presto ,Drill ,Phoenix ,Hive ,SparkSQL,Tajo 遥赚,Impala ,Elasticsearch 阐肤,Solr 凫佛,Shark ,Lucene

7.1: Presto

Presto 是一個開源的分布式SQL查詢引擎孕惜,適用于交互式分析查詢愧薛,可對250PB以上的數(shù)據(jù)進(jìn)行快速地交互式分析。Presto的設(shè)計和編寫是為了解決像Facebook這樣規(guī)模的商業(yè)數(shù)據(jù)倉庫的交互式分析和處理速度的問題衫画。Facebook稱Presto的性能比諸如Hive和MapReduce要好上10倍有多毫炉。

Presto -github

7.2: Drill

Drill 于2012年8月份由Apache推出,讓用戶可以使用基于SQL的查詢削罩,查詢Hadoop瞄勾、NoSQL數(shù)據(jù)庫和云存儲服務(wù)。它能夠運行在上千個節(jié)點的服務(wù)器集群上弥激,且能在幾秒內(nèi)處理PB級或者萬億條的數(shù)據(jù)記錄进陡。它可用于數(shù)據(jù)挖掘和即席查詢,支持一系列廣泛的數(shù)據(jù)庫微服,包括HBase趾疚、MongoDB、MapR-DB以蕴、HDFS糙麦、MapR-FS、亞馬遜S3丛肮、Azure Blob Storage喳资、谷歌云存儲和Swift。

Drill 官網(wǎng)

7.3: Phoenix

Phoenix 是一個Java中間層腾供,可以讓開發(fā)者在Apache HBase上執(zhí)行SQL查詢仆邓。Phoenix完全使用Java編寫,并且提供了一個客戶端可嵌入的JDBC驅(qū)動伴鳖。Phoenix查詢引擎會將SQL查詢轉(zhuǎn)換為一個或多個HBase scan节值,并編排執(zhí)行以生成標(biāo)準(zhǔn)的JDBC結(jié)果集。

Phoenix 官網(wǎng)

7.4: Pig

Pig 是一種編程語言榜聂,它簡化了Hadoop常見的工作任務(wù)搞疗。Pig可加載數(shù)據(jù)、轉(zhuǎn)換數(shù)據(jù)以及存儲最終結(jié)果须肆。Pig最大的作用就是為MapReduce框架實現(xiàn)了一套shell腳本 匿乃,類似我們通常熟悉的SQL語句桩皿。

Pig 官網(wǎng)

7.5: Hive

Hive 是基于Hadoop的一個數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表幢炸,并提供簡單的sql查詢功能泄隔,可以將sql語句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運行。 其優(yōu)點是學(xué)習(xí)成本低宛徊,可以通過類SQL語句快速實現(xiàn)簡單的MapReduce統(tǒng)計佛嬉,不必開發(fā)專門的MapReduce應(yīng)用,十分適合數(shù)據(jù)倉庫的統(tǒng)計分析闸天。

Hive 官網(wǎng)

7.6: SparkSQL

SparkSQL 的前身是Shark暖呕,SparkSQL拋棄原有Shark的代碼并汲取了一些優(yōu)點,如內(nèi)存列存儲(In-Memory Columnar Storage)苞氮、Hive兼容性等湾揽。由于擺脫了對Hive的依賴性,SparkSQL無論在數(shù)據(jù)兼容笼吟、性能優(yōu)化钝腺、組件擴(kuò)展方面都得到了極大的方便。

SparkSQL 官網(wǎng)

7.7: Stinger

Stinger 原來叫Tez赞厕,是下一代Hive艳狐,由Hortonworks主導(dǎo)開發(fā),運行在YARN上的DAG計算框架皿桑。某些測試下毫目,Stinger能提升10倍左右的性能,同時會讓Hive支持更多的SQL诲侮。

Stinger 官網(wǎng)

7.8: Tajo

Tajo 目的是在HDFS之上構(gòu)建一個可靠的镀虐、支持關(guān)系型數(shù)據(jù)的分布式數(shù)據(jù)倉庫系統(tǒng),它的重點是提供低延遲沟绪、可擴(kuò)展的ad-hoc查詢和在線數(shù)據(jù)聚集刮便,以及為更傳統(tǒng)的ETL提供工具。

Tajo 官網(wǎng)

7.9: Impala

Impala Cloudera聲稱绽慈,基于SQL的Impala數(shù)據(jù)庫是“面向Apache Hadoop的領(lǐng)先的開源分析數(shù)據(jù)庫”恨旱。它可以作為一款獨立產(chǎn)品來下載,又是Cloudera的商業(yè)大數(shù)據(jù)產(chǎn)品的一部分坝疼。Cloudera Impala 可以直接為存儲在HDFS或HBase中的Hadoop數(shù)據(jù)提供快速搜贤、交互式的SQL查詢。

Impala 官網(wǎng)

7.10: Elasticsearch

Elasticsearch 是一個基于Lucene的搜索服務(wù)器钝凶。它提供了一個分布式仪芒、支持多用戶的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java開發(fā)的掂名,并作為Apache許可條款下的開放源碼發(fā)布据沈,是當(dāng)前流行的企業(yè)級搜索引擎。設(shè)計用于云計算中饺蔑,能夠達(dá)到實時搜索锌介、穩(wěn)定、可靠膀钠、快速掏湾、安裝使用方便裹虫。

Elasticsearch 官網(wǎng)

7.11: Solr

Solr 基于Apache Lucene肿嘲,是一種高度可靠、高度擴(kuò)展的企業(yè)搜索平臺筑公。知名用戶包括eHarmony雳窟、西爾斯、StubHub匣屡、Zappos封救、百思買、AT&T捣作、Instagram誉结、Netflix、彭博社和Travelocity券躁。

Solr 官網(wǎng)

7.12: Shark

Shark 即Hive on Spark惩坑,本質(zhì)上是通過Hive的HQL解析,把HQL翻譯成Spark上的RDD操作也拜,然后通過Hive的metadata獲取數(shù)據(jù)庫里的表信息以舒,實際HDFS上的數(shù)據(jù)和文件,會由Shark獲取并放到Spark上運算慢哈。Shark的特點就是快蔓钟,完全兼容Hive,且可以在shell模式下使用rdd2sql()這樣的API卵贱,把HQL得到的結(jié)果集滥沫,繼續(xù)在scala環(huán)境下運算,支持自己編寫簡單的機(jī)器學(xué)習(xí)或簡單分析處理函數(shù)键俱,對HQL結(jié)果進(jìn)一步分析計算佣谐。

7.13: Lucene

Lucene 基于Java的Lucene可以非常迅速地執(zhí)行全文搜索。據(jù)官方網(wǎng)站聲稱方妖,它在現(xiàn)代硬件上每小時能夠檢索超過150GB的數(shù)據(jù)狭魂,它擁有強(qiáng)大而高效的搜索算法。

Lucene 官網(wǎng)

8:分析和報告工具

分析和報告工具主要包括如下:

Kettle,Kylin 雌澄,Kibana 斋泄,Druid ,KNIME 镐牺,Zeppelin 炫掐,Talend ,Splunk 睬涧,Pentaho 募胃,Jaspersoft ,SpagoBI

8.1: Kettle

Kettle 這是一個ETL工具集畦浓,它允許你管理來自不同數(shù)據(jù)庫的數(shù)據(jù)痹束,通過提供一個圖形化的用戶環(huán)境來描述你想做什么品擎,而不是你想怎么做孵户。作為Pentaho的一個重要組成部分膳帕,現(xiàn)在在國內(nèi)項目應(yīng)用上逐漸增多垒酬。

Kettle -github

8.2: Kylin

Kylin 是一個開源的分布式分析引擎赶么,提供了基于Hadoop的超大型數(shù)據(jù)集(TB/PB級別)的SQL接口以及多維度的OLAP分布式聯(lián)機(jī)分析登澜。最初由eBay開發(fā)并貢獻(xiàn)至開源社區(qū)抢蚀。它能在亞秒內(nèi)查詢巨大的Hive表地沮。

Kylin 官網(wǎng)

8.3: Kibana

Kibana 是一個使用Apache 開源協(xié)議的Elasticsearch 分析和搜索儀表板风响,可作為Logstash和ElasticSearch日志分析的 Web 接口嘉汰,對日志進(jìn)行高效的搜索、可視化状勤、分析等各種操作鞋怀。

Kibana 官網(wǎng)

8.4: Druid

Druid 是一個用于大數(shù)據(jù)實時查詢和分析的高容錯、高性能荧降、分布式的開源系統(tǒng)接箫,旨在快速處理大規(guī)模的數(shù)據(jù),并能夠?qū)崿F(xiàn)快速查詢和分析朵诫。

Druid 官網(wǎng)

8.5: KNIME

KNIME 的全稱是“康斯坦茨信息挖掘工具”(Konstanz Information Miner)辛友,是一個開源分析和報表平臺。宣稱“是任何數(shù)據(jù)科學(xué)家完美的工具箱剪返,超過1000個模塊废累,可運行數(shù)百個實例,全面的集成工具脱盲,以及先進(jìn)的算法”邑滨。

KNIME 官網(wǎng)

8.6: Zeppelin

Zeppelin 是一個提供交互數(shù)據(jù)分析且基于Web的筆記本。方便你做出可數(shù)據(jù)驅(qū)動的钱反、可交互且可協(xié)作的精美文檔掖看,并且支持多種語言匣距,包括 Scala(使用 Apache Spark)、Python(Apache Spark)哎壳、SparkSQL毅待、 Hive、 Markdown归榕、Shell等尸红。

Zeppelin 官網(wǎng)

8.7: Talend

Talend Open Studio 是第一家針對的數(shù)據(jù)集成工具市場的ETL(數(shù)據(jù)的提取Extract、傳輸Transform刹泄、載入Load)開源軟件供應(yīng)商外里。Talend的下載量已超過200萬人次,其開源軟件提供了數(shù)據(jù)整合功能特石。其用戶包括美國國際集團(tuán)(AIG)盅蝗、康卡斯特、電子港灣县匠、通用電氣风科、三星撒轮、Ticketmaster和韋里遜等企業(yè)組織乞旦。

Talend 官網(wǎng)

8.8: Splunk

Splunk 是機(jī)器數(shù)據(jù)的引擎。使用 Splunk 可收集题山、索引和利用所有應(yīng)用程序兰粉、服務(wù)器和設(shè)備(物理、虛擬和云中)生成的快速移動型計算機(jī)數(shù)據(jù)顶瞳,從一個位置搜索并分析所有實時和歷史數(shù)據(jù)玖姑。

Splunk 官網(wǎng)

8.9: Pentaho

Pentaho 是世界上最流行的開源商務(wù)智能軟件,以工作流為核心的慨菱、強(qiáng)調(diào)面向解決方案而非工具組件的焰络、基于java平臺的商業(yè)智能(Business Intelligence)套件。包括一個web server平臺和幾個工具軟件:報表符喝、分析闪彼、圖表、數(shù)據(jù)集成协饲、數(shù)據(jù)挖掘等畏腕,可以說包括了商務(wù)智能的方方面面。

Pentaho 社區(qū)

8.10: Jaspersoft

Jaspersoft 提供了靈活茉稠、可嵌入的商業(yè)智能工具描馅,用戶包括眾多企業(yè)組織:高朋、冠群科技而线、美國農(nóng)業(yè)部铭污、愛立信恋日、時代華納

Jaspersoft 官網(wǎng)

8.11: SpagoBI

SpagoBI Spago被市場分析師們稱為“開源領(lǐng)袖”,它提供商業(yè)智能嘹狞、中間件和質(zhì)量保證軟件谚鄙,另外還提供相應(yīng)的Java EE應(yīng)用程序開發(fā)框架。

SpagoBI 官網(wǎng)

9:機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)框架主要包括如下:

Tensorflow刁绒,Theano闷营,Keras,DSSTNE知市,Lasagne傻盟,Torch,mxnet嫂丙,DL4J娘赴,Cognitive Toolkit,Caffe跟啤,Hivemall 诽表,RapidMiner ,Mahout

9.1: Tensorflow

Tensorflow是Google開源的一款深度學(xué)習(xí)工具隅肥,使用C++語言開發(fā)竿奏,上層提供Python API。在開源之后腥放,在工業(yè)界和學(xué)術(shù)界引起了極大的震動泛啸,因為TensorFlow曾經(jīng)是著名的Google Brain計劃中的一部分,Google Brain項目的成功曾經(jīng)吸引了眾多科學(xué)家和研究人員往深度學(xué)習(xí)這個“坑”里面跳秃症,這也是當(dāng)今深度學(xué)習(xí)如此繁榮的重要原因候址。

9.2: Theano

Theano是老牌、穩(wěn)定的庫之一种柑。它是深度學(xué)習(xí)開源工具的鼻祖岗仑,由蒙特利爾理工學(xué)院時間開發(fā)于2008年并將其開源,框架使用Python語言開發(fā)聚请。它是深度學(xué)習(xí)庫的發(fā)軔荠雕,許多在學(xué)術(shù)界和工業(yè)界有影響力的深度學(xué)習(xí)框架都構(gòu)建在Theano之上,并逐步形成了自身的生態(tài)系統(tǒng)良漱,這其中就包含了著名的Keras舞虱、Lasagne和Blocks。

Theano是底層庫母市,遵循Tensorflow風(fēng)格矾兜。因此不適合深度學(xué)習(xí),而更合適數(shù)值計算優(yōu)化患久。它支持自動函數(shù)梯度計算椅寺,它有 Python接口 浑槽,集成了Numpy,使得這個庫從一開始就成為通用深度學(xué)習(xí)最常用的庫之一返帕。

9.3: Keras

Keras是一個非常高層的庫桐玻,工作在Theano或Tensorflow(可配置)之上。此外荆萤,Keras強(qiáng)調(diào)極簡主義镊靴,你可以用寥寥可數(shù)的幾行代碼來構(gòu)建神經(jīng)網(wǎng)絡(luò)。在 這里 链韭,您可以看到一個Keras代碼示例偏竟,與在Tensorflow中實現(xiàn)相同功能所需的代碼相比較。

9.4: DSSTNE

DSSTNE(Deep Scalable Sparse Tensor Network Engine敞峭,DSSTNE)是Amazon開源的一個非秤荒保酷的框架,由C++語言實現(xiàn)旋讹。但它經(jīng)常被忽視殖蚕。為什么?因為沉迹,撇開其他因素不談睦疫,它并不是為一般用途設(shè)計的。DSSTNE只做一件事胚股,但它做得很好:推薦系統(tǒng)笼痛。正如它的官網(wǎng)所言裙秋,它不是作為研究用途琅拌,也不是用于測試想法,而是為了用于生產(chǎn)的框架摘刑。

9.5: Lasagne

Lasagne是一個工作在Theano之上的庫进宝。它的任務(wù)是將深度學(xué)習(xí)算法的復(fù)雜計算予以簡單地抽象化,并提供一個更友好的 Python 接口枷恕。這是一個老牌的庫党晋,長久以來,它是一個具備高擴(kuò)展性的工具徐块。在Ricardo看來未玻,它的發(fā)展速度跟不上Keras。它們適用的領(lǐng)域相同胡控,但是扳剿,Keras有更好的、更完善的文檔昼激。

9.6: Torch

Torch是Facebook和Twitter主推的一個特別知名的深度學(xué)習(xí)框架庇绽,F(xiàn)acebook Reseach和DeepMind所使用的框架锡搜,正是Torch(DeepMind被Google收購之后才轉(zhuǎn)向TensorFlow)。出于性能的考慮瞧掺, 它使用了一種比較小眾的編程語言Lua 耕餐,目前在音頻、圖像及視頻處理方面有著大量的應(yīng)用辟狈。

在目前深度學(xué)習(xí)大部分以Python為編程語言的大環(huán)境之下肠缔,一個以Lua為編程語言的框架只有更多的劣勢,而不是優(yōu)勢哼转。Ricardo沒有Lua的使用經(jīng)驗桩砰,他表示,如果他要用Torch的話释簿,就必須先學(xué)習(xí)Lua語言才能使用Torch亚隅。就他個人來說,更傾向于熟悉的Python庶溶、Matlab或者C++來實現(xiàn)煮纵。

9.7: mxnet

mxnet是支持大多數(shù)編程語言的庫之一,它支持Python偏螺、R行疏、C++、Julia等編程語言套像。Ricardo覺得使用R語言的人們會特別喜歡mxnet酿联,因為直到現(xiàn)在,在深度學(xué)習(xí)的編程語言領(lǐng)域中夺巩,Python是衛(wèi)冕之王贞让。

Ricardo以前并沒有過多關(guān)注mxnet,直到Amazon AWS宣布將mxnet作為其 深度學(xué)習(xí)AMI 中的 參考庫 時柳譬,提到了它巨大的水平擴(kuò)展能力喳张,他才開始關(guān)注。

Ricardo表示他對多GPU的擴(kuò)展能力有點懷疑美澳,但仍然很愿意去了解實驗更多的細(xì)節(jié)销部。但目前還是對mxnet的能力抱有懷疑的態(tài)度。

9.8: DL4J

DL4J制跟,全名是Deep Learning for Java舅桩。正如其名,它支持Java雨膨。Ricardo說擂涛,他之所以能接觸到這個庫,是因為它的文檔哥放。當(dāng)時歼指,他在尋找 限制波爾茲曼機(jī)(Restricted Boltzman Machines) 爹土、 自編碼器(Autoencoders) ,在DL4J找到這兩個文檔踩身,文檔寫得很清楚胀茵,有理論,也有代碼示例挟阻。Ricardo表示D4LJ的文檔真的是一個藝術(shù)品琼娘,其他庫的文檔應(yīng)該向它學(xué)習(xí)。

DL4J背后的公司Skymind意識到附鸽,雖然在深度學(xué)習(xí)世界中脱拼,Python是王,但大部分程序員都是Java起步的坷备,因此熄浓,DL4J兼容JVM,也適用于Java省撑、Clojure和Scala赌蔑。 隨著Scala的潮起潮落,它也被很多 有前途的初創(chuàng)公司 使用竟秫。

9.8: DL4J

Cognitive Toolkit娃惯,就是之前被大家所熟知的縮略名CNTK,但最近剛更改為現(xiàn)在這個名字肥败,可能利用Microsoft認(rèn)知服務(wù)(Microsoft Cognitive services)的影響力趾浅。在發(fā)布的基準(zhǔn)測試中,它似乎是非常強(qiáng)大的工具馒稍,支持垂直和水平推移皿哨。

到目前為止,認(rèn)知工具包似乎不太流行筷黔。關(guān)于這個庫往史,還沒有看到有很多相關(guān)的博客、網(wǎng)絡(luò)示例佛舱,或者在Kaggle里的相關(guān)評論。Ricardo表示這看起來有點奇怪挨决,因為這是一個背靠微軟研究的框架请祖,特別強(qiáng)調(diào)自己的推移能力。而且這個研究團(tuán)隊在語音識別上打破了世界紀(jì)錄并逼近了人類水平脖祈。

你可以在他們的項目Wiki中的示例肆捕,了解到認(rèn)知工具包在Python的語法和Keras非常相似。

9.9: Caffe

Caffe是最老的框架之一盖高,比老牌還要老牌慎陵。 Caffe 是加州大學(xué)伯克利分校視覺與學(xué)習(xí)中心(Berkeley Vision and Learning Center 眼虱,BVLC)貢獻(xiàn)出來的一套深度學(xué)習(xí)工具,使用C/C++開發(fā)席纽,上層提供Python API捏悬。Caffe同樣也在走分布式路線,例如著名的Caffe On Spark項目润梯。

9.10: Hivemall

Hivemall 結(jié)合了面向Hive的多種機(jī)器學(xué)習(xí)算法过牙,它包括了很多擴(kuò)展性很好的算法,可用于數(shù)據(jù)分類纺铭、遞歸寇钉、推薦、k最近鄰舶赔、異常檢測和特征哈希等方面的分析應(yīng)用扫倡。

9.11: RapidMiner

RapidMiner 具有豐富數(shù)據(jù)挖掘分析和算法功能,常用于解決各種的商業(yè)關(guān)鍵問題竟纳,解決方案覆蓋了各個領(lǐng)域镊辕,包括汽車、銀行蚁袭、保險征懈、生命科學(xué)、制造業(yè)揩悄、石油和天然氣卖哎、零售業(yè)及快消行業(yè)、通訊業(yè)删性、以及公用事業(yè)等各個行業(yè)亏娜。

9.12: Mahout

Mahout 目的是“為快速創(chuàng)建可擴(kuò)展、高性能的機(jī)器學(xué)習(xí)應(yīng)用程序而打造一個環(huán)境”蹬挺,主要特點是為可伸縮的算法提供可擴(kuò)展環(huán)境维贺、面向Scala/Spark/H2O/Flink的新穎算法、Samsara(類似R的矢量數(shù)學(xué)環(huán)境)巴帮,它還包括了用于在MapReduce上進(jìn)行數(shù)據(jù)挖掘的眾多算法溯泣。

開發(fā)平臺

開發(fā)平臺主要包括如下:

Lumify ,Lingual 榕茧,Beam 垃沦,Cascading ,HPCC

10.1:Lumify

Lumify 歸Altamira科技公司(以國家安全技術(shù)而聞名)所有用押,這是一種開源大數(shù)據(jù)整合肢簿、分析和可視化平臺。

Lumify 官網(wǎng)

10.2:Lingual

Lingual 是Cascading的高級擴(kuò)展,為Hadoop提供了一個ANSI SQL接口極大地簡化了應(yīng)用程序的開發(fā)和集成池充。Lingual實現(xiàn)了連接現(xiàn)有的商業(yè)智能(BI)工具桩引,優(yōu)化了計算成本,加快了基于Hadoop的應(yīng)用開發(fā)速度收夸。

Lingual 官網(wǎng)

10.3:Beam

Beam 基于Java提供了統(tǒng)一的數(shù)據(jù)進(jìn)程管道開發(fā)坑匠,并且能夠很好地支持Spark和Flink。提供很多在線框架咱圆,開發(fā)者無需學(xué)太多框架笛辟。

Beam 官網(wǎng)

10.4:Cascading

Cascading 是一個基于Hadoop建立的API,用來創(chuàng)建復(fù)雜和容錯數(shù)據(jù)處理工作流序苏。它抽象了集群拓?fù)浣Y(jié)構(gòu)和配置手幢,使得不用考慮背后的MapReduce,就能快速開發(fā)復(fù)雜的分布式應(yīng)用忱详。

Cascading 官網(wǎng)

10.5:HPCC

HPCC 作為Hadoop之外的一種選擇围来,是一個利用集群服務(wù)器進(jìn)行大數(shù)據(jù)分析的系統(tǒng),HPCC在LexisNexis內(nèi)部使用多年匈睁,是一個成熟可靠的系統(tǒng)监透,包含一系列的工具、一個稱為ECL的高級編程語言航唆、以及相關(guān)的數(shù)據(jù)倉庫胀蛮,擴(kuò)展性超強(qiáng)。

HPCC 官網(wǎng)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末糯钙,一起剝皮案震驚了整個濱河市粪狼,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌任岸,老刑警劉巖再榄,帶你破解...
    沈念sama閱讀 212,884評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異享潜,居然都是意外死亡困鸥,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,755評論 3 385
  • 文/潘曉璐 我一進(jìn)店門剑按,熙熙樓的掌柜王于貴愁眉苦臉地迎上來疾就,“玉大人,你說我怎么就攤上這事吕座∨耙耄” “怎么了?”我有些...
    開封第一講書人閱讀 158,369評論 0 348
  • 文/不壞的土叔 我叫張陵吴趴,是天一觀的道長。 經(jīng)常有香客問我,道長锣枝,這世上最難降的妖魔是什么厢拭? 我笑而不...
    開封第一講書人閱讀 56,799評論 1 285
  • 正文 為了忘掉前任,我火速辦了婚禮撇叁,結(jié)果婚禮上供鸠,老公的妹妹穿的比我還像新娘。我一直安慰自己陨闹,他們只是感情好楞捂,可當(dāng)我...
    茶點故事閱讀 65,910評論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著趋厉,像睡著了一般寨闹。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上君账,一...
    開封第一講書人閱讀 50,096評論 1 291
  • 那天繁堡,我揣著相機(jī)與錄音,去河邊找鬼乡数。 笑死椭蹄,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的净赴。 我是一名探鬼主播绳矩,決...
    沈念sama閱讀 39,159評論 3 411
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼玖翅!你這毒婦竟也來了翼馆?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,917評論 0 268
  • 序言:老撾萬榮一對情侶失蹤烧栋,失蹤者是張志新(化名)和其女友劉穎写妥,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體审姓,經(jīng)...
    沈念sama閱讀 44,360評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡乾忱,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,673評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了挺智。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片综慎。...
    茶點故事閱讀 38,814評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖酬姆,靈堂內(nèi)的尸體忽然破棺而出嗜桌,到底是詐尸還是另有隱情,我是刑警寧澤辞色,帶...
    沈念sama閱讀 34,509評論 4 334
  • 正文 年R本政府宣布骨宠,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏层亿。R本人自食惡果不足惜桦卒,卻給世界環(huán)境...
    茶點故事閱讀 40,156評論 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望匿又。 院中可真熱鬧方灾,春花似錦、人聲如沸碌更。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,882評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽痛单。三九已至嘿棘,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間桦他,已是汗流浹背蔫巩。 一陣腳步聲響...
    開封第一講書人閱讀 32,123評論 1 267
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留快压,地道東北人圆仔。 一個月前我還...
    沈念sama閱讀 46,641評論 2 362
  • 正文 我出身青樓,卻偏偏與公主長得像蔫劣,于是被迫代替她去往敵國和親坪郭。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,728評論 2 351

推薦閱讀更多精彩內(nèi)容