大數(shù)據(jù)開(kāi)源框架技術(shù)匯總

主要基于對(duì)現(xiàn)階段一些常用的大數(shù)據(jù)開(kāi)源框架技術(shù)的整理橡庞，只是一些簡(jiǎn)單的介紹，并不是詳細(xì)技術(shù)梳理印蔗“亲睿可能會(huì)有疏漏，發(fā)現(xiàn)再整理华嘹。參考得太多扼倘，就不一一列出來(lái)了。這只是作為一個(gè)梳理除呵，對(duì)以后選型或者擴(kuò)展的做個(gè)參考。

系統(tǒng)平臺(tái)

Hadoop：Apache Hadoop是一個(gè)開(kāi)源的分布式系統(tǒng)基礎(chǔ)框架爪喘，離線(xiàn)數(shù)據(jù)的分布式存儲(chǔ)和計(jì)算的解決方案颜曾。

Hadoop最早起源于Nutch，Nutch基于2003 年秉剑、2004年谷歌發(fā)表的兩篇論文分布式文件系統(tǒng)GFS和分布式計(jì)算框架MapReduce的開(kāi)源實(shí)現(xiàn)HDFS和MapReduce泛豪。

2005年推出，2008年1月成為Apache頂級(jí)項(xiàng)目侦鹏。Hadoop分布式文件系統(tǒng)(HDFS)是革命性的一大改進(jìn)诡曙，它將服務(wù)器與普通硬盤(pán)驅(qū)動(dòng)器結(jié)合，并將它們轉(zhuǎn)變?yōu)槟軌蛴蒍ava應(yīng)用程序兼容并行IO的分布式存儲(chǔ)系統(tǒng)略水。

Hadoop作為數(shù)據(jù)分布式處理系統(tǒng)的典型代表价卤，形了成完整的生態(tài)圈，已經(jīng)成為事實(shí)上的大數(shù)據(jù)標(biāo)準(zhǔn)渊涝，開(kāi)源大數(shù)據(jù)目前已經(jīng)成為互聯(lián)網(wǎng)企業(yè)的基礎(chǔ)設(shè)施慎璧。

Hadoop主要包含分布式存儲(chǔ)HDFS、離線(xiàn)計(jì)算引擎MapRduce跨释、資源調(diào)度Apache YARN三部分胸私。Hadoop2.0引入了Apache YARN作為資源調(diào)度。

Hadoop3.0以后的版本對(duì)MR做了大量?jī)?yōu)化鳖谈，增加了基于內(nèi)存計(jì)算模型岁疼，提高了計(jì)算效率。比較普及的穩(wěn)定版本是2.x缆娃，目前最新版本為3.2.0捷绒。相關(guān)網(wǎng)站：Apache Hadoop

CDH：Cloudera CDH是Cloudera基于穩(wěn)定版Hadoop及相關(guān)項(xiàng)目最成型的發(fā)行版本。CDH中提供的各種組件能讓用戶(hù)在一個(gè)可視化的UI界面中方便地管理龄恋，配置和監(jiān)控Hadoop以及其它所有相關(guān)組件疙驾。

Cloudera成立于2008年，在2009年Cloudera發(fā)行了第一個(gè)Hadoop集成版本CDH郭毕，到目前為止它碎，因?yàn)槠湟子谩⒁子谏?jí)、安裝組件和減少維護(hù)成本等特性扳肛，成為企業(yè)部署最廣泛的大數(shù)據(jù)系統(tǒng)傻挂。在Hadoop的世界中，規(guī)模最大挖息、知名度最高的公司就是Cloudera金拒。

CDH提供強(qiáng)大的部署、管理和監(jiān)控工具套腹，通過(guò)Cloudera Manager的Web UI安裝和管理集群绪抛，并且通過(guò)Hue瀏覽器端的Web控制臺(tái)上與Hadoop集群進(jìn)行交互來(lái)分析處理數(shù)據(jù)。

隨著云計(jì)算的發(fā)展电禀，催生了亞馬遜AWS等巨頭幢码，他們也會(huì)提供托管的Hadoop/Spark服務(wù)，如AWS的Elastic Map Reduce(EMR)尖飞，不僅集成在云平臺(tái)內(nèi)部而且成本也更低症副。

而對(duì)象存儲(chǔ)服務(wù)，如AWS S3政基，Azure Blob存儲(chǔ)和Google云端存儲(chǔ)贞铣，從成本上來(lái)說(shuō)，也低于Hadoop的存儲(chǔ)成本沮明。但是辕坝，對(duì)于重視數(shù)據(jù)資產(chǎn)的企業(yè)來(lái)說(shuō)依舊需要Cloudera產(chǎn)品。Cloudera也一直致力于向云計(jì)算轉(zhuǎn)型荐健。

2018年10月Cloudera合并Hortonworks圣勒，表示新的公司將成為行業(yè)領(lǐng)導(dǎo)者，為客戶(hù)提供更好的平臺(tái)摧扇，創(chuàng)建世界首個(gè)企業(yè)數(shù)據(jù)云圣贸，并將在云計(jì)算、物聯(lián)網(wǎng)和容器技術(shù)等領(lǐng)域繼續(xù)發(fā)力扛稽。

這對(duì)Hadoop的發(fā)展方向是一個(gè)打擊吁峻，但也意味著Hadoop的標(biāo)準(zhǔn)將更加統(tǒng)一，將有更多資金投入新技術(shù)的研究在张。CDH目前最新版本為6.2.0用含。相關(guān)網(wǎng)站：Cloudera CDH

HDP：HDP是Hortonworks在基于Hadoop的發(fā)行版本。2014年Hortonworks上市帮匾，是企業(yè)級(jí)全球數(shù)據(jù)管理平臺(tái)啄骇，同時(shí)也是服務(wù)和解決方案的領(lǐng)先供應(yīng)商，為100強(qiáng)企業(yè)中的一多半提供“任何類(lèi)型數(shù)據(jù)”的可操作信息瘟斜，已經(jīng)成為世界第二大數(shù)據(jù)服務(wù)商缸夹。

Hortonworks是第一家使用了Apache HCatalog的元數(shù)據(jù)服務(wù)特性的提供商痪寻。Hortonworks為入門(mén)提供了一個(gè)非常好的，易于使用的沙盒虽惭。

Hortonworks開(kāi)發(fā)了很多增強(qiáng)特性并提交至核心主干橡类，這使得Apache Hadoop能夠在包括Windows Server和Windows Azure在內(nèi)的Microsft Windows平臺(tái)上本地運(yùn)行，相比于CDH只能運(yùn)行在Linux系統(tǒng)中芽唇。

使用Ambari提供Web UI管理集群顾画。HDP好處是完全開(kāi)源，可以在其基礎(chǔ)上進(jìn)行二次開(kāi)發(fā)匆笤，但對(duì)于技術(shù)比較薄弱中小型企業(yè)來(lái)說(shuō)穩(wěn)定性沒(méi)有CDH高研侣。2018年10月Cloudera合并Hortonworks，方向暫時(shí)未知炮捧。HDP目前最新版本為3.1义辕。相關(guān)網(wǎng)站：Hortonworks HDP

集群管理與監(jiān)控Clodera Manager：CM是Cloudera開(kāi)發(fā)的一個(gè)基于Web的用于部署和管理CDH集群的軟件。它具有集群自動(dòng)化安裝寓盗、中心化管理、集群監(jiān)控璧函、報(bào)警等功能傀蚌，大大節(jié)省集群部署時(shí)間，降低了運(yùn)維成本蘸吓，極大地提高集群管理的效率善炫。(非開(kāi)源)

相關(guān)網(wǎng)站：Clodera Manager

Hue：Hue是由Cloudera貢獻(xiàn)給開(kāi)源社區(qū)的Hadoop UI系統(tǒng)（Hadoop User Experience），最早是由Cloudera Desktop演化而來(lái)库继，它是基于Python Web框架Django實(shí)現(xiàn)的箩艺。

Hue是一個(gè)可快速開(kāi)發(fā)和調(diào)試Hadoop生態(tài)系統(tǒng)各種應(yīng)用的一個(gè)基于瀏覽器的圖形化用戶(hù)接口。

使用Hue可以在瀏覽器端的Web控制臺(tái)上與Hadoop集群進(jìn)行交互來(lái)分析處理數(shù)據(jù)宪萄，例如操作HDFS上的數(shù)據(jù)艺谆、運(yùn)行MapReduce Job、執(zhí)行Hive的SQL語(yǔ)句拜英、瀏覽HBase數(shù)據(jù)庫(kù)静汤、運(yùn)行Sqoop，編寫(xiě)Oozie工作流等等大量工作居凶。Hue是Hadoop平臺(tái)大數(shù)據(jù)分析開(kāi)發(fā)的可視化分析利器虫给。

網(wǎng)站：Hue

Ambari：Apache Ambari是Hortonworks貢獻(xiàn)給Apache基金會(huì)的Hadoop平臺(tái)管理軟件，2013年11月20日成為Apache頂級(jí)項(xiàng)目侠碧。

它具備Hadoop組件的安裝抹估、管理、運(yùn)維等基本功能弄兜，提供Web UI進(jìn)行可視化的集群管理药蜻，簡(jiǎn)化了大數(shù)據(jù)平臺(tái)的安裝瓷式、使用難度启涯。

相關(guān)網(wǎng)站：Apache Ambari

Dr.Elephant：Dr.elephant是一款對(duì)Hadoop和Spark任務(wù)進(jìn)行性能監(jiān)控和調(diào)優(yōu)的工具娶视，它由LinkedIn的團(tuán)隊(duì)于2016年開(kāi)源疯暑，開(kāi)源之前已經(jīng)在公司運(yùn)行使用2年季研。

它能自動(dòng)采集作業(yè)的度量指標(biāo)并分析捕发，然后以簡(jiǎn)單明了的方式展現(xiàn)出來(lái)欺税。Dr.elephant的設(shè)計(jì)思想是通過(guò)作業(yè)分析結(jié)果來(lái)指導(dǎo)開(kāi)發(fā)者進(jìn)行作業(yè)調(diào)優(yōu)扰付，從而提升開(kāi)發(fā)者效率和集群資源的利用率校套。

相關(guān)網(wǎng)址：Dr.Elephant
Ganglia：Ganglia是UC Berkeley發(fā)起的一個(gè)開(kāi)源集群監(jiān)視項(xiàng)目颊埃，設(shè)計(jì)用于測(cè)量數(shù)以千計(jì)的節(jié)點(diǎn)蔬充。Ganglia的核心包含gmond、gmetad以及一個(gè)Web前端班利。

主要是用來(lái)監(jiān)控系統(tǒng)性能饥漫，如：cpu 、mem罗标、硬盤(pán)利用率庸队， I/O負(fù)載、網(wǎng)絡(luò)流量情況等闯割，通過(guò)曲線(xiàn)很容易見(jiàn)到每個(gè)節(jié)點(diǎn)的工作狀態(tài)彻消，對(duì)合理調(diào)整、分配系統(tǒng)資源宙拉，提高系統(tǒng)整體性能起到重要作用宾尚。

相關(guān)網(wǎng)站：Ganglia

Zabbix：Zabbix是一個(gè)的基于Web界面的開(kāi)源的分布式企業(yè)級(jí)監(jiān)控解決方案。于2004年zabbix 1.0 正式發(fā)布谢澈，由Alexei Vladishev團(tuán)隊(duì)維護(hù)更新煌贴，Zabbix SIA提供支持。

Zabbix通過(guò)C/S模式采集數(shù)據(jù)锥忿，通過(guò)B/S模式在web端展示和配置牛郑。它能夠?qū)崟r(shí)監(jiān)控從成千上萬(wàn)臺(tái)服務(wù)器、虛擬機(jī)和網(wǎng)絡(luò)設(shè)備中收集到的數(shù)以百萬(wàn)計(jì)的指標(biāo)敬鬓。

Zabbix能監(jiān)視各種網(wǎng)絡(luò)參數(shù)井濒，保證服務(wù)器系統(tǒng)的安全運(yùn)營(yíng)，并提供靈活的通知機(jī)制以讓系統(tǒng)管理員快速定位/解決存在的各種問(wèn)題列林。還能夠利用存儲(chǔ)數(shù)據(jù)提供杰出的報(bào)表及實(shí)時(shí)的圖形化數(shù)據(jù)處理瑞你，實(shí)現(xiàn)對(duì)監(jiān)控主機(jī)7x24小時(shí)集中監(jiān)控。

相關(guān)網(wǎng)站：Zabbix

Eagle：Apache Eagle是一個(gè)開(kāi)源監(jiān)視和警報(bào)解決方案希痴，用于智能實(shí)時(shí)地識(shí)別大數(shù)據(jù)平臺(tái)上的安全和性能問(wèn)題者甲，例如Apache Hadoop，Apache Spark等砌创。

Eagle起源于eBay虏缸，最早用于解決大規(guī)模Hadoop集群的監(jiān)控問(wèn)題鲫懒，于2015年10月提交給Apache孵化器，2016年12月21日成為Apache頂級(jí)項(xiàng)目刽辙。

Eagle 主要包括：高可擴(kuò)展窥岩、高可伸縮、低延時(shí)宰缤、動(dòng)態(tài)協(xié)同等特點(diǎn)颂翼，支持?jǐn)?shù)據(jù)行為實(shí)時(shí)監(jiān)控，能立即監(jiān)測(cè)出對(duì)敏感數(shù)據(jù)的訪(fǎng)問(wèn)或惡意的操作慨灭，并立即采取應(yīng)對(duì)的措施朦乏。

Eagle 提供一套高效分布式的流式策略引擎，具有高實(shí)時(shí)氧骤、可伸縮呻疹、易擴(kuò)展、交互友好等特點(diǎn)筹陵，同時(shí)集成機(jī)器學(xué)習(xí)對(duì)用戶(hù)行為建立Profile以實(shí)現(xiàn)實(shí)時(shí)智能實(shí)時(shí)地保護(hù) Hadoop 生態(tài)系統(tǒng)中大數(shù)據(jù)的安全刽锤。

相關(guān)網(wǎng)站：Apache Eagle

文件系統(tǒng)

HDFS：HDFS（Hadoop Distributed File System）分布式文件系統(tǒng)，是分布式計(jì)算中數(shù)據(jù)存儲(chǔ)管理的基礎(chǔ)朦佩。是Hadoop Core項(xiàng)目的核心子項(xiàng)目并思。

HDFS是基于流數(shù)據(jù)模式訪(fǎng)問(wèn)和處理超大文件的需求而開(kāi)發(fā)的，效仿谷歌文件系統(tǒng)(GFS)吕粗，數(shù)據(jù)在相同節(jié)點(diǎn)上以復(fù)制的方式進(jìn)行存儲(chǔ)以實(shí)現(xiàn)將數(shù)據(jù)合并計(jì)算的目的。HDFS是一個(gè)高度容錯(cuò)性的系統(tǒng)旭愧，適合部署在廉價(jià)的機(jī)器上颅筋。

HDFS能提供高吞吐量的數(shù)據(jù)訪(fǎng)問(wèn)，非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用输枯。HDFS放寬了一部分POSIX約束议泵，來(lái)實(shí)現(xiàn)流式讀取文件系統(tǒng)數(shù)據(jù)的目的。

它有很多的優(yōu)點(diǎn)桃熄，但也存在有一些缺點(diǎn)先口，包括：不適合低延遲數(shù)據(jù)訪(fǎng)問(wèn)、無(wú)法高效存儲(chǔ)大量小文件瞳收、不支持多用戶(hù)寫(xiě)入及任意修改文件碉京。

相關(guān)網(wǎng)站：Hadoop HDFS

GPFS：GPFS（General Parallel File System）是IBM推出的基于Hadoop的并行分布式集群文件系統(tǒng)。IBM認(rèn)為GPFS不共享集群版本比HDFS快得多螟深，因?yàn)樗趦?nèi)核級(jí)別中運(yùn)行谐宙，而不是像HDFS在操作系統(tǒng)中運(yùn)行。

GPFS是一個(gè)共享磁盤(pán)的文件系統(tǒng)界弧，集群內(nèi)的所有節(jié)點(diǎn)可以并行地訪(fǎng)問(wèn)所有共享磁盤(pán)凡蜻，并通過(guò)分布式的Token管理機(jī)制和條帶化技術(shù)來(lái)管理和優(yōu)化節(jié)點(diǎn)的訪(fǎng)問(wèn)搭综。GPFS支持完整的Posix文件系統(tǒng)語(yǔ)義。

GPFS的應(yīng)用范圍非常廣泛划栓，從多節(jié)點(diǎn)文件共享服務(wù)兑巾、實(shí)時(shí)多媒體處理、到大型的高性能計(jì)算集群忠荞，我們都可以看到GPFS的優(yōu)秀表現(xiàn)蒋歌。GPFS在這些應(yīng)用里面都表現(xiàn)出了非常出色的性能和高可用性。

相關(guān)網(wǎng)站：GPFS

Ceph：Ceph是一個(gè)開(kāi)源的統(tǒng)一的分布式存儲(chǔ)系統(tǒng)钻洒，是高性能的并行文件系統(tǒng)奋姿。Ceph是加州大學(xué)Santa Cruz分校的Sage Weil（DreamHost的聯(lián)合創(chuàng)始人）專(zhuān)為博士論文設(shè)計(jì)的新一代自由軟件分布式文件系統(tǒng)。

自2007年畢業(yè)之后素标，Sage開(kāi)始全職投入到Ceph開(kāi)發(fā)之中称诗，使其能適用于生產(chǎn)環(huán)境。Ceph的主要目標(biāo)是設(shè)計(jì)成基于POSIX的沒(méi)有單點(diǎn)故障的分布式文件系統(tǒng)头遭，使數(shù)據(jù)能容錯(cuò)和無(wú)縫的復(fù)制寓免。

2010年3月，Linus Torvalds將Ceph client合并到內(nèi)核2.6.34中计维。它基于CRUSH算法袜香，沒(méi)有中心節(jié)點(diǎn)，可以無(wú)限擴(kuò)展鲫惶。Ceph提供三種存儲(chǔ)方式分別是對(duì)象存儲(chǔ)蜈首，塊存儲(chǔ)和文件系統(tǒng)。

在虛擬化領(lǐng)域里欠母，比較常用到的是Ceph的塊設(shè)備存儲(chǔ)欢策。Ceph以其穩(wěn)定、高可用赏淌、可擴(kuò)展的特性踩寇，乘著開(kāi)源云計(jì)算管理系統(tǒng)OpenStack的東風(fēng)，迅速成為最熱門(mén)的開(kāi)源分布式存儲(chǔ)系統(tǒng)六水。

Ceph是目前最火的分布式存儲(chǔ)軟件俺孙，Ceph開(kāi)源存儲(chǔ)項(xiàng)目已經(jīng)成為全球眾多海量存儲(chǔ)項(xiàng)目的主要選擇。Ceph現(xiàn)在是云計(jì)算掷贾、虛擬機(jī)部署的最火開(kāi)源存儲(chǔ)解決方案睛榄，是私有云事實(shí)上的標(biāo)準(zhǔn)。

相關(guān)網(wǎng)站：Ceph想帅、Ceph中文網(wǎng)

GlusterFS：GlusterFS(GNU ClusterFile System)是一種全對(duì)稱(chēng)的開(kāi)源分布式文件系統(tǒng)懈费，所謂全對(duì)稱(chēng)是指GlusterFS采用彈性哈希算法，沒(méi)有中心節(jié)點(diǎn)博脑，所有節(jié)點(diǎn)全部平等憎乙。

GlusterFS配置方便票罐，穩(wěn)定性好，可輕松達(dá)到PB級(jí)容量泞边，數(shù)千個(gè)節(jié)點(diǎn)该押。2011年被紅帽收購(gòu)，之后推出了基于GlusterFS的Red Hat Storage Server阵谚，增加了針對(duì)KVM的許多特性蚕礼，可用作為KVM存儲(chǔ)image存儲(chǔ)集群，也可以為L(zhǎng)B或HA提供存儲(chǔ)梢什。

相關(guān)網(wǎng)站：GlusterFS

Swift：Swift 最初是由 Rackspace 公司開(kāi)發(fā)的高可用分布式對(duì)象存儲(chǔ)服務(wù)奠蹬。于 2010 年貢獻(xiàn)給OpenStack開(kāi)源社區(qū)作為其最初的核心子項(xiàng)目之一，為其 Nova 子項(xiàng)目提供虛機(jī)鏡像存儲(chǔ)服務(wù)嗡午。

Swift構(gòu)筑在比較便宜的標(biāo)準(zhǔn)硬件存儲(chǔ)基礎(chǔ)設(shè)施之上囤躁，無(wú)需采用 RAID（磁盤(pán)冗余陣列），通過(guò)在軟件層面引入一致性散列技術(shù)和數(shù)據(jù)冗余性荔睹，犧牲一定程度的數(shù)據(jù)一致性來(lái)達(dá)到高可用性和可伸縮性狸演，支持多租戶(hù)模式、容器和對(duì)象讀寫(xiě)操作僻他，適合解決互聯(lián)網(wǎng)的應(yīng)用場(chǎng)景下非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)問(wèn)題宵距。

Swift是一種比較通用的存儲(chǔ)解決方案，能夠可靠地存儲(chǔ)數(shù)量非常多的大小不一的文件吨拗。

相關(guān)網(wǎng)站：OpenStack Swift

BeeGFS：BeeGFS（原FhGFS）既是一個(gè)網(wǎng)絡(luò)文件系統(tǒng)也是一個(gè)并行文件系統(tǒng)满哪。是由Fraunhofer Institute為工業(yè)數(shù)學(xué)計(jì)算而設(shè)計(jì)開(kāi)發(fā)，由于在歐洲和美國(guó)的中小型HPC系統(tǒng)性能表現(xiàn)良好劝篷，在2014年改名注冊(cè)為BeeGFS并受到科研和商業(yè)的廣泛應(yīng)用哨鸭。

客戶(hù)端通過(guò)網(wǎng)絡(luò)與存儲(chǔ)服務(wù)器進(jìn)行通信(具有TCP/IP或任何具有RDMA功能的互連，如InfiniBand携龟，RoCE或Omni-Path兔跌，支持native verbs 接口)勘高。通過(guò)BeeGFS添加更多的服務(wù)器峡蟋，其容量和性能被聚合在單個(gè)命名空間中。

BeeGFS是遵循GPL的“免費(fèi)開(kāi)源”產(chǎn)品华望，文件系統(tǒng)沒(méi)有許可證費(fèi)用蕊蝗。由ThinkParQ提供專(zhuān)業(yè)支持，系統(tǒng)集成商可以為客戶(hù)構(gòu)建使用BeeGFS的解決方案赖舟。

相關(guān)網(wǎng)站：BeeGFS

Alluxio：Alluxio（原Tachyon）是以?xún)?nèi)存為中心的虛擬的分布式存儲(chǔ)系統(tǒng)蓬戚。誕生于UC Berkeley的AMPLab，它統(tǒng)一了數(shù)據(jù)訪(fǎng)問(wèn)的方式宾抓，為上層計(jì)算框架和底層存儲(chǔ)系統(tǒng)構(gòu)建了橋梁子漩，應(yīng)用只需要連接Alluxio即可訪(fǎng)問(wèn)存儲(chǔ)在底層任意存儲(chǔ)系統(tǒng)中的數(shù)據(jù)豫喧。

此外，Alluxio的以?xún)?nèi)存為中心的架構(gòu)使得數(shù)據(jù)的訪(fǎng)問(wèn)速度能比現(xiàn)有方案快幾個(gè)數(shù)量級(jí)幢泼。Alluxio介于計(jì)算框架(如Apache Spark紧显，Apache MapReduce，Apache HBase缕棵，Apache Hive孵班，Apache Flink)和現(xiàn)有的存儲(chǔ)系統(tǒng)（如Amazon S3，OpenStack Swift招驴，GlusterFS篙程，HDFS，MaprFS别厘，Ceph虱饿，NFS，OSS）之間丹允。

相關(guān)網(wǎng)站：Alluxio

資源調(diào)度

YARN：（Yet Another Resource Negotiator）是Hadoop的資源管理和作業(yè)調(diào)度系統(tǒng)郭厌。作為Apache Hadoop的核心組件之一，YARN負(fù)責(zé)將系統(tǒng)資源分配給在Hadoop集群中運(yùn)行的各種應(yīng)用程序雕蔽，并調(diào)度在不同集群節(jié)點(diǎn)上執(zhí)行的任務(wù)折柠。

YARN是Hadoop2.x 版本中的一個(gè)新特性。它的出現(xiàn)其實(shí)是為了解決第一代 MapReduce 編程框架的不足批狐，提高集群環(huán)境下的資源利用率扇售，這些資源包括內(nèi)存，磁盤(pán)嚣艇，網(wǎng)絡(luò)承冰，IO等。

YARN的基本思想是將資源管理和作業(yè)調(diào)度/監(jiān)視的功能分解為單獨(dú)的 daemon（守護(hù)進(jìn)程）食零，其擁有一個(gè)全局ResourceManager困乒、每個(gè)應(yīng)用程序的ApplicationMaster及每臺(tái)機(jī)器框架代理NodeManager。

ResourceManager負(fù)責(zé)所有應(yīng)用程序之間資源分配贰谣。NodeManager負(fù)責(zé)Containers娜搂，監(jiān)視其資源使用情況（CPU，內(nèi)存吱抚，磁盤(pán)百宇，網(wǎng)絡(luò)）并將其報(bào)告給 ResourceManager。

ApplicationMaster負(fù)責(zé)是協(xié)調(diào)來(lái)自ResourceManager的資源秘豹，并與NodeManager一起執(zhí)行和監(jiān)視任務(wù)携御。

相關(guān)網(wǎng)址：Hadoop Yarn

Mesos：Apache Mesos是一個(gè)集群管理器，可跨分布式應(yīng)用程序或框架提供有效的資源隔離和共享。Mesos最初是由加州大學(xué)伯克利分校的AMPLab開(kāi)發(fā)的啄刹，Mesos項(xiàng)目發(fā)布于是2009年涮坐，2010年12月進(jìn)入Apache孵化器，2013年6月19日成為Apache頂級(jí)項(xiàng)目誓军。

Twitter公司則是 Mesos 項(xiàng)目的早期支持者和使用者之一膊升。它位于應(yīng)用程序?qū)雍筒僮飨到y(tǒng)之間，可以更加輕松地在大規(guī)模集群環(huán)境中更有效地部署和管理應(yīng)用程序谭企。它可以在動(dòng)態(tài)共享節(jié)點(diǎn)池上運(yùn)行許多應(yīng)用程序廓译。

對(duì)數(shù)據(jù)中心而言它就像一個(gè)單一的資源池，從物理或虛擬機(jī)器中抽離了CPU债查、內(nèi)存非区、存儲(chǔ)以及其它計(jì)算資源，很容易建立和有效運(yùn)行具備容錯(cuò)性和彈性的分布式系統(tǒng)盹廷。2019年5月征绸，Twitter宣布放棄Mesos，基礎(chǔ)設(shè)施從Mesos全面轉(zhuǎn)向Kubernetes俄占。

相關(guān)網(wǎng)址：Apache Mesos

協(xié)調(diào)框架

Zookeeper：Apache ZooKeeper 是一個(gè)開(kāi)源的分布式協(xié)調(diào)服務(wù)管怠，是Google的Chubby一個(gè)開(kāi)源的實(shí)現(xiàn)，是Hadoop缸榄，HBase和其他分布式框架使用的有組織服務(wù)的標(biāo)準(zhǔn)渤弛。

由雅虎開(kāi)源并于2010年11月成為Apache頂級(jí)項(xiàng)目。ZooKeeper是一個(gè)典型的分布式數(shù)據(jù)一致性解決方案甚带，分布式應(yīng)用程序可以基于ZooKeeper實(shí)現(xiàn)諸如數(shù)據(jù)發(fā)布/訂閱她肯、負(fù)載均衡、命名服務(wù)鹰贵、分布式協(xié)調(diào)/通知晴氨、集群管理、Master 選舉碉输、分布式鎖和分布式隊(duì)列等功能籽前。

ZooKeeper是以Fast Paxos算法為基礎(chǔ)的，Paxos 算法存在活鎖的問(wèn)題敷钾，即當(dāng)有多個(gè)proposer交錯(cuò)提交時(shí)枝哄，有可能互相排斥導(dǎo)致沒(méi)有一個(gè)proposer能提交成功，而Fast Paxos作了一些優(yōu)化闰非，通過(guò)選舉產(chǎn)生一個(gè)leader (領(lǐng)導(dǎo)者)膘格，只有l(wèi)eader才能提交proposer峭范。

ZooKeeper使用 ZAB 協(xié)議作為其保證數(shù)據(jù)一致性的核心算法财松。ZAB（ZooKeeper Atomic Broadcast 原子廣播）協(xié)議是為分布式協(xié)調(diào)服務(wù) ZooKeeper 專(zhuān)門(mén)設(shè)計(jì)的一種支持崩潰恢復(fù)的原子廣播協(xié)議。

相關(guān)網(wǎng)址：Apache Zookeeper

Etcd：Etcd是一個(gè)高可用的鍵值存儲(chǔ)系統(tǒng)，主要用于共享配置和服務(wù)發(fā)現(xiàn)辆毡。Etcd是一種分布式kv存儲(chǔ)設(shè)施菜秦，由CoreOS于2013年6月發(fā)起的開(kāi)源并維護(hù)的項(xiàng)目，它感來(lái)自于ZooKeeper和Doozer舶掖，基于Go語(yǔ)言實(shí)現(xiàn)球昨。

它類(lèi)似的Zookeeper，但沒(méi)有Zookeeper那么重型眨攘，功能也沒(méi)有覆蓋那么多主慰，通過(guò)Raft一致性算法處理日志復(fù)制以保證強(qiáng)一致性。Raft是一個(gè)新的一致性算法鲫售，適用于分布式系統(tǒng)的日志復(fù)制共螺，Raft通過(guò)選舉的方式來(lái)實(shí)現(xiàn)一致性。

Google的容器集群管理系統(tǒng)Kubernetes情竹、開(kāi)源PaaS平臺(tái)Cloud Foundry和CoreOS的Fleet都廣泛使用了Etcd藐不。

在分布式系統(tǒng)中，如何管理節(jié)點(diǎn)間的狀態(tài)一直是一個(gè)難題秦效，etcd像是專(zhuān)門(mén)為集群環(huán)境的服務(wù)發(fā)現(xiàn)和注冊(cè)而設(shè)計(jì)雏蛮，它提供了數(shù)據(jù)TTL失效、數(shù)據(jù)改變監(jiān)視阱州、多值挑秉、目錄監(jiān)聽(tīng)、分布式鎖原子操作等功能苔货，可以方便的跟蹤并管理集群節(jié)點(diǎn)的狀態(tài)衷模。

相關(guān)網(wǎng)站：Etcd

Consul：Consul是HashiCorp公司推出的開(kāi)源工具，用于實(shí)現(xiàn)分布式系統(tǒng)的服務(wù)發(fā)現(xiàn)與配置共享蒲赂。Consul用Go語(yǔ)言實(shí)現(xiàn)阱冶，因此具有天然可移植性(支持Linux、windows和Mac OS X)滥嘴。

與其他分布式服務(wù)注冊(cè)與發(fā)現(xiàn)的方案不同木蹬，Consul的方案更"一站式"，內(nèi)置了服務(wù)注冊(cè)與發(fā)現(xiàn)框架若皱、分布一致性協(xié)議實(shí)現(xiàn)镊叁、健康檢查、Key/Value存儲(chǔ)走触、多數(shù)據(jù)中心方案晦譬，不再需要依賴(lài)其他工具（比如ZooKeeper等）。

采用Raft算法一致性協(xié)議互广，支持多數(shù)據(jù)中心分布式高可用敛腌，服務(wù)發(fā)現(xiàn)和配置共享卧土，使用gossip協(xié)議管理成員和消息廣播，支持ACL訪(fǎng)問(wèn)控制像樊。最新的Consul提供了一個(gè)新特性“Mesh 網(wǎng)關(guān)”尤莺，實(shí)現(xiàn)透明、跨網(wǎng)絡(luò)的連接生棍。

這些特性可以跨平臺(tái)工作颤霎，對(duì)Kubernetes提供一流的支持，并且在任何云或?qū)Ｓ镁W(wǎng)絡(luò)上都可以輕松地部署到更傳統(tǒng)的環(huán)境中涂滴，實(shí)現(xiàn)了Consul多云服務(wù)網(wǎng)絡(luò)的目標(biāo)友酱。

相關(guān)網(wǎng)站：Consul

數(shù)據(jù)存儲(chǔ)

Hbase：Apache HBase（Hadoop Database）是一個(gè)分布式的、面向列的NoSQL開(kāi)源數(shù)據(jù)庫(kù)柔纵。是一個(gè)高可靠性粹污、高性能、面向列首量、可伸縮的分布式存儲(chǔ)系統(tǒng)壮吩，利用HBase技術(shù)可在廉價(jià)PC Server上搭建起大規(guī)模結(jié)構(gòu)化存儲(chǔ)集群追城。

初期的目標(biāo)是彌補(bǔ)MapReduce在實(shí)時(shí)操作上的缺失留潦，方便用戶(hù)可隨時(shí)操作大規(guī)模的數(shù)據(jù)集。HBase原來(lái)是Apache的Hadoop項(xiàng)目的子項(xiàng)目能犯，隨著大數(shù)據(jù)與NoSQL的流行和迅速發(fā)展拣宏，2010年5月Apache HBase脫離了Hadoop成為Apache基金的頂級(jí)項(xiàng)目沈贝。

HBase是Google Bigtable的開(kāi)源實(shí)現(xiàn)，類(lèi)似Google Bigtable利用GFS作為其文件存儲(chǔ)系統(tǒng)勋乾，HBase利用Hadoop HDFS作為其文件存儲(chǔ)系統(tǒng)宋下；Google運(yùn)行MapReduce來(lái)處理Bigtable中的海量數(shù)據(jù)，HBase同樣利用Hadoop MapReduce來(lái)處理HBase中的海量數(shù)據(jù)辑莫；Google Bigtable利用 Chubby作為協(xié)同服務(wù)学歧，HBase利用Zookeeper作為協(xié)調(diào)服務(wù)。

HBase不同于一般的關(guān)系數(shù)據(jù)庫(kù)各吨，它是一個(gè)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫(kù)枝笨，另外HBase是基于列的而不是基于行的模式。

相關(guān)網(wǎng)址：Apache Hbase

Cassandra：Apache Cassandra是一個(gè)開(kāi)源的揭蜒、分布式的混合型NoSQL數(shù)據(jù)庫(kù)横浑。它最初由Facebook開(kāi)發(fā)，于2008年開(kāi)源屉更，2010年2月17日成為Apache頂級(jí)項(xiàng)目徙融。主要用于儲(chǔ)存海量數(shù)據(jù)。

以Amazon專(zhuān)有的完全分布式Dynamo為基礎(chǔ)瑰谜，結(jié)合了Google BigTable基于列族的數(shù)據(jù)模型欺冀。P2P去中心化的存儲(chǔ)树绩。很多方面都可以稱(chēng)之為Dynamo 2.0。

Cassandra的主要特點(diǎn)就是它不是一個(gè)數(shù)據(jù)庫(kù)脚猾，而是由一堆數(shù)據(jù)庫(kù)節(jié)點(diǎn)共同構(gòu)成的一個(gè)分布式網(wǎng)絡(luò)服務(wù)，對(duì)Cassandra 的一個(gè)寫(xiě)操作砚哗，會(huì)被復(fù)制到其它節(jié)點(diǎn)上去龙助，對(duì)Cassandra的讀操作，也會(huì)被路由到某個(gè)節(jié)點(diǎn)上面去讀取蛛芥。

對(duì)于一個(gè)Cassandra群集來(lái)說(shuō)提鸟，擴(kuò)展性能是比較簡(jiǎn)單的事情，只管在群集里面添加節(jié)點(diǎn)就可以了仅淑。它提供了高可用性称勋，沒(méi)有單點(diǎn)故障。它是一個(gè)網(wǎng)絡(luò)社交云計(jì)算方面理想的數(shù)據(jù)庫(kù)涯竟。

相關(guān)網(wǎng)站：Apache Cassandra

ScyllaDB：ScyllaDB 是用 C++ 重寫(xiě)的 Cassandra赡鲜，官網(wǎng)號(hào)稱(chēng)每節(jié)點(diǎn)每秒處理 100 萬(wàn) TPS。ScyllaDB 完全兼容 Apache Cassandra庐船，擁有比 Cassandra 多 10x 倍的吞吐量银酬，降低了延遲。

ScyllaDB 號(hào)稱(chēng)是世界上最快的 NoSQL 列存儲(chǔ)數(shù)據(jù)庫(kù)筐钟。ScyllaDB 在垃圾收集或者 Compaction 的時(shí)候不需要暫停揩瞪，在常規(guī)生產(chǎn)負(fù)載的時(shí)候可以添加和刪除節(jié)點(diǎn)，數(shù)據(jù)結(jié)構(gòu)測(cè)量不會(huì)跨 CPU 緩存線(xiàn)篓冲，poll 模式驅(qū)動(dòng)替代了中斷李破。

目前國(guó)內(nèi)資料極少，中文網(wǎng)2016年7月停止了更新壹将。

相關(guān)網(wǎng)站：ScyllaDB嗤攻、ScyllaDB中文網(wǎng)

MongoDB：MongoDB是為處理大數(shù)據(jù)而生的一個(gè)面向文檔的分布式開(kāi)源數(shù)據(jù)庫(kù)，由10gen公司開(kāi)發(fā)和維護(hù)诽俯。它使用C++編寫(xiě)屯曹。

MongoDB是一個(gè)介于關(guān)系數(shù)據(jù)庫(kù)和非關(guān)系數(shù)據(jù)庫(kù)之間的產(chǎn)品，是非關(guān)系數(shù)據(jù)庫(kù)當(dāng)中功能最豐富惊畏，最像關(guān)系數(shù)據(jù)庫(kù)的恶耽。他支持的數(shù)據(jù)結(jié)構(gòu)非常松散，是類(lèi)似json的bjson格式颜启，因此可以存儲(chǔ)比較復(fù)雜的數(shù)據(jù)類(lèi)型偷俭。

Mongo最大的特點(diǎn)是他支持的查詢(xún)語(yǔ)言非常強(qiáng)大，其語(yǔ)法有點(diǎn)類(lèi)似于面向?qū)ο蟮牟樵?xún)語(yǔ)言缰盏，幾乎可以實(shí)現(xiàn)類(lèi)似關(guān)系數(shù)據(jù)庫(kù)單表查詢(xún)的絕大部分功能涌萤，而且還支持對(duì)數(shù)據(jù)建立索引淹遵。

MongoDB是專(zhuān)為可擴(kuò)展性，高性能和高可用性而設(shè)計(jì)的數(shù)據(jù)庫(kù)负溪。它可以從單服務(wù)器部署擴(kuò)展到大型透揣、復(fù)雜的多數(shù)據(jù)中心架構(gòu)。利用內(nèi)存計(jì)算的優(yōu)勢(shì)川抡，MongoDB能夠提供高性能的數(shù)據(jù)讀寫(xiě)操作辐真。

MongoDB的本地復(fù)制和自動(dòng)故障轉(zhuǎn)移功能使應(yīng)用程序具有企業(yè)級(jí)的可靠性和操作靈活性。2018年10月MongoDB宣布將開(kāi)源協(xié)議從GNU AGPLv3切換到Server Side Public License (SSPL)崖堤，SSPL 明確要求托管 MongoDB 實(shí)例的云廠(chǎng)商要么獲取商業(yè)許可證要么向社區(qū)開(kāi)放其服務(wù)源碼侍咱。

隨即，紅帽宣布從Red Hat Enterprise Linux（RHEL）8中刪除 MongoDB密幔，Debian Linux也已經(jīng)從它的發(fā)行版中刪除了MongoDB楔脯。

相關(guān)網(wǎng)址：MongoDB、MongoDB中文社區(qū)

Accumulo：Apache Accumulo 是一個(gè)高性能可擴(kuò)展的分布式Key-Value數(shù)據(jù)存儲(chǔ)和檢索系統(tǒng)胯甩。由美國(guó)國(guó)家安全局（NSA）于2011年捐贈(zèng)給Apache基金會(huì)昧廷，2012年3月21日成為Apache頂級(jí)項(xiàng)目。

Accumulo使用Google BigTable設(shè)計(jì)思路偎箫，基于A(yíng)pache Hadoop麸粮、Zookeeper 和 Thrift 構(gòu)建。Accumulo支持高效存儲(chǔ)和檢索的結(jié)構(gòu)化數(shù)據(jù)镜廉，包括查詢(xún)范圍弄诲，并提供支持使用Accumulo表作為輸入和輸出的 MapReduce作業(yè)。

Accumulo比簡(jiǎn)單的key-values數(shù)據(jù)庫(kù)提供更豐富的數(shù)據(jù)模型娇唯，但不是完全的關(guān)系數(shù)據(jù)庫(kù)齐遵。

相關(guān)網(wǎng)站：Apache Accumulo

Redis：Redis 是一個(gè)開(kāi)源的支持網(wǎng)絡(luò)、可基于內(nèi)存也可持久化的日志型塔插、Key-Value數(shù)據(jù)庫(kù)梗摇，和Memcached類(lèi)似。它可以用作數(shù)據(jù)庫(kù)想许、緩存和消息中間件伶授。

是Salvatore Sanfilippo于2009年開(kāi)發(fā)，2010年3月15日起Redis的開(kāi)發(fā)工作由VMware主持流纹，2013年5月開(kāi)始由Pivotal贊助糜烹。Redis支持存儲(chǔ)的value類(lèi)型相對(duì)更多，包括字符串漱凝、鏈表疮蹦、集合（set）和有序集合（zset）。

與memcached一樣茸炒，為了保證效率愕乎，數(shù)據(jù)都是緩存在內(nèi)存中阵苇，區(qū)別的是Redis會(huì)周期性的把更新的數(shù)據(jù)寫(xiě)入磁盤(pán)或者把修改操作寫(xiě)入追加的記錄文件，并且在此基礎(chǔ)上實(shí)現(xiàn)了主從同步感论。

Redis的出現(xiàn)绅项，很大程度補(bǔ)償了memcached這類(lèi)key/value存儲(chǔ)的不足，在部分場(chǎng)合可以對(duì)關(guān)系數(shù)據(jù)庫(kù)起到很好的補(bǔ)充作用比肄。它提供了Python快耿、Ruby、Erlang薪前、PHP客戶(hù)端润努，使用很方便关斜。簡(jiǎn)單說(shuō)示括，Redis是一個(gè)數(shù)據(jù)緩存的NoSQL數(shù)據(jù)庫(kù)。

相關(guān)網(wǎng)站：Redis痢畜、Redis中文網(wǎng)

Ignite：Apache Ignite是一個(gè)以?xún)?nèi)存為中心的分布式數(shù)據(jù)庫(kù)垛膝、緩存和處理平臺(tái)，可以在PB級(jí)數(shù)據(jù)中丁稀，以?xún)?nèi)存級(jí)的速度進(jìn)行事務(wù)性吼拥、分析性以及流式負(fù)載的處理。Ignite和Apache Arrow很類(lèi)似线衫，屬于大數(shù)據(jù)范疇中的內(nèi)存分布式管理系統(tǒng)凿可。

Ignite來(lái)源于GridGain系統(tǒng)公司開(kāi)發(fā)的GridGain軟件，2014 年3月GridGain公司將該軟件90%以上的功能和代碼開(kāi)源授账，2014年10月GridGain通過(guò)Apache 2.0許可進(jìn)入Apache的孵化器進(jìn)行孵化枯跑，2015年9月18日成為Apache的頂級(jí)項(xiàng)目，9月28日即發(fā)布了1.4.0版白热。

Ignite提供了完整的SQL敛助、DDL和DML的支持，可以使用純SQL而不用寫(xiě)代碼與Ignite進(jìn)行交互屋确，這意味著只使用SQL就可以創(chuàng)建表和索引纳击，以及插入、更新和查詢(xún)數(shù)據(jù)攻臀。

有這個(gè)完整的SQL支持焕数，Ignite就可以作為一種分布式SQL數(shù)據(jù)庫(kù)。Ignite還提供了基于數(shù)據(jù)關(guān)聯(lián)對(duì)數(shù)據(jù)進(jìn)行分區(qū)的能力刨啸，并使用大規(guī)模并行處理來(lái)提高性能和可伸縮性百匆。

Ignite還提供內(nèi)置的流處理、分析和機(jī)器學(xué)習(xí)功能呜投。它類(lèi)似于一個(gè)關(guān)系型的內(nèi)存數(shù)據(jù)庫(kù)加匈，可以像操作數(shù)據(jù)庫(kù)一樣操作內(nèi)存緩存存璃。

相關(guān)網(wǎng)站：Apache Ignite、Apache Ignite中文站

Arrow：Apache Arrow 大數(shù)據(jù)列式內(nèi)存數(shù)據(jù)平臺(tái)雕拼。最初是基于A(yíng)pache Drill項(xiàng)目的代碼進(jìn)行開(kāi)發(fā)的纵东，于2016年2月17日成為Apache頂級(jí)項(xiàng)目。它是列式內(nèi)存分析的事實(shí)標(biāo)準(zhǔn)啥寇，由來(lái)自Drill偎球、Hadoop、HBase辑甜、Impala衰絮、Storm等13個(gè)頂級(jí)開(kāi)源項(xiàng)目的工程師們開(kāi)發(fā)和完善。

它設(shè)計(jì)的目的在于作為一個(gè)跨平臺(tái)的數(shù)據(jù)層磷醋，來(lái)加快大數(shù)據(jù)分析項(xiàng)目的運(yùn)行速度猫牡。它為平面和分層數(shù)據(jù)指定了獨(dú)立于語(yǔ)言的標(biāo)準(zhǔn)化列式內(nèi)存格式，可在現(xiàn)代硬件上進(jìn)行高效的分析操作邓线。

它還提供了計(jì)算庫(kù)和零拷貝流式消息傳遞和進(jìn)程間通信淌友。在分布式系統(tǒng)內(nèi)部，每個(gè)系統(tǒng)都有自己的內(nèi)存格式骇陈，大量的 CPU 資源被消耗在序列化和反序列化過(guò)程中震庭，并且由于每個(gè)項(xiàng)目都有自己的實(shí)現(xiàn)，沒(méi)有一個(gè)明確的標(biāo)準(zhǔn)你雌，造成各個(gè)系統(tǒng)都在重復(fù)著復(fù)制器联、轉(zhuǎn)換工作，這種問(wèn)題在微服務(wù)系統(tǒng)架構(gòu)出現(xiàn)之后更加明顯婿崭，Arrow 的出現(xiàn)就是為了解決這一問(wèn)題拨拓。

它提供了一種跨平臺(tái)應(yīng)用的內(nèi)存數(shù)據(jù)交換格式，是列式內(nèi)存分析的事實(shí)標(biāo)準(zhǔn)逛球。目前支持的語(yǔ)言包括C千元、C++、C#颤绕、Go幸海、Java、JavaScript奥务、MATLAB物独、Python、R語(yǔ)言氯葬、Ruby和Rust等11種語(yǔ)言挡篓。

相關(guān)網(wǎng)站：Apache Arrow

Geode：Apache Geode是一個(gè)高性能的分布式內(nèi)存對(duì)象緩存系統(tǒng)，Key/Value存儲(chǔ)系統(tǒng)。是GemFire的開(kāi)源版官研，2015年4月GemGire把代碼提交給Apache孵化秽澳，2016年11月16日畢業(yè)成為Apache基金會(huì)的頂級(jí)項(xiàng)目。

Geode是一個(gè)相當(dāng)成熟戏羽、強(qiáng)健的的數(shù)據(jù)管理平臺(tái)担神，提供實(shí)時(shí)的、一致的始花、貫穿整個(gè)云架構(gòu)地訪(fǎng)問(wèn)數(shù)據(jù)關(guān)鍵型應(yīng)用妄讯。Geode跨多個(gè)進(jìn)程匯集內(nèi)存，CPU酷宵，網(wǎng)絡(luò)資源和可選的本地磁盤(pán)亥贸，以管理應(yīng)用程序?qū)ο蠛托袨椤?/span>

Geode自身功能比較多，首先它是一個(gè)基于JVM的NoSQL分布式數(shù)據(jù)處理平臺(tái)浇垦，同時(shí)集中間件炕置、緩存、消息隊(duì)列溜族、事件處理引擎讹俊、NoSQL數(shù)據(jù)庫(kù)于一身的分布式內(nèi)存數(shù)據(jù)處理平臺(tái)垦沉。

可用來(lái)進(jìn)行完成分布式緩存煌抒、數(shù)據(jù)持久化、分布式事物厕倍、動(dòng)態(tài)擴(kuò)展等功能寡壮。簡(jiǎn)單說(shuō)，Geode是Redis的增強(qiáng)版讹弯。

相關(guān)網(wǎng)站：Apache Geode

Neo4j：Neo4j是一個(gè)開(kāi)源的高性能NOSQL圖形數(shù)據(jù)庫(kù)况既，它將結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在網(wǎng)絡(luò)上而不是表中。它是由Neo技術(shù)使用Java語(yǔ)言完全開(kāi)發(fā)的组民。圖形數(shù)據(jù)庫(kù)也就意味著它的數(shù)據(jù)并非保存在表或集合中棒仍，而是保存為節(jié)點(diǎn)以及節(jié)點(diǎn)之間的關(guān)系。

Neo4j 除了頂點(diǎn)和邊臭胜，還有一種重要的部分屬性莫其。無(wú)論是頂點(diǎn)還是邊，都可以有任意多的屬性耸三。屬性的存放類(lèi)似于一個(gè)HashMap乱陡，Key 為一個(gè)字符串，而 Value 必須是基本類(lèi)型或者是基本類(lèi)型數(shù)組仪壮。

Neo4j也可以被看作是一個(gè)高性能的圖引擎憨颠，該引擎具有成熟數(shù)據(jù)庫(kù)的所有特性。Neo4j創(chuàng)建的圖是用頂點(diǎn)和邊構(gòu)建一個(gè)有向圖积锅，其查詢(xún)語(yǔ)言cypher已經(jīng)成為事實(shí)上的標(biāo)準(zhǔn)爽彤。

相關(guān)網(wǎng)站：Neo4j养盗、Neo4j中文社區(qū)

CouchDB：Apache CouchDB是一個(gè)分布式的NoSQL面向文檔的數(shù)據(jù)庫(kù)，2008年11月19日成為Apache頂級(jí)開(kāi)源項(xiàng)目适篙。

CouchDB是一個(gè)完全包含web的數(shù)據(jù)庫(kù)爪瓜。使用JSON格式存儲(chǔ)文檔數(shù)據(jù)。使用web瀏覽器通過(guò)HTTP訪(fǎng)問(wèn)文檔匙瘪。使用JavaScript查詢(xún)铆铆、組合和轉(zhuǎn)換文檔。CouchDB可以很好地與現(xiàn)代web和移動(dòng)應(yīng)用程序配合使用丹喻。

可以使用CouchDB 增量復(fù)制高效地分發(fā)數(shù)據(jù)薄货。CouchDB支持帶有自動(dòng)沖突檢測(cè)的主控設(shè)置。CouchDB附帶了一套特性碍论，比如即時(shí)文檔轉(zhuǎn)換和實(shí)時(shí)更改通知谅猾，這使得web開(kāi)發(fā)變得非常簡(jiǎn)單。它甚至提供了一個(gè)易于使用的web管理控制臺(tái)鳍悠。

相關(guān)網(wǎng)站：Apache CouchDB

Kudu：Apache Kudu是一個(gè)為了Hadoop系統(tǒng)環(huán)境而打造的列式存儲(chǔ)系統(tǒng)税娜，是一個(gè)為塊數(shù)據(jù)的快速分析而生的存儲(chǔ)架構(gòu)，可以同時(shí)提供低延遲的隨機(jī)讀寫(xiě)和高效的數(shù)據(jù)分析能力藏研。

Kudu是由Cloudera開(kāi)源敬矩，2015年12月3日進(jìn)入Apache孵化器，2016年7月20日成為Apache頂級(jí)項(xiàng)目蠢挡。Kudu專(zhuān)為了對(duì)快速變化的數(shù)據(jù)進(jìn)行快速的分析弧岳，擁有Hadoop生態(tài)系統(tǒng)應(yīng)用的常見(jiàn)技術(shù)特性，運(yùn)行在一般的商用硬件上业踏，支持水平擴(kuò)展,高可用禽炬，使用Raft協(xié)議進(jìn)行一致性保證。

并且與Cloudera Impala和Apache Spark等當(dāng)前流行的大數(shù)據(jù)查詢(xún)和分析工具結(jié)合緊密勤家。在Kudu出現(xiàn)之前腹尖，Hadoop生態(tài)環(huán)境中的儲(chǔ)存主要依賴(lài)HDFS和HBase，追求高吞吐批處理的用例中使用HDFS伐脖，追求低延時(shí)隨機(jī)讀取用例下用HBase热幔，而Kudu正好能兼顧這兩者。

相關(guān)網(wǎng)站：Apache Kudu

CarbonData：Apache CarbonData是一個(gè)基于索引的列式數(shù)據(jù)格式解決方案晓殊。華為于2016年6月開(kāi)源并貢獻(xiàn)給Apache断凶，于2017年4月19日成為Apache頂級(jí)項(xiàng)目。

CarbonData是一種新的融合存儲(chǔ)解決方案巫俺，利用先進(jìn)的列式存儲(chǔ)认烁，索引，壓縮和編碼技術(shù)提高計(jì)算效率，從而加快查詢(xún)速度却嗡，其查詢(xún)速度比 PetaBytes 數(shù)據(jù)快一個(gè)數(shù)量級(jí)舶沛。

CarbonData提供了一種新的融合數(shù)據(jù)存儲(chǔ)方案，以一份數(shù)據(jù)同時(shí)支持“交互式分析窗价、詳單查詢(xún)如庭、任意維度組合的過(guò)濾查詢(xún)等”多種大數(shù)據(jù)應(yīng)用場(chǎng)景，并通過(guò)豐富的索引技術(shù)撼港、字典編碼坪它、列存等特性提升了IO掃描和計(jì)算性能，實(shí)現(xiàn)百億數(shù)據(jù)級(jí)秒級(jí)響應(yīng)帝牡，與大數(shù)據(jù)生態(tài)Apache Hadoop往毡、Apache Spark等無(wú)縫集成。

相關(guān)網(wǎng)站：Apache CarbonData靶溜、CarbonData中文文檔

數(shù)據(jù)處理

MapReduce：Apache Hadoop MapReduce是一個(gè)分布式的離線(xiàn)計(jì)算框架开瞭，用于海量數(shù)據(jù)的并行運(yùn)算，是Hadoop數(shù)據(jù)分析的核心罩息。

MapReduce框架使得編程人員在不會(huì)分布式并行編程的情況下嗤详，將編寫(xiě)的業(yè)務(wù)邏輯代碼運(yùn)行在分布式系統(tǒng)上，開(kāi)發(fā)人員可以將絕大部分的工作集中于業(yè)務(wù)邏輯上的開(kāi)發(fā)瓷炮，具體的計(jì)算只需要交給框架就可以葱色。

MapReduce的處理過(guò)程分為兩個(gè)步驟：Map和Reduce。Map階段對(duì)輸入的數(shù)據(jù)進(jìn)行并行處理崭别，處理結(jié)果傳給Reduce完成最后的匯總冬筒。

但由于MR對(duì)HDFS的頻繁操作（包括計(jì)算結(jié)果持久化恐锣、數(shù)據(jù)備份茅主、資源下載及Shuffle等）導(dǎo)致磁盤(pán)I/O成為系統(tǒng)性能的瓶頸，因此只適用于離線(xiàn)數(shù)據(jù)處理或批處理土榴，而不能支持對(duì)迭代式诀姚、交互式、流式數(shù)據(jù)的處理玷禽，目前逐漸被Spark赫段、Flink替代。

相關(guān)網(wǎng)站：Hadoop MapReduce

Spark：Apache Spark是通用的一站式計(jì)算框架矢赁，是專(zhuān)為大規(guī)模數(shù)據(jù)處理而設(shè)計(jì)的快速通用的計(jì)算引擎糯笙。

2009年誕生于UC Berkeley的AMPLab，2010 年開(kāi)源撩银，2013年6月成為Apache孵化項(xiàng)目给涕，2014年2月19日成為Apache頂級(jí)項(xiàng)目。

Spark是基于MapReduce算法實(shí)現(xiàn)的分布式計(jì)算，擁有 MapReduce 所具有的優(yōu)點(diǎn)够庙，但不同于 MR 的是恭应，Job中間輸出和結(jié)果可以保存在內(nèi)存中，從而不再需要讀寫(xiě) HDFS耘眨，因此Spark能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的算法中昼榛，高效地支持更多計(jì)算模式，包括交互式查詢(xún)和流處理剔难。

Spark是MapReduce 的替代方案胆屿，是對(duì) Hadoop 的補(bǔ)充，而且兼容 HDFS偶宫、Hive莺掠，可融入 Hadoop 的生態(tài)系統(tǒng)，以彌補(bǔ)MapReduce的不足读宙。Spark是在Scala語(yǔ)言中實(shí)現(xiàn)的彻秆，它將 Scala 用作其應(yīng)用程序框架。

與 Hadoop 不同结闸，Spark 和Scala能夠緊密集成唇兑，其中的Scala可以像操作本地集合對(duì)象一樣輕松地操作分布式數(shù)據(jù)集。Spark通過(guò)提供豐富的Scala、Java疯搅、Python API杜秸、R及交互式Shell來(lái)提高可用性。

Spark主要包含幾個(gè)重要組件：SparkCore批處理留夜、SparkSQL交互式處理、SparkStreaming流處理图甜、Spark Graphx圖計(jì)算碍粥、Spark MLlib機(jī)器學(xué)習(xí)，Spark旨在成為運(yùn)行批處理黑毅、數(shù)據(jù)流處理嚼摩、交互處理、圖形處理和機(jī)器學(xué)習(xí)等應(yīng)用的一站式平臺(tái)矿瘦。

目前Spark已經(jīng)成為大數(shù)據(jù)領(lǐng)域最熱門(mén)的技術(shù)枕面。

相關(guān)網(wǎng)站：Apache Spark

Flink：Apache Flink是一個(gè)的開(kāi)源的流處理和批處理分布式數(shù)據(jù)處理框架，其核心是一個(gè)流式的數(shù)據(jù)流執(zhí)行引擎缚去。

Flink起源于Stratosphere項(xiàng)目潮秘，2014年4月Stratosphere代碼被貢獻(xiàn)給Apache軟件基金會(huì)成為孵化器項(xiàng)目，2014年12月17日成為Apache頂級(jí)項(xiàng)目易结，0.6版本以后改名為Flink枕荞，2015年09月發(fā)布第一個(gè)穩(wěn)定版本0.9稠通。

Flink的概念和使用場(chǎng)合類(lèi)似于Spark，旨在成為運(yùn)行批處理买猖、數(shù)據(jù)流處理改橘、交互處理、圖形處理和機(jī)器學(xué)習(xí)等應(yīng)用的一站式平臺(tái)玉控。

Flink不僅具有支持高吞吐飞主、低延遲和exactly-once語(yǔ)義的實(shí)時(shí)計(jì)算能力，還有基于流式計(jì)算引擎處理批量數(shù)據(jù)的計(jì)算能力高诺，真正意義實(shí)現(xiàn)了批流統(tǒng)一碌识，同時(shí)Flink運(yùn)行時(shí)本身也支持迭代算法的執(zhí)行。

Flink流式計(jì)算模型實(shí)現(xiàn)了高吞吐虱而，低延遲筏餐，高性能兼具實(shí)時(shí)流式計(jì)算框架，而且完全兼容Hadoop牡拇。

眾多優(yōu)秀的特性魁瞪，使得Flink成為開(kāi)源大數(shù)據(jù)數(shù)據(jù)處理框架中的一顆新星，在全球范圍內(nèi)惠呼，越來(lái)越多的公司開(kāi)始使用Flink导俘，F(xiàn)link也漸漸成為企業(yè)內(nèi)部主流的數(shù)據(jù)處理框架，逐漸成為下一代大數(shù)據(jù)數(shù)據(jù)處理框架標(biāo)準(zhǔn)的趨勢(shì)剔蹋。

相關(guān)網(wǎng)站：Apache Flink

Storm：Apache Storm是一個(gè)開(kāi)源的分布式實(shí)時(shí)大數(shù)據(jù)處理系統(tǒng)旅薄。Hadoop不擅長(zhǎng)實(shí)時(shí)計(jì)算，因?yàn)樗菫榕幚矶钠溃琒torm擅長(zhǎng)實(shí)時(shí)處理海量數(shù)據(jù)少梁，而非批處理。

Storm設(shè)計(jì)用于在容錯(cuò)和水平可擴(kuò)展方法中處理大量數(shù)據(jù)矫付。它是一個(gè)流數(shù)據(jù)框架凯沪，具有最高的攝取率。Storm最初由Nathan Marz創(chuàng)建技即，后來(lái)被Twitter收購(gòu)并開(kāi)源著洼。

2011年9月Storm正式發(fā)布，2013年9月進(jìn)入Apache孵化并于2014年9月17日畢業(yè)成為Apache頂級(jí)項(xiàng)目而叼，短時(shí)間內(nèi)Storm成為了分布式實(shí)時(shí)處理系統(tǒng)的標(biāo)準(zhǔn)。

Storm是用Java和Clojure編寫(xiě)豹悬，使用Apache Thrift葵陵，能以任何語(yǔ)言編寫(xiě)拓?fù)鋞opology。Storm提供了毫秒級(jí)別的實(shí)時(shí)數(shù)據(jù)處理能力瞻佛。

現(xiàn)在隨著Spark和Flink的發(fā)展脱篙，Storm市場(chǎng)占有逐漸在降低娇钱，但目前它仍然是實(shí)時(shí)分析的領(lǐng)導(dǎo)者。

相關(guān)網(wǎng)站：Apache Storm绊困、Apache Storm教程

Tez：Apache Tez是一個(gè)開(kāi)源的支持DAG作業(yè)的計(jì)算引擎文搂，它可以將多個(gè)有依賴(lài)的作業(yè)轉(zhuǎn)換為一個(gè)作業(yè)從而大幅提升DAG作業(yè)的性能。

Tez是Hortonworks開(kāi)發(fā)的DAG計(jì)算框架秤朗，是為了更高效地運(yùn)行存在依賴(lài)關(guān)系的作業(yè)（比如Pig和Hive產(chǎn)生的MapReduce作業(yè)）煤蹭，減少磁盤(pán)和網(wǎng)絡(luò)IO。2014年7月16日成為Apache頂級(jí)項(xiàng)目取视。

Tez是從MapReduce計(jì)算框架演化而來(lái)的通用DAG計(jì)算框架硝皂，可作為MapReduce、Pig作谭、Hive等系統(tǒng)的底層數(shù)據(jù)處理引擎稽物。簡(jiǎn)單來(lái)說(shuō)，Tez主要Apache和HDP平臺(tái)替代MR和Hive底層執(zhí)行引擎折欠，提高計(jì)算效率贝或。

相關(guān)網(wǎng)站：Apache Tez

Samza：Apache Samza是一種是分布式流處理框架，與Apache Kafka消息系統(tǒng)緊密綁定的流處理框架锐秦。是LinkedIn于2013年7月開(kāi)源并作為孵化項(xiàng)目貢獻(xiàn)給Apache傀缩，2015年1月21日成為Apache頂級(jí)項(xiàng)目。

它是一個(gè)分布式流處理框架农猬，專(zhuān)用于實(shí)時(shí)數(shù)據(jù)的處理赡艰，非常像Twitter的流處理系統(tǒng)Storm。不同的是Samza基于Hadoop斤葱，而且使用了LinkedIn自家的Kafka分布式消息系統(tǒng)慷垮。

Samza的目標(biāo)是將流作為接受到的消息處理，同時(shí)揍堕，Samza的流初始元素并不是一個(gè)tuple或一個(gè)DStream料身，而是一個(gè)消息，流被劃分到分區(qū)衩茸，每個(gè)分區(qū)是一個(gè)只讀消息的排序的序列芹血，每個(gè)消息有一個(gè)唯一的ID(offset)，系統(tǒng)也支持批處理楞慈，從同樣的流分區(qū)以順序消費(fèi)幾個(gè)消息幔烛，盡管Samza主要是依賴(lài)于Hadoop的Yarn和Apache Kafka，但是它的Execution & Streaming模塊是可插拔的囊蓝。

相關(guān)網(wǎng)站：Apache Samza饿悬、Apache Samza教程

Apex：Apache Apex是一個(gè)統(tǒng)一流和批處理引擎。作為新的開(kāi)源數(shù)據(jù)流分析方案聚霜，Apex脫胎于DataTorrent的RTS平臺(tái)狡恬，能夠帶來(lái)出色的速度表現(xiàn)并簡(jiǎn)化編程要求珠叔。

由DataTorrent在2012年創(chuàng)建，2015年8月貢獻(xiàn)給Apache弟劲，2016年4月20日成為Apache頂級(jí)項(xiàng)目祷安。Apex能夠在Hadoop上實(shí)現(xiàn)數(shù)據(jù)流分析。其設(shè)計(jì)目標(biāo)在于運(yùn)行Hadoop生態(tài)系統(tǒng)兔乞，并利用YARN實(shí)現(xiàn)按需規(guī)模伸縮且通過(guò)HDFS實(shí)現(xiàn)容錯(cuò)能力汇鞭。

相關(guān)網(wǎng)站：Apache Apex

Beam：Apache Beam是一個(gè)開(kāi)源的統(tǒng)一編程模型，用于定義和執(zhí)行并行數(shù)據(jù)處理管道报嵌。Beam主要是對(duì)數(shù)據(jù)處理的編程范式和接口進(jìn)行了統(tǒng)一定義虱咧，這樣基于Beam開(kāi)發(fā)的數(shù)據(jù)處理程序可以執(zhí)行在任意的分布式計(jì)算引擎上。

譽(yù)為下一代的大數(shù)據(jù)處理統(tǒng)一標(biāo)準(zhǔn)锚国。Google在2016年2月宣布將大數(shù)據(jù)流水線(xiàn)產(chǎn)品（Google DataFlow）貢獻(xiàn)給Apache基金會(huì)孵化腕巡，2016年12月21日成為Apache頂級(jí)項(xiàng)目，2017年5月發(fā)布第一個(gè)穩(wěn)定版本2.0.0血筑。

它的強(qiáng)大之處在于它能夠同時(shí)運(yùn)行批處理流和流式管道绘沉，并且由Beam支持的分布式處理后端之一執(zhí)行：Apache Apex，Apache Flink豺总，Apache Spark和Google Cloud Dataflow车伞。

相關(guān)網(wǎng)站：Apache Beam

Heron：Heron是一個(gè)實(shí)時(shí)的、容錯(cuò)的喻喳、分布式的流數(shù)據(jù)處理系統(tǒng)另玖。Twitter開(kāi)發(fā)的第二代流處理系統(tǒng)，于2016年5月25日宣布開(kāi)源表伦。2017年6月23日進(jìn)入Apache孵化器谦去。

Twitter宣稱(chēng)已經(jīng)用Heron替換了Storm。Heron是Apache Storm的直接繼承者蹦哼。它繼承了Apache Storm的實(shí)時(shí)性鳄哭、容錯(cuò)、低延遲的特性纲熏。

并且它保留了Apache Storm的Topology API妆丘，使用者可以直接將Apache Storm上構(gòu)建的Topology項(xiàng)目，直接轉(zhuǎn)移到Apache Storm中運(yùn)行而不需要做其他更改局劲。它廣泛應(yīng)用于實(shí)時(shí)分析勺拣、連續(xù)計(jì)算、復(fù)雜事件處理和一些實(shí)時(shí)性要求的應(yīng)用容握。

相比于A(yíng)pache Storm宣脉，它提供了擴(kuò)展性更好，調(diào)試能力更強(qiáng)剔氏，性能更好塑猖，管理更容易等特性。它能夠每秒鐘百萬(wàn)級(jí)別的吞吐量和毫秒級(jí)別的延遲谈跛。

相關(guān)網(wǎng)站：Heron源碼

數(shù)據(jù)查詢(xún)和分析

Hive：Apache Hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具羊苟，可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表，并提供類(lèi)SQL語(yǔ)句的Hive SQL（HQL）查詢(xún)功能感憾，將SQL語(yǔ)句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行蜡励。

Hive是由Facebook在2008年將捐獻(xiàn)給Apache，2010年9月畢業(yè)成為Apache頂級(jí)項(xiàng)目阻桅。原理是用熟悉的SQL模型來(lái)操作 HDFS 上的數(shù)據(jù) 凉倚。優(yōu)點(diǎn)是學(xué)習(xí)成本低，可以通過(guò)HQL語(yǔ)句快速實(shí)現(xiàn)簡(jiǎn)單的MapReduce統(tǒng)計(jì)嫂沉，不必開(kāi)發(fā)專(zhuān)門(mén)的MapReduce應(yīng)用稽寒。

方便的使用 Hive 進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)的建模和建設(shè)，然后使用 SQL 模型針對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和分析趟章。

但由于Hive底層默認(rèn)是轉(zhuǎn)換為MR執(zhí)行杏糙，而MR的shuffle是基于磁盤(pán)的，所以只能處理離線(xiàn)分析蚓土，效率比較低宏侍。目前大部分企業(yè)使用Hive構(gòu)建數(shù)倉(cāng)。

相關(guān)網(wǎng)站：Apache Hive

SparkSQL：Apache SparkSQL 是一個(gè)用來(lái)處理結(jié)構(gòu)化數(shù)據(jù)的spark組件蜀漆。Spark團(tuán)隊(duì)在2014年發(fā)布了Spark SQL谅河，并吸收了一個(gè)的早期的Hive-on-Spark項(xiàng)目Shark，迅速成為最廣泛使用的Spark模塊确丢。

它提供了一個(gè)叫做DataFrames的可編程抽象數(shù)據(jù)模型绷耍，并且可被視為一個(gè)分布式的SQL查詢(xún)引擎。SparkSQL替代的是Hive的查詢(xún)引擎蠕嫁，且兼容hive锨天。

跟基本的Spark RDD的API不同，Spark SQL中提供的接口將會(huì)提供給Spark更多關(guān)于結(jié)構(gòu)化數(shù)據(jù)和計(jì)算的信息剃毒。

Spark SQL底層是Spark Core病袄，這種意味著可以輕松地在不同的SQL和API之間進(jìn)行切換。

相關(guān)網(wǎng)站：Apache SparkSQL

Presto：Presto是一個(gè)分布式的數(shù)據(jù)查詢(xún)引擎赘阀。它本身并不存儲(chǔ)數(shù)據(jù)益缠，但是可以接入多種數(shù)據(jù)源，并且支持跨數(shù)據(jù)源的級(jí)聯(lián)查詢(xún)基公。是Facebook于2012年開(kāi)發(fā)幅慌，2013年開(kāi)源的分布式SQL交互式查詢(xún)引擎。

Presto是一個(gè)OLAP的工具轰豆，擅長(zhǎng)對(duì)海量數(shù)據(jù)進(jìn)行復(fù)雜的分析胰伍，但對(duì)于OLTP場(chǎng)景并不擅長(zhǎng)齿诞，Presto只有計(jì)算分析能力，所以不能把Presto當(dāng)做數(shù)據(jù)庫(kù)來(lái)使用骂租。

Presto是一個(gè)低延遲高并發(fā)的內(nèi)存計(jì)算引擎祷杈，相比Hive，執(zhí)行效率要高很多渗饮。是一種MPP（Massively parallel processing大規(guī)模并行處理）模型但汞，能處理PB級(jí)數(shù)據(jù)。

Presto的原理是將數(shù)據(jù)的一些放在內(nèi)存進(jìn)行計(jì)算互站，完成后取出私蕾，再處理另一些數(shù)據(jù)，這樣循環(huán)的類(lèi)似流水線(xiàn)的處理模式胡桃。

相關(guān)網(wǎng)站：Presto

Kylin：Apache Kylin是Hadoop大數(shù)據(jù)平臺(tái)上一個(gè)開(kāi)源的分布式分析引擎踩叭，提供Hadoop/Spark之上的SQL查詢(xún)接口及OLAP能力以支持超大規(guī)模數(shù)據(jù)。它采用Cube預(yù)計(jì)算技術(shù)标捺，可以將某些場(chǎng)景下的大數(shù)據(jù) SQL 查詢(xún)速度提升到亞秒級(jí)別懊纳。

Kylin始創(chuàng)于eBay，并在2014年11月加入Apache孵化器亡容，2015年12月8日成為Apache頂級(jí)項(xiàng)目嗤疯，是第一個(gè)中國(guó)團(tuán)隊(duì)主導(dǎo)貢獻(xiàn)的頂級(jí)項(xiàng)目。

Kylin它的出現(xiàn)就是為了解決大數(shù)據(jù)系統(tǒng)中TB級(jí)別的數(shù)據(jù)分析需求闺兢，主要是對(duì)hive中的數(shù)據(jù)進(jìn)行預(yù)計(jì)算茂缚，利用hadoop的MapReduce框架實(shí)現(xiàn)，它能在亞秒內(nèi)查詢(xún)巨大的Hive表屋谭。

在Kylin中最關(guān)鍵的兩個(gè)流程是Cube的預(yù)計(jì)算過(guò)程和SQL查詢(xún)轉(zhuǎn)換成Cube的過(guò)程脚囊，盡量多地預(yù)先計(jì)算聚合結(jié)果，在查詢(xún)時(shí)盡量利用預(yù)計(jì)算的結(jié)果得出查詢(xún)結(jié)果桐磁，從而避免直接掃描可能無(wú)限增大的原始記錄悔耘。

相關(guān)網(wǎng)站：Apache Kylin中文版

Impala：Apache Impala是一個(gè)實(shí)時(shí)交互SQL大數(shù)據(jù)查詢(xún)引擎。是Cloudera在受到Google的Dremel啟發(fā)下開(kāi)發(fā)的SQL On Hadoop開(kāi)源MPP查詢(xún)工具我擂，2012年10月開(kāi)源衬以，于2017年11月28日晉升為apache頂級(jí)項(xiàng)目。

Impala使用完全開(kāi)放的形式融入Hadoop生態(tài)校摩，允許用戶(hù)使用SQL操作Hadoop中的海量數(shù)據(jù)看峻，目前已經(jīng)支持更多存儲(chǔ)選擇，比如：Apache Kudu衙吩、Amazon S3互妓、Microsoft ADLS、本地存儲(chǔ)等。

最初Impala僅支持HDFS海量數(shù)據(jù)的交互式分析冯勉，其靈活性和領(lǐng)先的分析型數(shù)據(jù)庫(kù)性能推動(dòng)了Impala在全球企業(yè)中的大量部署澈蚌。

為企業(yè)業(yè)務(wù)提供BI和交互式SQL高效率分析支持，讓支持Impala的第三方生態(tài)系統(tǒng)快速增長(zhǎng)珠闰。與Apache Kudu項(xiàng)目惜浅，進(jìn)一步鞏固了Cloudera在開(kāi)源SQL領(lǐng)域的地位瘫辩。

相關(guān)網(wǎng)站：Apache Impala

Druid：Apache Druid是一個(gè)開(kāi)源的實(shí)時(shí)大數(shù)據(jù)分析引擎伏嗜，旨在快速處理大規(guī)模的數(shù)據(jù)，并能夠?qū)崿F(xiàn)快速查詢(xún)和分析伐厌。是Metamarkets推出的一個(gè)分布式內(nèi)存實(shí)時(shí)分析系統(tǒng)承绸，用于解決如何在大規(guī)模數(shù)據(jù)集下進(jìn)行快速的、交互式的查詢(xún)和分析挣轨。

2018年2月28日進(jìn)入Apache孵化器军熏。Druid就是為了解決海量數(shù)據(jù)上的實(shí)時(shí)分析，它提供了以交互方式訪(fǎng)問(wèn)數(shù)據(jù)的能力卷扮，數(shù)據(jù)可以實(shí)時(shí)攝入荡澎，進(jìn)入到Druid后立即可查，同時(shí)數(shù)據(jù)是幾乎是不可變晤锹。

通常是基于時(shí)序的事實(shí)事件摩幔，事實(shí)發(fā)生后進(jìn)入Druid，外部系統(tǒng)就可以對(duì)該事實(shí)進(jìn)行查詢(xún)鞭铆。

相關(guān)網(wǎng)站：Apache Druid

Elastic Search：Elastic Search（ES）是一個(gè)分布式可擴(kuò)展的實(shí)時(shí)搜索和分析引擎或衡，是一個(gè)建立在A(yíng)pache Lucene基礎(chǔ)上的搜索引擎。

由Shay Banon在2010年創(chuàng)建并開(kāi)源车遂，后來(lái)Shay和合伙人成立了公司專(zhuān)注打造ES封断，他們對(duì)ES進(jìn)行了一些商業(yè)化的包裝和支持。它提供了一個(gè)分布式多用戶(hù)能力的全文搜索引擎舶担，基于RESTful web接口坡疼。

ES的實(shí)現(xiàn)原理主要分為以下幾個(gè)步驟，首先用戶(hù)將數(shù)據(jù)提交到ES數(shù)據(jù)庫(kù)中衣陶，再通過(guò)分詞控制器去將對(duì)應(yīng)的語(yǔ)句分詞柄瑰，將其權(quán)重和分詞結(jié)果一并存入數(shù)據(jù)，當(dāng)用戶(hù)搜索數(shù)據(jù)時(shí)候祖搓，再根據(jù)權(quán)重將結(jié)果排名狱意，打分，再將返回結(jié)果呈現(xiàn)給用戶(hù)拯欧。

ES是用Java開(kāi)發(fā)的详囤，是當(dāng)前流行的企業(yè)級(jí)搜索引擎。設(shè)計(jì)用于云計(jì)算中，能夠達(dá)到實(shí)時(shí)搜索藏姐，穩(wěn)定隆箩，可靠，快速羔杨，安裝使用方便捌臊。官方客戶(hù)端在Java、.NET（C#）兜材、PHP理澎、Python、Apache Groovy曙寡、Ruby和許多其他語(yǔ)言中都是可用的糠爬。

根據(jù)DB-Engines的排名顯示，ES是最受歡迎的企業(yè)搜索引擎举庶，其次是Apache Solr执隧，也是基于Lucene。ES現(xiàn)在是Elastic的ELK家族成員之一户侥。

相關(guān)網(wǎng)站：ElasticSearch镀琉、ElasticSearch中文社區(qū)

HAWQ：Apache HAWQ（Hadoop With Query 帶查詢(xún)Hadoop）是一個(gè)Hadoop原生大規(guī)模并行SQL分析引擎，針對(duì)的是分析性應(yīng)用蕊唐。

HAWQ是Pivotal在2012年推出了一款商業(yè)許可的高性能SQL引擎屋摔，于2015年6月將項(xiàng)目捐獻(xiàn)給了Apache，并于2015年9月進(jìn)入了Apache孵化器刃泌，2018年8月15日成為Apache頂級(jí)項(xiàng)目凡壤。

HAWQ是Hadoop原生SQL查詢(xún)引擎，結(jié)合了MPP數(shù)據(jù)庫(kù)的關(guān)鍵技術(shù)優(yōu)勢(shì)和Hadoop的可擴(kuò)展性和便捷性耙替。官方宣稱(chēng)HAWQ做OLAP高于Hive和Impala性能4倍以上亚侠。它非常適合用于Hadoop平臺(tái)上快速構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)。

HAWQ具有大規(guī)模并行處理俗扇、完善的SQL兼容性硝烂、支持存儲(chǔ)過(guò)程和事務(wù)、出色的性能表現(xiàn)等特性铜幽，還可與開(kāi)源數(shù)據(jù)挖掘庫(kù)MADLib機(jī)器學(xué)習(xí)庫(kù)輕松整合滞谢，從而使用SQL就能進(jìn)行數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)。

相關(guān)網(wǎng)站：Apache HAWQ

Lucene：Apache Lucene是一套開(kāi)源的基于Java的用于全文檢索和搜尋的引擎工具包除抛，是一種功能強(qiáng)大且被廣泛使用的搜索引擎狮杨，由資深全文檢索專(zhuān)家Doug Cutting在2000年3月創(chuàng)建開(kāi)源，在2001年9月加入Apache的Jakarta家族中到忽。

Lucene并不是一個(gè)完整的搜索引擎產(chǎn)品橄教，而是一個(gè)全文檢索引擎的架構(gòu)清寇，可以用來(lái)制作搜索引擎產(chǎn)品。它是一個(gè)全文檢索引擎的架構(gòu)护蝶，提供了完整的創(chuàng)建索引和查詢(xún)索引华烟，以及部分文本分析的引擎。

Lucene的目的是為軟件開(kāi)發(fā)人員提供一個(gè)簡(jiǎn)單易用的工具包持灰，以方便在目標(biāo)系統(tǒng)中實(shí)現(xiàn)全文檢索的功能盔夜，或者是以此為基礎(chǔ)建立起完整的全文檢索引擎。

Lucene提供了一個(gè)簡(jiǎn)單卻強(qiáng)大的應(yīng)用程序接口（API）堤魁，能夠做全文索引和搜尋喂链，在Java開(kāi)發(fā)環(huán)境里L(fēng)ucene是一個(gè)成熟的免費(fèi)開(kāi)放源代碼工具。

相關(guān)網(wǎng)站：Apache Lucene

Solr：Apache Solr 是基于A(yíng)pache Lucene構(gòu)建的開(kāi)源的企業(yè)搜索平臺(tái)姨涡。2004年發(fā)布衩藤，2007年1月17日成為Apache頂級(jí)項(xiàng)目。Solr 具有高可靠性涛漂，可擴(kuò)展性和容錯(cuò)性，可提供分布式索引检诗，復(fù)制和負(fù)載均衡查詢(xún)匈仗，自動(dòng)故障轉(zhuǎn)移和恢復(fù)以及集中配置等特性。

Solr 是用 Java 編寫(xiě)逢慌、運(yùn)行在 Servlet 容器（如 Apache Tomcat 或Jetty）的一個(gè)獨(dú)立的全文搜索服務(wù)器悠轩。Solr 采用了Lucene Java 搜索庫(kù)為核心的全文索引和搜索，并具有類(lèi)似 REST 的 HTTP/XML 和 JSON 的 API攻泼。

Solr 強(qiáng)大的外部配置功能使得無(wú)需進(jìn)行 Java 編碼火架，便可對(duì)其進(jìn)行調(diào)整以適應(yīng)多種類(lèi)型的應(yīng)用程序。Solr 為世界上許多大型互聯(lián)網(wǎng)站點(diǎn)提供搜索和導(dǎo)航功能忙菠。

相關(guān)網(wǎng)站：Apache Solr

Phoenix：Apache Phoenix是構(gòu)建在HBase之上的SQL框架何鸡，可以使用標(biāo)準(zhǔn)的JDBC的API去代替常規(guī)的HBase客戶(hù)端的API去創(chuàng)建表，插入數(shù)據(jù)和查詢(xún)HBase數(shù)據(jù)牛欢。由Saleforce在2013年捐獻(xiàn)給Apache骡男，2014年5月項(xiàng)目畢業(yè)成為頂級(jí)項(xiàng)目。

它一個(gè)Java中間層傍睹，可以讓開(kāi)發(fā)者通過(guò)Phoenix可以像使用MySQL等關(guān)系型數(shù)據(jù)庫(kù)一樣使用HBase中的數(shù)據(jù)表隔盛。Phoenix會(huì)將用戶(hù)編寫(xiě)的SQL查詢(xún)編譯為一系列的Scan操作，最終產(chǎn)生通用的JDBC結(jié)果集返回給客戶(hù)端拾稳。

它充分利用了HBase協(xié)處理器和過(guò)濾器等底層吮炕，小范圍的查詢(xún)?cè)诤撩爰?jí)響應(yīng)，千萬(wàn)數(shù)據(jù)的話(huà)響應(yīng)速度為秒級(jí)访得。

相關(guān)網(wǎng)站：Apache Phoenix

數(shù)據(jù)收集

Flume：Apache Flume是一個(gè)分布式海量日志采集龙亲、聚合和傳輸系統(tǒng)。Flume最初由Cloudera由開(kāi)發(fā)，于2011年6月貢獻(xiàn)給Apache俱笛，2012年成為Apache頂級(jí)項(xiàng)目捆姜。

Flume支持在日志系統(tǒng)中定制各類(lèi)數(shù)據(jù)發(fā)送方，用于收集數(shù)據(jù)迎膜，同時(shí)泥技，F(xiàn)lume提供對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單處理，并寫(xiě)到各種數(shù)據(jù)接受方（可定制）的能力磕仅。Flume的數(shù)據(jù)流由事件（Event）貫穿始終珊豹。

事件是Flume的基本數(shù)據(jù)單位，它攜帶日志數(shù)據(jù)（字節(jié)數(shù)組形式）并且攜帶有頭信息榕订，這些Event由Agent外部的Source生成店茶，當(dāng)Source捕獲事件后會(huì)進(jìn)行特定的格式化，然后Source會(huì)把事件推入（單個(gè)或多個(gè)）Channel中。

可以把Channel看作是一個(gè)緩沖區(qū)，它將保存事件直到Sink處理完該事件捡多。Sink負(fù)責(zé)持久化日志或者把事件推向另一個(gè)Source菱皆。

相關(guān)網(wǎng)站：Apache Flume

Filebeat：Filebeat是本地文件的日志數(shù)據(jù)采集器。Filebeat是一個(gè)輕量級(jí)日志傳輸工具，它監(jiān)視日志目錄或特定日志文件（Tail File），并將它們轉(zhuǎn)發(fā)給Logstash、Elasticsearch趣些、Kafka、Redis等中贰您。

其作用是收集業(yè)務(wù)服務(wù)器的日志坏平，輸出到一個(gè)日志系統(tǒng)便于集中管理。Filebeat 是 Elastic Stack 的一部分锦亦，因此能夠與 Logstash舶替、Elasticsearch 和 Kibana 無(wú)縫協(xié)作。

無(wú)論您要使用 Logstash 轉(zhuǎn)換或充實(shí)日志和文件孽亲，還是在 Elasticsearch 中隨意處理一些數(shù)據(jù)分析坎穿，亦或在 Kibana 中構(gòu)建和分享儀表板，F(xiàn)ilebeat 都能輕松地將您的數(shù)據(jù)發(fā)送至最關(guān)鍵的地方返劲。

Filebeat占用資源少玲昧，而且安裝配置也比較簡(jiǎn)單，支持目前各類(lèi)主流OS及Docker平臺(tái)篮绿。

相關(guān)網(wǎng)站：Filebeat

Logstash：Logstash是一個(gè)具有實(shí)時(shí)管道功能的開(kāi)源數(shù)據(jù)收集引擎孵延。它可以動(dòng)態(tài)地將來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)統(tǒng)一起來(lái)，并將數(shù)據(jù)規(guī)范化到選擇的目的地亲配。

可以用它來(lái)統(tǒng)一對(duì)應(yīng)用程序日志進(jìn)行收集管理尘应，提供 Web 接口用于查詢(xún)和統(tǒng)計(jì)惶凝。Logstash作為一個(gè)數(shù)據(jù)管道中間件，支持對(duì)各種類(lèi)型數(shù)據(jù)的采集與轉(zhuǎn)換犬钢，并將數(shù)據(jù)發(fā)送到各種類(lèi)型的存儲(chǔ)庫(kù)苍鲜。Logstash現(xiàn)在是Elastic的ELK家族成員之一。

相關(guān)網(wǎng)站：Logstash中文社區(qū)

Chukwa：Apache Chukwa 是一個(gè)開(kāi)源的用于監(jiān)控大型分布式系統(tǒng)的數(shù)據(jù)收集系統(tǒng)玷犹。2010年7月14日進(jìn)入Apache孵化器混滔，2013年9月27日成為Apache頂級(jí)項(xiàng)目。

它是構(gòu)建在 hadoop 的 hdfs 和 MapReduce 框架之上的歹颓，繼承了 Hadoop 的可伸縮性和健壯性坯屿。Chukwa 還包含了一個(gè)強(qiáng)大和靈活的工具集，可用于展示巍扛、監(jiān)控和分析已收集的數(shù)據(jù)领跛。

Chukwa用于管理大型分布式系統(tǒng)的數(shù)據(jù)收集系統(tǒng)(2000+以上的節(jié)點(diǎn)，系統(tǒng)每天產(chǎn)生的監(jiān)控?cái)?shù)據(jù)量在T級(jí)別)撤奸。

相關(guān)網(wǎng)站：Apache Chukwa

數(shù)據(jù)交換

Sqoop：Apache Sqoop 是一款數(shù)據(jù)遷移工具吠昭，用來(lái)在不同數(shù)據(jù)存儲(chǔ)軟件之間進(jìn)行數(shù)據(jù)傳輸?shù)拈_(kāi)源軟件，它支持多種類(lèi)型的數(shù)據(jù)儲(chǔ)存軟件寂呛。

用來(lái)在關(guān)系型數(shù)據(jù)庫(kù)和Hadoop/Hive間進(jìn)行數(shù)據(jù)遷移怎诫，方便大量數(shù)據(jù)的導(dǎo)入導(dǎo)出工作。Sqoop底層是通過(guò)MapReduce去實(shí)現(xiàn)的贷痪，但只有Map沒(méi)有Reduce。

Sqoop項(xiàng)目開(kāi)始于2009年蹦误，最早是作為Hadoop的一個(gè)第三方模塊存在劫拢，后來(lái)獨(dú)立成為一個(gè)Apache項(xiàng)目，于2012年3月成為Apache頂級(jí)項(xiàng)目强胰。

相關(guān)網(wǎng)站：Apache Sqoop

Kettle：Kettle是一款國(guó)外開(kāi)源的ETL工具舱沧，純java編寫(xiě)，可以在Window偶洋、Linux熟吏、Unix上運(yùn)行，數(shù)據(jù)抽取高效穩(wěn)定玄窝∏Ｋ拢可以將各種類(lèi)型數(shù)據(jù)作為數(shù)據(jù)流，經(jīng)過(guò)處理后再生成各種類(lèi)型的數(shù)據(jù)恩脂。

相關(guān)網(wǎng)站：Kettle中文網(wǎng)

DataX：DataX 是阿里巴巴開(kāi)源的離線(xiàn)數(shù)據(jù)同步工具/平臺(tái)帽氓，致力于實(shí)現(xiàn)包括關(guān)系型數(shù)據(jù)庫(kù)(MySQL、Oracle等)俩块、HDFS黎休、Hive浓领、ODPS、HBase势腮、FTP等各種異構(gòu)數(shù)據(jù)源之間穩(wěn)定高效的數(shù)據(jù)同步功能联贩。

相關(guān)網(wǎng)站：DataX源碼

NIFI：Apache NiFi 是一個(gè)易于使用、功能強(qiáng)大而且可靠的數(shù)據(jù)拉取捎拯、數(shù)據(jù)處理和分發(fā)系統(tǒng)泪幌。基于Web圖形界面玄渗，通過(guò)拖拽座菠、連接、配置完成基于流程的編程藤树，實(shí)現(xiàn)數(shù)據(jù)采集等功能浴滴。

NiFi是美國(guó)國(guó)家安全局NAS開(kāi)發(fā)并使用了8年的可視化數(shù)據(jù)集成產(chǎn)品，2014年貢獻(xiàn)給了Apache社區(qū)岁钓，2015年成為Apache頂級(jí)項(xiàng)目升略。是為數(shù)據(jù)流設(shè)計(jì)。

它支持高度可配置的指示圖的數(shù)據(jù)路由屡限、轉(zhuǎn)換和系統(tǒng)中介邏輯品嚣，支持從多種數(shù)據(jù)源動(dòng)態(tài)拉取數(shù)據(jù)。NiFi是基于Java的钧大，使用Maven支持包的構(gòu)建管理翰撑。NiFi基于Web方式工作，后臺(tái)在服務(wù)器上進(jìn)行調(diào)度啊央。

用戶(hù)可以為數(shù)據(jù)處理定義為一個(gè)流程眶诈，然后進(jìn)行處理，后臺(tái)具有數(shù)據(jù)處理引擎瓜饥、任務(wù)調(diào)度等組件逝撬。

相關(guān)網(wǎng)站：Apache NIFI

消息系統(tǒng)

Pulsar：Apache Pulsar是一個(gè)開(kāi)源的企業(yè)級(jí)分布式消息系統(tǒng)。項(xiàng)目于2015年由 Yahoo 開(kāi)源乓土，2017年6月提交給 Apache孵化器宪潮，2018年9月成為Apache的頂級(jí)項(xiàng)目。Pulsar在消息趣苏、計(jì)算和存儲(chǔ)三個(gè)方面進(jìn)行的協(xié)調(diào)狡相、抽象和統(tǒng)一。

Pulsar對(duì)pub-sub和 queue兩種模式提供統(tǒng)一的支持拦键，同時(shí)保證了一致性谣光，高性能和易擴(kuò)展性。Pulsar同時(shí)支持處理實(shí)時(shí)流和消息隊(duì)列芬为，內(nèi)部的 Pulsar-Functions 提供了 Stream-native 的輕量級(jí)計(jì)算框架萄金，保證了數(shù)據(jù)的即時(shí)流式處理蟀悦。

Pulsar借助Apache BookKeeper提供了以 segment 為中心的存儲(chǔ)架構(gòu)，保證了存儲(chǔ)的性能氧敢，持久性和彈性日戈。Pulsar是無(wú)狀態(tài)的，在Pulsar架構(gòu)中孙乖，數(shù)據(jù)的分發(fā)和保存是相互獨(dú)立的浙炼。

broker 從生產(chǎn)者接收數(shù)據(jù)，然后將數(shù)據(jù)發(fā)送給消費(fèi)者唯袄，但數(shù)據(jù)是保存在 BookKeeper 中的弯屈。Pulsar支持跨域復(fù)制。Pulsar是下一代分布式消息隊(duì)列恋拷，有替代Kafka的趨勢(shì)资厉。

相關(guān)網(wǎng)站：Apache Pulsar

Kafka：Apache Kafka是一個(gè)發(fā)布/訂閱的消息系統(tǒng)，由Scala寫(xiě)成蔬顾。Kafka最初是由LinkedIn開(kāi)發(fā)宴偿，并于2011年初開(kāi)源，2012年10月從Apache畢業(yè)成為頂級(jí)項(xiàng)目诀豁。

該項(xiàng)目的目標(biāo)是為處理實(shí)時(shí)數(shù)據(jù)提供一個(gè)統(tǒng)一窄刘、高通量、低等待的平臺(tái)舷胜。Kafka是一個(gè)分布式的娩践、分區(qū)的、多復(fù)本的日志提交服務(wù)烹骨。是目前使用最廣泛的消息系統(tǒng)欺矫。

相關(guān)網(wǎng)站：Apache Kafka、Apache Kafka中文文檔

RocketMQ：Apache RocketMQ是一款分布式展氓、隊(duì)列模型的消息中間件。是阿里巴巴在2012年開(kāi)源脸爱，于2016年11月成為Apache孵化項(xiàng)目遇汞， 2017年9月25日成為Apache頂級(jí)項(xiàng)目。

它借鑒參考了JMS規(guī)范的MQ實(shí)現(xiàn)簿废，更參考了優(yōu)秀的開(kāi)源消息中間件Kafka空入，并且結(jié)合阿里實(shí)際業(yè)務(wù)需求在天貓雙十一的場(chǎng)景，實(shí)現(xiàn)業(yè)務(wù)削峰族檬，分布式事務(wù)的優(yōu)秀框架歪赢。

它提供了豐富的消息拉取模式，高效的訂閱者水平擴(kuò)展能力单料，實(shí)時(shí)的消息訂閱機(jī)制埋凯，億級(jí)消息堆積能力点楼，且具備了連接其它頂級(jí)開(kāi)源生態(tài)（如Spark、Ignite和Storm等）能力白对。

相關(guān)網(wǎng)站：Apache RocketMQ

ActiveMQ：Apache ActiveMQ是Apache所提供的一個(gè)開(kāi)源的消息系統(tǒng)掠廓，完全采用Java來(lái)實(shí)現(xiàn)。它是一款歷史悠久的開(kāi)源項(xiàng)目甩恼，2007年成為Apache頂級(jí)項(xiàng)目蟀瞧。

已經(jīng)在很多產(chǎn)品中得到應(yīng)用，實(shí)現(xiàn)了JMS1.1規(guī)范条摸，可以和Spring-JMS輕松融合悦污，實(shí)現(xiàn)了多種協(xié)議。有多重語(yǔ)言的成熟的客戶(hù)端钉蒲。不夠輕巧切端，支持持久化到數(shù)據(jù)庫(kù)，對(duì)隊(duì)列數(shù)較多的情況支持不好子巾。

相關(guān)網(wǎng)站：Apache ActiveMQ

RabbitMQ：RabbitMQ是基于 AMQP 實(shí)現(xiàn)的一個(gè)開(kāi)源消息組件帆赢，主要用于在分布式系統(tǒng)中存儲(chǔ)轉(zhuǎn)發(fā)消息。是一個(gè)消息代理和隊(duì)列服務(wù)器线梗，可以在完全不同的應(yīng)用之間共享數(shù)據(jù)椰于。

使用Erlang語(yǔ)言開(kāi)發(fā)，具有很好的并發(fā)優(yōu)勢(shì)仪搔，性能較好瘾婿。支持消息持久化。

相關(guān)網(wǎng)站：RabbitMQ

任務(wù)調(diào)度

Azkaban：Azkaban是由Linkedin開(kāi)源的一個(gè)批量工作流任務(wù)調(diào)度器烤咧。使用Java開(kāi)發(fā)偏陪。用于在一個(gè)工作流內(nèi)以一個(gè)特定的順序運(yùn)行一組工作和流程。

Azkaban定義了一種KV文件格式來(lái)建立任務(wù)之間的依賴(lài)關(guān)系煮嫌，并提供一個(gè)易于使用的web用戶(hù)界面維護(hù)和跟蹤工作流笛谦。

Azkaban通過(guò)Web瀏覽器在GUI中進(jìn)行基于時(shí)間的調(diào)度，將所有正在運(yùn)行的工作流的狀態(tài)保存在其內(nèi)存中昌阿。

相關(guān)網(wǎng)站：Azkaban

Oozie：Apache Oozie是一個(gè)基于Hadoop的企業(yè)級(jí)工作流調(diào)度框架饥脑。Oozie是Cloudeara貢獻(xiàn)給Apache的頂級(jí)項(xiàng)目。

它關(guān)注靈活性和創(chuàng)建復(fù)雜的工作流程懦冰，允許由時(shí)間灶轰，事件或數(shù)據(jù)可用性觸發(fā)作業(yè)，可以通過(guò)命令行刷钢、Java API笋颤、Web瀏覽器，以及GUI操作内地。它以XML的形式寫(xiě)調(diào)度流程伴澄，可以調(diào)度MR赋除、Hive、Spark秉版、Pig贤重、Shell、Jar等等清焕。

Oozie將所有正在運(yùn)行的工作流的狀態(tài)保存SQL數(shù)據(jù)庫(kù)并蝗，僅將其內(nèi)存用于狀態(tài)事務(wù)。相比于A(yíng)zkaban秸妥，Oozie屬于重量級(jí)的任務(wù)調(diào)度工具滚停。

相關(guān)網(wǎng)站：Apache Oozie

Airflow：Apache Airflow是一個(gè)靈活，可擴(kuò)展的工作流自動(dòng)化和調(diào)度系統(tǒng)粥惧，是基于DAG的一種調(diào)度器键畴，可編譯和管理數(shù)百PB的數(shù)據(jù)。Airflow最初由Airbnb于2014年創(chuàng)建突雪，2016年3月提交給Apache孵化器起惕，2019年1月成為Apache頂級(jí)項(xiàng)目。

Airflow可以輕松地協(xié)調(diào)復(fù)雜的計(jì)算工作流程咏删，通過(guò)智能調(diào)度惹想，數(shù)據(jù)庫(kù)和依賴(lài)關(guān)系管理，錯(cuò)誤處理和日志記錄督函，可以自動(dòng)化從單個(gè)服務(wù)器到大型群集的資源管理嘀粱。該項(xiàng)目是用Python編寫(xiě)的，具有高度可擴(kuò)展性辰狡，能夠運(yùn)行用其他語(yǔ)言編寫(xiě)的任務(wù)锋叨，并允許與常見(jiàn)的體系結(jié)構(gòu)和項(xiàng)目集成，如AWS S3宛篇，Docker娃磺，Kubernetes，MySQL叫倍，Postgres等豌鸡。

據(jù)悉，Apache Airflow 目前正被 200 多個(gè)組織使用段标，包括 Adobe、Airbnb炉奴、Astronomer逼庞、Etsy、Google瞻赶、ING赛糟、Lyft派任、NYC City Planning、Paypal璧南、Polidea掌逛、Qubole、Quizlet司倚、Reddit豆混、Reply、Solita动知、Square皿伺、Twitter 等。

相關(guān)網(wǎng)站：Apache Airflow

數(shù)據(jù)治理

Ranger：Apache Ranger 是一個(gè)用在 Hadoop 平臺(tái)上并提供操作盒粮、監(jiān)控鸵鸥、管理綜合數(shù)據(jù)安全的框架，它提供一個(gè)集中的管理機(jī)制丹皱，管理基于A(yíng)pache Hadoop生態(tài)圈的所有數(shù)據(jù)權(quán)限妒穴。

Ranger是由Hortonworks所主導(dǎo)，2014年7月24日進(jìn)入Apache孵化摊崭，2017年1月18日成為Apache的頂級(jí)項(xiàng)目讼油。隨著Apache YARN的出現(xiàn)，Hadoop平臺(tái)現(xiàn)在可以支持一個(gè)真正的數(shù)據(jù)湖體系結(jié)構(gòu)爽室。

企業(yè)可以在多租戶(hù)環(huán)境中運(yùn)行多個(gè)工作負(fù)載汁讼，因此， Hadoop中的數(shù)據(jù)安全性需要發(fā)展阔墩。Apache Ranger 提供最全面的安全覆蓋嘿架，本地支持眾多 Apache 項(xiàng)目，包括Atlas啸箫、HDFS耸彪、HBase、Hive忘苛、Kafka蝉娜、Knox、NiFi扎唾、Solr召川、Storm 和 YARN。

Ranger 通過(guò)訪(fǎng)問(wèn)控制策略提供了一種標(biāo)準(zhǔn)的授權(quán)方法胸遇。作為標(biāo)準(zhǔn)荧呐，Ranger提供了一種集中式的組件，用于審計(jì)用戶(hù)的訪(fǎng)問(wèn)行為和管理組件間的安全交互行為。Ranger 使用了一種基于屬性的方法定義和強(qiáng)制實(shí)施安全策略倍阐。

當(dāng)與 Apache Hadoop 的數(shù)據(jù)治理解決方案和元數(shù)據(jù)倉(cāng)儲(chǔ)組件Apache Atlas一起使用時(shí)概疆，它可以定義一種基于標(biāo)簽的安全服務(wù)，通過(guò)使用標(biāo)簽對(duì)文件和數(shù)據(jù)資產(chǎn)進(jìn)行分類(lèi)峰搪，并控制用戶(hù)和用戶(hù)組對(duì)一系列標(biāo)簽的訪(fǎng)問(wèn)岔冀。

相關(guān)網(wǎng)站：Apache Ranger

Sentry：Apache Sentry是一個(gè)為Hadoop集群元數(shù)據(jù)和數(shù)據(jù)存儲(chǔ)提供集中、細(xì)粒度的訪(fǎng)問(wèn)控制項(xiàng)目概耻。Sentry是由Cloudera開(kāi)發(fā)使套，2013年8月成為Apache的孵化項(xiàng)目，2016年3月16日成為Apache頂級(jí)項(xiàng)目咐蚯。

初衷是為了讓用戶(hù)能夠細(xì)粒度的控制Hadoop系統(tǒng)中的數(shù)據(jù)童漩，所以Sentry對(duì)HDFS，Hive以及同樣由Cloudera開(kāi)發(fā)的Impala有著很好的支持性春锋。Sentry旨在成為Hadoop各組件的可插拔授權(quán)引擎矫膨。

它允許您定義授權(quán)規(guī)則以驗(yàn)證用戶(hù)或應(yīng)用程序?qū)adoop資源的訪(fǎng)問(wèn)請(qǐng)求。Sentry是高度模塊化的期奔，可以支持Hadoop中各種數(shù)據(jù)模型的授權(quán)侧馅。

Sentry是一個(gè)RPC服務(wù)，將認(rèn)證元數(shù)據(jù)信息存儲(chǔ)在關(guān)系型數(shù)據(jù)庫(kù)呐萌，并提供RPC接口檢索和操作權(quán)限馁痴。

相關(guān)網(wǎng)站：Apache Sentry

Atlas：Apache Atlas是Apache Hadoop的數(shù)據(jù)和元數(shù)據(jù)治理的框架，是Hortonworks 公司聯(lián)合其他廠(chǎng)商與用戶(hù)于2015年發(fā)起數(shù)據(jù)治理倡議肺孤，2015年5月5日進(jìn)入Apache孵化罗晕，2017年6月21日成為Apache頂級(jí)項(xiàng)目。

是為解決Hadoop生態(tài)系統(tǒng)的元數(shù)據(jù)治理問(wèn)題而產(chǎn)生的開(kāi)源項(xiàng)目赠堵。它為Hadoop集群提供了包括數(shù)據(jù)分類(lèi)小渊、集中策略引擎、數(shù)據(jù)血緣茫叭、安全和生命周期管理在內(nèi)的元數(shù)據(jù)治理核心登能力酬屉。

Atlas是一組可伸縮和可擴(kuò)展的核心基礎(chǔ)治理服務(wù)，使企業(yè)能夠有效和高效地滿(mǎn)足Hadoop中的遵從性需求揍愁，并允許與整個(gè)企業(yè)數(shù)據(jù)生態(tài)系統(tǒng)進(jìn)行集成呐萨。

Atlas用于管理共享元數(shù)據(jù)、數(shù)據(jù)分級(jí)莽囤、審計(jì)谬擦、安全性以及數(shù)據(jù)保護(hù)等方面，與Apache Ranger整合朽缎，用于數(shù)據(jù)權(quán)限控制策略怯屉。

相關(guān)網(wǎng)站：Apache Atlas

數(shù)據(jù)可視化

Kibana：Kibana 是一個(gè)設(shè)計(jì)出來(lái)用于和 Elasticsearch 一起使用的開(kāi)源的分析與可視化平臺(tái)蔚舀，可以用 Kibana 搜索、查看锨络、交互存放在Elasticsearch 索引里的數(shù)據(jù)，使用各種不同的圖表狼牺、表格羡儿、地圖等展示高級(jí)數(shù)據(jù)分析與可視化，基于瀏覽器的接口使你能快速創(chuàng)建和分享實(shí)時(shí)展現(xiàn)Elasticsearch查詢(xún)變化的動(dòng)態(tài)儀表盤(pán)是钥，讓大量數(shù)據(jù)變得簡(jiǎn)單掠归，容易理解。Kibana 現(xiàn)在是Elastic的ELK家族成員之一悄泥。

相關(guān)網(wǎng)站：Kibana中文社區(qū)

D3.js：D3（Data-Driven Documents 數(shù)據(jù)驅(qū)動(dòng)文檔）是一個(gè)開(kāi)源數(shù)據(jù)可視化項(xiàng)目虏冻，由紐約時(shí)報(bào)的工程師在2011年2月首次發(fā)布。D3其實(shí)就是一個(gè)JavaScript的函數(shù)庫(kù)弹囚，被稱(chēng)為一個(gè)互動(dòng)和動(dòng)態(tài)的數(shù)據(jù)可視化庫(kù)網(wǎng)絡(luò)厨相。

D3 項(xiàng)目的代碼托管于 GitHubJavaScript 文件的后綴名通常為 .js，故 D3 也常使用 D3.js 稱(chēng)呼鸥鹉。D3 提供了各種簡(jiǎn)單易用的函數(shù)蛮穿，大大簡(jiǎn)化了 JavaScript 操作數(shù)據(jù)的難度。

由于它本質(zhì)上是 JavaScript 毁渗，所以用 JavaScript 也可以實(shí)現(xiàn)所有功能的践磅，但它能大大減小了工作量，尤其是在數(shù)據(jù)可視化方面灸异，D3 已經(jīng)將生成可視化的復(fù)雜步驟精簡(jiǎn)到了幾個(gè)簡(jiǎn)單的函數(shù)府适，只需要輸入幾個(gè)簡(jiǎn)單的數(shù)據(jù)，就能夠轉(zhuǎn)換為各種絢麗的圖形肺樟。

D3利用可縮放矢量圖形或SVG格式檐春，允許您渲染可放大或縮小的形狀，線(xiàn)條和填充儡嘶，而不會(huì)降低質(zhì)量喇聊。

相關(guān)網(wǎng)站：D3.js

ECharts：ECharts（Enterprise Charts 商業(yè)產(chǎn)品圖表庫(kù)）是一個(gè)提供商業(yè)產(chǎn)品常用圖表的純Javascript的圖表庫(kù)。由百度開(kāi)源蹦狂，于2018年1月進(jìn)入Apache孵化器誓篱。

它可以流暢的運(yùn)行在 PC 和移動(dòng)設(shè)備上，兼容當(dāng)前絕大部分瀏覽器凯楔，底層依賴(lài)輕量級(jí)的矢量圖形庫(kù) ZRender窜骄，提供直觀(guān)，交互豐富摆屯，可高度個(gè)性化定制的數(shù)據(jù)可視化圖表邻遏。

相關(guān)網(wǎng)站：ECharts

數(shù)據(jù)挖掘

Mahout：Apache Mahout 是機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的一個(gè)分布式框架糠亩，它是基于hadoop之上的。它提供一些可擴(kuò)展的機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典算法的實(shí)現(xiàn)准验，旨在幫助開(kāi)發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序赎线。

Mahout包含許多實(shí)現(xiàn)，包括聚類(lèi)糊饱、分類(lèi)垂寥、推薦過(guò)濾、頻繁子項(xiàng)挖掘另锋，主要核心的三大算法為推薦滞项，聚類(lèi)及分類(lèi)算法。此外夭坪，通過(guò)使用 Apache Hadoop 庫(kù)文判，Mahout 可以有效地?cái)U(kuò)展到云中。

相關(guān)網(wǎng)站：Apache Mahout

MADlib：Apache MADlib 是一個(gè)基于SQL的數(shù)據(jù)庫(kù)內(nèi)置的可擴(kuò)展的機(jī)器學(xué)習(xí)庫(kù)室梅。是Pivotal公司與UCBerkeley合作開(kāi)發(fā)戏仓，2015年9月進(jìn)入Apache孵化器，于2017年7月19日畢業(yè)成為Apache頂級(jí)項(xiàng)目竞惋。

MADlib提供了精確的數(shù)據(jù)并行實(shí)現(xiàn)柜去、統(tǒng)計(jì)和機(jī)器學(xué)習(xí)方法對(duì)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析。提供了豐富的分析模型拆宛，包括回歸分析嗓奢，決策樹(shù)，隨機(jī)森林浑厚，貝葉斯分類(lèi)股耽，向量機(jī)，風(fēng)險(xiǎn)模型钳幅，KMEAN聚集物蝙，文本挖掘，數(shù)據(jù)校驗(yàn)等敢艰。

In-Database Analytics的特性使其大大擴(kuò)展了數(shù)據(jù)庫(kù)的分析功能诬乞，充分利用MPP架構(gòu)使其能夠快速處理海量數(shù)據(jù)集。MADlib 可以與Apache HAWQ钠导、PostgreSQL和Greenplum等數(shù)據(jù)庫(kù)系統(tǒng)無(wú)縫集成震嫉。

DBAer不用現(xiàn)學(xué)Python、R或MATLAB牡属，只要使用MADlib票堵，用SQL就能實(shí)現(xiàn)簡(jiǎn)單的數(shù)據(jù)挖掘。

相關(guān)網(wǎng)站：Apache MADlib

Spark MLlib：Apache Spark MLlib是Spark的機(jī)器學(xué)習(xí)庫(kù)逮栅，是Apache Spark的一個(gè)組成模塊悴势。MLlib由一些通用的學(xué)習(xí)算法和工具組成窗宇，包括分類(lèi)、回歸特纤、聚類(lèi)军俊、協(xié)同過(guò)濾、降維等捧存，同時(shí)還包括底層的優(yōu)化原語(yǔ)和高層的管道API蝇完。

Spark設(shè)計(jì)的初衷就是用來(lái)進(jìn)行迭代計(jì)算。它基于內(nèi)存的計(jì)算模型天生就擅長(zhǎng)迭代計(jì)算，多個(gè)步驟計(jì)算直接在內(nèi)存中完成，只有在必要時(shí)才會(huì)操作磁盤(pán)和網(wǎng)絡(luò)昏翰，所以說(shuō)Spark正是機(jī)器學(xué)習(xí)的理想的平臺(tái)浇辜。

利用Spark基于內(nèi)存迭代計(jì)算、機(jī)器學(xué)習(xí)的優(yōu)勢(shì)岖研，使用Spark處理數(shù)據(jù)挖掘?qū)?huì)更顯得有價(jià)值卿操。MLllib目前分為兩個(gè)代碼包：spark.mllib庫(kù)基于RDD的原始算法API；spark.ml庫(kù)基于DataaFrame的高層次的API孙援。

Spark2.0以后害淤，Spark MLlib進(jìn)入維護(hù)不再更新，預(yù)計(jì)Spark3.0以后被廢除拓售，完全轉(zhuǎn)向Spark ML窥摄。

相關(guān)網(wǎng)站：Apache Spark MLlib

Tensorflow：TensorFlow是一個(gè)開(kāi)源的基于數(shù)據(jù)流圖的機(jī)器學(xué)習(xí)框架，它是Google Brain的第二代機(jī)器學(xué)習(xí)系統(tǒng)础淤，常被應(yīng)用于各種感知崭放、語(yǔ)言理解、語(yǔ)音識(shí)別鸽凶、圖像識(shí)別等多項(xiàng)機(jī)器深度學(xué)習(xí)領(lǐng)域币砂。

TensorFlow是一個(gè)采用數(shù)據(jù)流圖（Data Flow Graphs），用于數(shù)值計(jì)算的開(kāi)源軟件庫(kù)玻侥。節(jié)點(diǎn)（Nodes）在圖中表示數(shù)學(xué)操作决摧，張量（Tensor）代表了多維數(shù)組，圖中的線(xiàn)（Edges）則表示在節(jié)點(diǎn)間相互聯(lián)系的多維數(shù)據(jù)數(shù)組凑兰，即張量掌桩，流（Flow）代表了基于數(shù)據(jù)流圖的計(jì)算。

它靈活的架構(gòu)讓你可以在多種平臺(tái)上展開(kāi)計(jì)算票摇，例如臺(tái)式計(jì)算機(jī)中的一個(gè)或多個(gè)CPU（或GPU）拘鞋，服務(wù)器，移動(dòng)設(shè)備等等矢门。TensorFlow 最初由Google大腦小組（隸屬于Google機(jī)器智能研究機(jī)構(gòu)）的研究員和工程師們開(kāi)發(fā)出來(lái)盆色，用于機(jī)器學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)方面的研究灰蛙，但這個(gè)系統(tǒng)的通用性使其也可廣泛用于其他計(jì)算領(lǐng)域。

相關(guān)網(wǎng)站：Tensorflow隔躲、Tensorflow中文社區(qū)

Keras：Keras是一個(gè)基于TensorFlow的深度學(xué)習(xí)庫(kù)摩梧，其特點(diǎn)是對(duì)用戶(hù)友好的，并且能夠提供簡(jiǎn)易和快速的原型設(shè)計(jì)宣旱。

Keras是一個(gè)由Python編寫(xiě)的開(kāi)源人工神經(jīng)網(wǎng)絡(luò)庫(kù)仅父，可以作為T(mén)ensorflow、Microsoft-CNTK和Theano的高階應(yīng)用程序接口浑吟，進(jìn)行深度學(xué)習(xí)模型的設(shè)計(jì)笙纤、調(diào)試、評(píng)估组力、應(yīng)用和可視化省容。Keras 為支持快速實(shí)驗(yàn)而生，能夠把你的idea迅速轉(zhuǎn)換為結(jié)果燎字。

相關(guān)網(wǎng)站：Keras

云平臺(tái)

AWS S3：Amazon S3（Amazon Simple Storage Service ）是一種對(duì)象存儲(chǔ)服務(wù)腥椒，提供行業(yè)領(lǐng)先的可擴(kuò)展性、數(shù)據(jù)可用性候衍、安全性和性能笼蛛。

這意味著各種規(guī)模和行業(yè)的客戶(hù)都可以使用它來(lái)存儲(chǔ)和保護(hù)各種用例（如網(wǎng)站、移動(dòng)應(yīng)用程序蛉鹿、備份和還原滨砍、存檔、企業(yè)應(yīng)用程序榨为、IoT 設(shè)備和大數(shù)據(jù)分析）的任意數(shù)量的數(shù)據(jù)惨好。

Amazon S3 提供了易于使用的管理功能，因此您可以組織數(shù)據(jù)并配置精細(xì)調(diào)整過(guò)的訪(fǎng)問(wèn)控制以滿(mǎn)足特定的業(yè)務(wù)随闺、組織和合規(guī)性要求日川。

相關(guān)網(wǎng)站：AWS S3

GCP：GCP（Google Cloud Platform）是Google提供的一套云計(jì)算服務(wù)。它提供一系列模塊化云服務(wù)矩乐，包括計(jì)算龄句、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析和機(jī)器學(xué)習(xí)散罕。

Google把運(yùn)行各種網(wǎng)絡(luò)應(yīng)用所需要的一切基礎(chǔ)架構(gòu)分歇，包括服務(wù)器、操作系統(tǒng)欧漱、應(yīng)用軟件职抡、網(wǎng)站架構(gòu)、API接口误甚、數(shù)據(jù)庫(kù)缚甩、CDN谱净、VPN、物聯(lián)網(wǎng)擅威、大數(shù)據(jù)等等全部預(yù)先準(zhǔn)備好壕探。

你只需要在google云平臺(tái)上注冊(cè)一個(gè)帳號(hào)，即可在分布在全球各地?cái)?shù)十個(gè)google機(jī)房使用所有的基礎(chǔ)架構(gòu)服務(wù)郊丛。

相關(guān)網(wǎng)站：GCP

Microsoft Azure：Azure是Microsoft提供的企業(yè)級(jí)云計(jì)算平臺(tái)李请。Azure的主要目標(biāo)是為開(kāi)發(fā)者提供一個(gè)平臺(tái)，幫助開(kāi)發(fā)可運(yùn)行在云服務(wù)器厉熟、數(shù)據(jù)中心导盅、Web和PC上的應(yīng)用程序。

本文使用文章同步助手同步

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末揍瑟，一起剝皮案震驚了整個(gè)濱河市认轨，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌月培，老刑警劉巖，帶你破解...
沈念sama閱讀 217,406評(píng)論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件恩急，死亡現(xiàn)場(chǎng)離奇詭異杉畜，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)衷恭，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,732評(píng)論 3贊 393
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)此叠，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人随珠，你說(shuō)我怎么就攤上這事灭袁。” “怎么了窗看？”我有些...
開(kāi)封第一講書(shū)人閱讀 163,711評(píng)論 0贊 353
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵茸歧，是天一觀(guān)的道長(zhǎng)。經(jīng)常有香客問(wèn)我显沈，道長(zhǎng)软瞎，這世上最難降的妖魔是什么？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,380評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任拉讯，我火速辦了婚禮涤浇，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘魔慷。我一直安慰自己只锭，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,432評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布院尔。她就那樣靜靜地躺著蜻展，像睡著了一般喉誊。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上铺呵，一...
開(kāi)封第一講書(shū)人閱讀 51,301評(píng)論 1贊 301
城市分裂傳說(shuō)
那天裹驰，我揣著相機(jī)與錄音，去河邊找鬼片挂。笑死幻林，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的音念。我是一名探鬼主播沪饺，決...
沈念sama閱讀 40,145評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼闷愤！你這毒婦竟也來(lái)了整葡？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 39,008評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤讥脐，失蹤者是張志新（化名）和其女友劉穎遭居，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體旬渠，經(jīng)...
沈念sama閱讀 45,443評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡俱萍，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,649評(píng)論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了告丢。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片枪蘑。...
茶點(diǎn)故事閱讀 39,795評(píng)論 1贊 347
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖岖免，靈堂內(nèi)的尸體忽然破棺而出岳颇，到底是詐尸還是另有隱情，我是刑警寧澤颅湘，帶...
沈念sama閱讀 35,501評(píng)論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布话侧，位于F島的核電站，受9級(jí)特大地震影響闯参，放射性物質(zhì)發(fā)生泄漏掂摔。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,119評(píng)論 3贊 328
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一赢赊、第九天我趴在偏房一處隱蔽的房頂上張望乙漓。院中可真熱鬧，春花似錦释移、人聲如沸叭披。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,731評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)涩蜘。三九已至嚼贡，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間同诫，已是汗流浹背粤策。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 32,865評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留误窖，地道東北人叮盘。一個(gè)月前我還...
沈念sama閱讀 47,899評(píng)論 2贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像霹俺，于是被迫代替她去往敵國(guó)和親柔吼。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,724評(píng)論 2贊 354