大數(shù)據(jù)技術(shù)人員工具包最全集合

數(shù)據(jù)科學(xué)融合了多門學(xué)科并且建立在這些學(xué)科的理論和技術(shù)之上蹬癌，包括數(shù)學(xué)、概率模型虹茶、統(tǒng)計(jì)學(xué)逝薪、機(jī)器學(xué)習(xí)、數(shù)據(jù)倉庫蝴罪、可視化等董济。在實(shí)際應(yīng)用中，數(shù)據(jù)科學(xué)包括數(shù)據(jù)的收集要门、清洗虏肾、分析、可視化以及數(shù)據(jù)應(yīng)用整個(gè)迭代過程欢搜，最終幫助組織制定正確的發(fā)展決策數(shù)據(jù)科學(xué)的從業(yè)者稱為數(shù)據(jù)科學(xué)家封豪。數(shù)據(jù)科學(xué)家有其獨(dú)特的基本思路與常用工具，本文全面梳理數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家使用的工具包狂巢，包括開源的技術(shù)平臺(tái)相關(guān)工具撑毛、挖掘分析處理工具、其它常見工具等幾百種唧领，幾十個(gè)大類藻雌，部分網(wǎng)址！

數(shù)據(jù)科學(xué)家是有著開闊視野的復(fù)合型人才斩个，他們既有堅(jiān)實(shí)的數(shù)據(jù)科學(xué)基礎(chǔ)胯杭，如數(shù)學(xué)、統(tǒng)計(jì)學(xué)受啥、計(jì)算機(jī)學(xué)等做个，又具備廣泛的業(yè)務(wù)知識(shí)和經(jīng)驗(yàn)數(shù)據(jù)科學(xué)家通過精深的技術(shù)和專業(yè)知識(shí)在某些科學(xué)學(xué)科領(lǐng)域解決復(fù)雜的數(shù)據(jù)問題，從而制定出適合不同決策人員的大數(shù)據(jù)計(jì)劃和策略滚局。數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家使用的工具在網(wǎng)上的MOOC有提供居暖，比如2016年2月1日約翰-霍普金斯大學(xué)Coursera數(shù)據(jù)科學(xué)專業(yè)化課程等網(wǎng)絡(luò)課程。數(shù)據(jù)科學(xué)家的常用工具與基本思路藤肢，并對(duì)數(shù)據(jù)太闺、相關(guān)問題和數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家使用的工具做了綜合概述。

對(duì)大數(shù)據(jù)以及人工智能概念都是模糊不清的嘁圈，該按照什么線路去學(xué)習(xí)省骂，學(xué)完往哪方面發(fā)展蟀淮，想深入了解，想學(xué)習(xí)的同學(xué)歡迎加入大數(shù)據(jù)學(xué)習(xí)qq群：458345782钞澳，有大量干貨（零基礎(chǔ)以及進(jìn)階的經(jīng)典實(shí)戰(zhàn)）分享給大家怠惶，并且有清華大學(xué)畢業(yè)的資深大數(shù)據(jù)講師給大家免費(fèi)授課，給大家分享目前國(guó)內(nèi)最完整的大數(shù)據(jù)高端實(shí)戰(zhàn)實(shí)用學(xué)習(xí)流程體系轧粟。從java和linux入手策治，其后逐步的深入到HADOOP-hive-oozie-web-flume-python-hbase-kafka-scala-SPARK等相關(guān)知識(shí)一一分享！

A.大數(shù)據(jù)技術(shù)平臺(tái)相關(guān)2015最佳工具

InfoWorld在分布式數(shù)據(jù)處理逃延、流式數(shù)據(jù)分析览妖、機(jī)器學(xué)習(xí)以及大規(guī)模數(shù)據(jù)分析領(lǐng)域精選出了2015年的開源工具獲獎(jiǎng)?wù)撸旅嫖覀儊砗?jiǎn)單介紹下這些獲獎(jiǎng)的技術(shù)工具揽祥。

1. Spark

在Apache的大數(shù)據(jù)項(xiàng)目中，Spark是最火的一個(gè)檩电，特別是像IBM這樣的重量級(jí)貢獻(xiàn)者的深入?yún)⑴c拄丰，使得Spark的發(fā)展和進(jìn)步速度飛快。與Spark產(chǎn)生最甜蜜的火花點(diǎn)仍然是在機(jī)器學(xué)習(xí)領(lǐng)域俐末。去年以來DataFrames API取代SchemaRDD API料按，類似于R和Pandas的發(fā)現(xiàn)，使數(shù)據(jù)訪問比原始RDD接口更簡(jiǎn)單卓箫。Spark的新發(fā)展中也有新的為建立可重復(fù)的機(jī)器學(xué)習(xí)的工作流程载矿，可擴(kuò)展和可優(yōu)化的支持各種存儲(chǔ)格式，更簡(jiǎn)單的接口來訪問機(jī)器學(xué)習(xí)算法烹卒，改進(jìn)的集群資源的監(jiān)控和任務(wù)跟蹤闷盔。spark-packages.org網(wǎng)站上有超過100個(gè)第三方貢獻(xiàn)的鏈接庫擴(kuò)展，增加了許多有用的功能旅急。

2. Storm

Storm是Apache項(xiàng)目中的一個(gè)分布式計(jì)算框架項(xiàng)目逢勾，主要應(yīng)用于流式數(shù)據(jù)實(shí)時(shí)處理領(lǐng)域。他基于低延時(shí)交互模式理念藐吮，以應(yīng)對(duì)復(fù)雜的事件處理需求溺拱。和Spark不同，Storm可以進(jìn)行單點(diǎn)隨機(jī)處理谣辞，而不僅僅是微批量任務(wù)迫摔，并且對(duì)內(nèi)存的需求更低。在我的經(jīng)驗(yàn)中泥从，他對(duì)于流式數(shù)據(jù)處理更有優(yōu)勢(shì)句占，特別是當(dāng)兩個(gè)數(shù)據(jù)源之間的數(shù)據(jù)快速傳輸過程中，需要對(duì)數(shù)據(jù)進(jìn)行快速處理的場(chǎng)景歉闰。Spark掩蓋了很多Storm的光芒辖众，但其實(shí)Spark在很多流失數(shù)據(jù)處理的應(yīng)用場(chǎng)景中并不適合卓起。Storm經(jīng)常和Apache Kafka一起配合使用。

3. H2O

H2O是一種分布式的內(nèi)存處理引擎用于機(jī)器學(xué)習(xí)凹炸，它擁有一個(gè)令人印象深刻的數(shù)組的算法戏阅。早期版本僅僅支持R語言，3.0版本開始支持Python和Java語言啤它，同時(shí)它也可以作為Spark在后端的執(zhí)行引擎奕筐。使用H2O的最佳方式是把它作為R環(huán)境的一個(gè)大內(nèi)存擴(kuò)展，R環(huán)境并不直接作用于大的數(shù)據(jù)集变骡，而是通過擴(kuò)展通訊協(xié)議例如REST API與H2O集群通訊离赫，H2O來處理大量的數(shù)據(jù)工作。幾個(gè)有用的R擴(kuò)展包塌碌，如ddply已經(jīng)被打包渊胸，允許你在處理大規(guī)模數(shù)據(jù)集時(shí)，打破本地機(jī)器上內(nèi)存容量的限制台妆。你可以在EC2上運(yùn)行H2O翎猛，或者Hadoop集群/YARN集群，或者Docker容器接剩。用蘇打水(Spark+ H2O)你可以訪問在集群上并行的訪問Spark RDDS切厘，在數(shù)據(jù)幀被Spark處理后。再傳遞給一個(gè)H2O的機(jī)器學(xué)習(xí)算法懊缺。

4. Apex

Apex是一個(gè)企業(yè)級(jí)的大數(shù)據(jù)動(dòng)態(tài)處理平臺(tái)疫稿，即能夠支持即時(shí)的流式數(shù)據(jù)處理，也可以支持批量數(shù)據(jù)處理鹃两。它可以是一個(gè)YARN的原生程序遗座，能夠支持大規(guī)模、可擴(kuò)展怔毛、支持容錯(cuò)方法的流式數(shù)據(jù)處理引擎员萍。它原生的支持一般事件處理并保證數(shù)據(jù)一致性(精確一次處理、最少一次拣度、最多一次)碎绎。以前DataTorrent公司開發(fā)的基于Apex的商業(yè)處理軟件，其代碼抗果、文檔及架構(gòu)設(shè)計(jì)顯示筋帖，Apex在支持DevOps方面能夠把應(yīng)用開發(fā)清楚的分離，用戶代碼通常不需要知道他在一個(gè)流媒體處理集群中運(yùn)行冤馏。Malhar是一個(gè)相關(guān)項(xiàng)目日麸，提供超過300種常用的實(shí)現(xiàn)共同的業(yè)務(wù)邏輯的應(yīng)用程序模板。Malhar的鏈接庫可以顯著的減少開發(fā)Apex應(yīng)用程序的時(shí)間，并且提供了連接各種存儲(chǔ)代箭、文件系統(tǒng)墩划、消息系統(tǒng)、數(shù)據(jù)庫的連接器和驅(qū)動(dòng)程序嗡综。并且可以進(jìn)行擴(kuò)展或定制乙帮，以滿足個(gè)人業(yè)務(wù)的要求。所有的malhar組件都是Apache許可下使用极景。

5. Druid

Druid在今年二月轉(zhuǎn)為了商業(yè)友好的Apache許可證察净，是一個(gè)基于“事件流的混合引擎，能夠滿足OLAP解決方案盼樟。最初他主要應(yīng)用于廣告市場(chǎng)的在線數(shù)據(jù)處理領(lǐng)域氢卡，德魯伊可以讓用戶基于時(shí)間序列數(shù)據(jù)做任意和互動(dòng)的分析。一些關(guān)鍵的功能包括低延遲事件處理晨缴，快速聚合译秦，近似和精確的計(jì)算。Druid的核心是一個(gè)使用專門的節(jié)點(diǎn)來處理每個(gè)部分的問題自定義的數(shù)據(jù)存儲(chǔ)击碗。實(shí)時(shí)分析基于實(shí)時(shí)管理(JVM)節(jié)點(diǎn)來處理诀浪，最終數(shù)據(jù)會(huì)存儲(chǔ)在歷史節(jié)點(diǎn)中負(fù)責(zé)老的數(shù)據(jù)。代理節(jié)點(diǎn)直接查詢實(shí)時(shí)和歷史節(jié)點(diǎn)延都，給用戶一個(gè)完整的事件信息。測(cè)試表明50萬事件數(shù)據(jù)能夠在一秒內(nèi)處理完成睛竣，并且每秒處理能力可以達(dá)到100萬的峰值晰房，Druid作為在線廣告處理、網(wǎng)絡(luò)流量和其他的活動(dòng)流的理想實(shí)時(shí)處理平臺(tái)射沟。

6. Flink

Flink的核心是一個(gè)事件流數(shù)據(jù)流引擎殊者。雖然表面上類似Spark，實(shí)際上Flink是采用不同的內(nèi)存中處理方法的验夯。首先猖吴，F(xiàn)link從設(shè)計(jì)開始就作為一個(gè)流處理器。批處理只是一個(gè)具有開始和結(jié)束狀態(tài)的流式處理的特殊情況挥转，F(xiàn)link提供了API來應(yīng)對(duì)不同的應(yīng)用場(chǎng)景海蔽，無論是API(批處理)和數(shù)據(jù)流API。MapReduce的世界的開發(fā)者們?cè)诿鎸?duì)DataSet處理API時(shí)應(yīng)該有賓至如歸的感覺绑谣，并且將應(yīng)用程序移植到Flink非常容易党窜。在許多方面，F(xiàn)link和Spark一樣借宵，其的簡(jiǎn)潔性和一致性使他廣受歡迎幌衣。像Spark一樣，F(xiàn)link是用Scala寫的壤玫。

7. Elasticsearch

Elasticsearch是基于Apache Lucene搜索分布式文件服務(wù)器豁护。它的核心哼凯，Elasticsearch基于JSON格式的近乎實(shí)時(shí)的構(gòu)建了數(shù)據(jù)索引，能夠?qū)崿F(xiàn)快速全文檢索功能楚里。結(jié)合開源Kibana BI顯示工具断部，您可以創(chuàng)建令人印象深刻的數(shù)據(jù)可視化界面。Elasticsearch易于設(shè)置和擴(kuò)展腻豌，他能夠自動(dòng)根據(jù)需要使用新的硬件來進(jìn)行分片家坎。他的查詢語法和SQL不太一樣，但它也是大家很熟悉的JSON吝梅。大多數(shù)用戶不會(huì)在那個(gè)級(jí)別進(jìn)行數(shù)據(jù)交互虱疏。開發(fā)人員可以使用原生JSON-over-HTTP接口或常用的幾個(gè)開發(fā)語言進(jìn)行交互，包括Ruby苏携，Python做瞪，PHP，Perl右冻，Java装蓬，JavaScript等。

8. SlamData

如果你正在尋找一個(gè)用戶友好的工具纱扭，能理解最新流行的NoSQL數(shù)據(jù)的可視化工具牍帚，那么你應(yīng)該看一看SlamData。SlamData允許您用熟悉的SQL語法來進(jìn)行JSON數(shù)據(jù)的嵌套查詢乳蛾，不需要轉(zhuǎn)換或語法改造暗赶。該技術(shù)的主要特點(diǎn)之一是它的連接器。從MongoDB肃叶，HBase蹂随，Cassandra和Apache的Spark，SlamData同大多數(shù)業(yè)界標(biāo)準(zhǔn)的外部數(shù)據(jù)源可以方便的進(jìn)行整合因惭，并進(jìn)行數(shù)據(jù)轉(zhuǎn)換和分析數(shù)據(jù)岳锁。你可能會(huì)問：“我不會(huì)有更好的數(shù)據(jù)池或數(shù)據(jù)倉庫工具嗎?請(qǐng)認(rèn)清這是在NoSQL領(lǐng)域。

9. Drill

Drill是一種用于大型數(shù)據(jù)集的交互分析的分布式系統(tǒng)蹦魔，由谷歌的Dremel催生激率。Drill專為嵌套數(shù)據(jù)的低延遲分析設(shè)計(jì)，它有一個(gè)明確的設(shè)計(jì)目標(biāo)版姑，靈活的擴(kuò)展到10000臺(tái)服務(wù)器來處理查詢記錄數(shù)據(jù)柱搜，并支持兆級(jí)別的數(shù)據(jù)記錄。嵌套的數(shù)據(jù)可以從各種數(shù)據(jù)源獲得的(如HDFS剥险，HBase聪蘸，Amazon S3，和Blobs)和多種格式(包括JSON，Avro健爬，和buffers)控乾，你不需要在讀取時(shí)指定一個(gè)模式(“讀時(shí)模式”)。Drill使用ANSI 2003 SQL的查詢語言為基礎(chǔ)娜遵，所以數(shù)據(jù)工程師是沒有學(xué)習(xí)壓力的蜕衡，它允許你連接查詢數(shù)據(jù)并跨多個(gè)數(shù)據(jù)源(例如，連接HBase表和在HDFS中的日志)设拟。最后慨仿，Drill提供了基于ODBC和JDBC接口以和你所喜歡的BI工具對(duì)接。

10. HBASE

HBase在今年的里程碑達(dá)到1.X版本并持續(xù)改善纳胧。像其他的非關(guān)系型的分布式數(shù)據(jù)存儲(chǔ)一樣镰吆，HBase的查詢結(jié)果反饋非常迅速，因此擅長(zhǎng)的是經(jīng)常用于后臺(tái)搜索引擎跑慕，如易趣網(wǎng)万皿，博科和雅虎等網(wǎng)站。作為一個(gè)穩(wěn)定的核行、成熟的軟件產(chǎn)品牢硅，HBase新鮮的功能并不是經(jīng)常出現(xiàn)，但這種穩(wěn)定性往往是企業(yè)最關(guān)心的芝雪。最近的改進(jìn)包括增加區(qū)域服務(wù)器改進(jìn)高可用性减余，滾動(dòng)升級(jí)支持，和YARN的兼容性提升惩系。在他的特性更新方面包括掃描器更新佳励，保證提高性能，使用HBase作為流媒體應(yīng)用像Storm和Spark持久存儲(chǔ)的能力蛆挫。HBase也可以通過Phoenix項(xiàng)目來支持SQL查詢，其SQL兼容性在穩(wěn)步提高妙黍。Phoenix最近增加了一個(gè)Spark連接器悴侵，添加了自定義函數(shù)的功能。

11. Hive

隨著Hive過去多年的發(fā)展拭嫁，逐步成熟可免，今年發(fā)布了1.0正式版本，它用于基于SQL的數(shù)據(jù)倉庫領(lǐng)域做粤。目前基金會(huì)主要集中在提升性能浇借、可擴(kuò)展性和SQL兼容性。最新的1.2版本顯著的提升了ACID語意兼容性怕品、跨數(shù)據(jù)中心復(fù)制妇垢，以及以成本為基礎(chǔ)的優(yōu)化器。Hive1.2也帶來了改進(jìn)的SQL的兼容性，使組織利用它更容易的把從現(xiàn)有的數(shù)據(jù)倉庫通過ETL工具進(jìn)行轉(zhuǎn)移闯估。在規(guī)劃中講主要改進(jìn)：以內(nèi)存緩存為核心的速度改進(jìn) LLAP灼舍，Spark的機(jī)器學(xué)習(xí)庫的集成，提高SQL的前嵌套子查詢涨薪、中間類型支持等骑素。

12. Kylin

Kylin是eBay開發(fā)的用于處理非常大量數(shù)據(jù)的OLAP分析系統(tǒng)，他使用標(biāo)準(zhǔn)的SQL語法刚夺，和很多數(shù)據(jù)分析產(chǎn)品很像献丑。Kylin使用Hive和MR來構(gòu)建立方體，Hive用作預(yù)鏈接侠姑，MR用作預(yù)聚合创橄，HDFS用來儲(chǔ)存構(gòu)建立方體時(shí)的中間文件，HBase用來存儲(chǔ)立方體结借，HBase的coprocessor(協(xié)處理器)用來響應(yīng)查詢筐摘。像大多數(shù)其他的分析應(yīng)用一樣，Kylin支持多種訪問方法船老，包括JDBC咖熟，ODBC API進(jìn)行編程訪問以及REST API接口。

13. CDAP

CDAP(Cask Data Access Platform)是一個(gè)在Hadoop之上運(yùn)行的框架柳畔，抽象了建造和運(yùn)行大數(shù)據(jù)應(yīng)用的復(fù)雜性馍管。CDAP圍繞兩個(gè)核心概念：數(shù)據(jù)和應(yīng)用程序。CDAP數(shù)據(jù)集是數(shù)據(jù)的邏輯展現(xiàn)薪韩，無論底層存儲(chǔ)層是什么樣的;CDAP提供實(shí)時(shí)數(shù)據(jù)流處理能力确沸。應(yīng)用程序使用CDAP服務(wù)來處理諸如分布式事務(wù)和服務(wù)發(fā)現(xiàn)等應(yīng)用場(chǎng)景，避免程序開發(fā)者淹沒在Hadoop的底層細(xì)節(jié)中俘陷。CDAP自帶的數(shù)據(jù)攝取框架和一些預(yù)置的應(yīng)用和一些通用的“包”罗捎，例如ETL和網(wǎng)站分析，支持測(cè)試拉盾，調(diào)試和安全等桨菜。和大多數(shù)原商業(yè)(閉源)項(xiàng)目開源一樣，CDAP具有良好的文檔捉偏，教程倒得，和例子。

14. Ranger

安全一直是Hadoop的一個(gè)痛處夭禽。它不是說(像是經(jīng)常報(bào)道)Hadoop是“不安全”或“不安全”霞掺。事實(shí)是，Hadoop有很多的安全功能讹躯，雖然這些安全功能都不太強(qiáng)大菩彬。我的意思是缠劝，每一個(gè)組件都有它自己的身份驗(yàn)證和授權(quán)實(shí)施，這與其他的平臺(tái)沒有集成挤巡。2015年5月剩彬，Hortonworks收購XA /安全，隨后經(jīng)過了改名后矿卑，我們有了Ranger喉恋。Ranger使得許多Hadoop的關(guān)鍵部件處在一個(gè)保護(hù)傘下，它允許你設(shè)置一個(gè)“策略”母廷，把你的Hadoop安全綁定到到您現(xiàn)有的ACL基于活動(dòng)目錄的身份驗(yàn)證和授權(quán)體系下轻黑。Ranger給你一個(gè)地方管理Hadoop的訪問控制，通過一個(gè)漂亮的頁面來做管理琴昆、審計(jì)氓鄙、加密。

15. Mesos

Mesos提供了高效业舍、跨分布式應(yīng)用程序和框架的資源隔離和共享抖拦，支持Hadoop、 MPI舷暮、Hypertable态罪、Spark等。Mesos是Apache孵化器中的一個(gè)開源項(xiàng)目下面，使用ZooKeeper實(shí)現(xiàn)容錯(cuò)復(fù)制复颈，使用Linux Containers來隔離任務(wù)，支持多種資源計(jì)劃分配(內(nèi)存和CPU)沥割。提供Java耗啦、Python和C++ APIs來開發(fā)新的并行應(yīng)用程序，提供基于Web的用戶界面來提查看集群狀態(tài)机杜。Mesos應(yīng)用程序(框架)為群集資源協(xié)調(diào)兩級(jí)調(diào)度機(jī)制帜讲，所以寫一個(gè)Mesos應(yīng)用程序?qū)Τ绦騿T來說感覺不像是熟悉的體驗(yàn)。雖然Mesos是新的項(xiàng)目椒拗，成長(zhǎng)卻很快舒帮。

16. NiFi

Apache NiFi 0.2.0 發(fā)布了，該項(xiàng)目目前還處于 Apache 基金會(huì)的孵化階段陡叠。Apache NiFi 是一個(gè)易于使用、功能強(qiáng)大而且可靠的數(shù)據(jù)處理和分發(fā)系統(tǒng)肢执。Apache NiFi 是為數(shù)據(jù)流設(shè)計(jì)枉阵。它支持高度可配置的指示圖的數(shù)據(jù)路由、轉(zhuǎn)換和系統(tǒng)中介邏輯预茄。Apache NiFi是由美國(guó)過國(guó)家安全局(NSA)貢獻(xiàn)給Apache基金會(huì)的開源項(xiàng)目兴溜，其設(shè)計(jì)目標(biāo)是自動(dòng)化系統(tǒng)間的數(shù)據(jù)流侦厚。基于其工作流式的編程理念拙徽，NiFi非常易于使用刨沦，強(qiáng)大，可靠及高可配置膘怕。兩個(gè)最重要的特性是其強(qiáng)大的用戶界面及良好的數(shù)據(jù)回溯工具想诅。NiFi的用戶界面允許用戶在瀏覽器中直觀的理解并與數(shù)據(jù)流舉行交互，更快速和安全的進(jìn)行迭代岛心。其數(shù)據(jù)回溯特性允許用戶查看一個(gè)對(duì)象如何在系統(tǒng)間流轉(zhuǎn)来破，回放以及可視化關(guān)鍵步驟之前之后發(fā)生的情況，包括大量復(fù)雜的圖式轉(zhuǎn)換忘古，fork徘禁，join及其他操作等。另外髓堪，NiFi使用基于組件的擴(kuò)展模型以為復(fù)雜的數(shù)據(jù)流快速增加功能送朱，開箱即用的組件中處理文件系統(tǒng)的包括FTP，SFTP及HTTP等干旁，同樣也支持HDFS驶沼。NiFi獲得來來自業(yè)界的一致好評(píng)，包括Hortonworks CEO疤孕，Leverage CTO及Prescient Edge首席系統(tǒng)架構(gòu)師等商乎。

17. Kafka

在大數(shù)據(jù)領(lǐng)域，Kafka已經(jīng)成為分布式發(fā)布訂閱消息的事實(shí)標(biāo)準(zhǔn)祭阀。它的設(shè)計(jì)允許代理支持成千上萬的客戶在信息吞吐量告訴處理時(shí)鹉戚，同時(shí)通過分布式提交日志保持耐久性。Kafka是通過在HDFS系統(tǒng)上保存單個(gè)日志文件专控，由于HDFS是一個(gè)分布式的存儲(chǔ)系統(tǒng)抹凳，使數(shù)據(jù)的冗余拷貝，因此Kafka自身也是受到良好保護(hù)的伦腐。當(dāng)消費(fèi)者想讀消息時(shí)赢底，Kafka在中央日志中查找其偏移量并發(fā)送它們。因?yàn)橄]有被立即刪除柏蘑，增加消費(fèi)者或重發(fā)歷史信息不產(chǎn)生額外消耗幸冻。Kafka已經(jīng)為能夠每秒發(fā)送2百萬個(gè)消息。盡管Kafka的版本號(hào)是sub-1.0咳焚，但是其實(shí)Kafka是一個(gè)成熟洽损、穩(wěn)定的產(chǎn)品，使用在一些世界上最大的集群中革半。

18.OpenTSDB

opentsdb是建立在時(shí)間序列基礎(chǔ)上的HBase數(shù)據(jù)庫碑定。它是專為分析從應(yīng)用程序流码，移動(dòng)設(shè)備，網(wǎng)絡(luò)設(shè)備延刘，和其他硬件設(shè)備收集的數(shù)據(jù)漫试。它自定義HBase架構(gòu)用于存儲(chǔ)時(shí)間序列數(shù)據(jù)，被設(shè)計(jì)為支持快速聚合和最小的存儲(chǔ)空間需求碘赖。通過使用HBase作為底層存儲(chǔ)層驾荣，opentsdb很好的支持分布與系統(tǒng)可靠性的特點(diǎn)。用戶不與HBase的直接互動(dòng);而數(shù)據(jù)寫入系統(tǒng)是通過時(shí)間序列的守護(hù)進(jìn)程(TSD)來管理崖疤，它可以方便的擴(kuò)展用于需要高速處理數(shù)據(jù)量的應(yīng)用場(chǎng)景土砂。有一些預(yù)制連接器將數(shù)據(jù)發(fā)布到opentsdb坎拐，并且支持從Ruby，Python以及其他語言的客戶端讀取數(shù)據(jù)。opentsdb并不擅長(zhǎng)交互式圖形處理轴或，但可以和第三方工具集成纸泄。如果你已經(jīng)在使用HBase和想要一個(gè)簡(jiǎn)單的方法來存儲(chǔ)事件數(shù)據(jù)识虚，opentsdb也許正好適合你檐束。

19. Jupyter

大家最喜歡的筆記應(yīng)用程序都走了。jupyter是“IPython”剝離出來成為一個(gè)獨(dú)立的軟件包的語言無關(guān)的部分般码。雖然jupyter本身是用Python寫的妻率，該系統(tǒng)是模塊化的。現(xiàn)在你可以有一個(gè)和iPython一樣的界面板祝，在筆記本電腦中方便共享代碼宫静，使得文檔和數(shù)據(jù)可視化。至少已經(jīng)支持50個(gè)語言的內(nèi)核券时，包括Lisp孤里，R，F(xiàn) #橘洞，Perl捌袜，Ruby，Scala等炸枣。事實(shí)上即使IPython本身也只是一個(gè)jupyter Python模塊虏等。通過REPL(讀，評(píng)價(jià)适肠，打印循環(huán))語言內(nèi)核通信是通過協(xié)議霍衫，類似于nrepl或Slime。很高興看到這樣一個(gè)有用的軟件侯养，得到了顯著的非營(yíng)利組織資助敦跌，以進(jìn)一步發(fā)展，如并行執(zhí)行和多用戶筆記本應(yīng)用沸毁。

20. Zeppelin

Zeppelin是一個(gè)Apache的孵化項(xiàng)目. 一個(gè)基于web的筆記本峰髓，支持交互式數(shù)據(jù)分析。你可以用SQL息尺、Scala等做出數(shù)據(jù)驅(qū)動(dòng)的携兵、交互、協(xié)作的文檔搂誉。(類似于ipython notebook徐紧，可以直接在瀏覽器中寫代碼、筆記并共享)炭懊。一些基本的圖表已經(jīng)包含在Zeppelin中并级。可視化并不只限于SparkSQL查詢侮腹，后端的任何語言的輸出都可以被識(shí)別并可視化嘲碧。 Zeppelin 提供了一個(gè) URL 用來僅僅展示結(jié)果，那個(gè)頁面不包括 Zeppelin 的菜單和按鈕父阻。這樣愈涩，你可以輕易地將其作為一個(gè)iframe集成到你的網(wǎng)站。Zeppelin還不成熟加矛。我想把一個(gè)演示履婉，但找不到一個(gè)簡(jiǎn)單的方法來禁用“Shell”作為一個(gè)執(zhí)行選項(xiàng)(在其他事情)。然而斟览，它已經(jīng)看起來的視覺效果比IPython筆記本應(yīng)用更好毁腿，Apache Zeppelin (孵化中) 是 Apache2 許可軟件。提供100%的開源苛茂。

對(duì)大數(shù)據(jù)以及人工智能概念都是模糊不清的已烤，該按照什么線路去學(xué)習(xí)，學(xué)完往哪方面發(fā)展味悄，想深入了解草戈，想學(xué)習(xí)的同學(xué)歡迎加入大數(shù)據(jù)學(xué)習(xí)qq群：458345782，有大量干貨（零基礎(chǔ)以及進(jìn)階的經(jīng)典實(shí)戰(zhàn)）分享給大家侍瑟，并且有清華大學(xué)畢業(yè)的資深大數(shù)據(jù)講師給大家免費(fèi)授課唐片，給大家分享目前國(guó)內(nèi)最完整的大數(shù)據(jù)高端實(shí)戰(zhàn)實(shí)用學(xué)習(xí)流程體系。從java和linux入手涨颜，其后逐步的深入到HADOOP-hive-oozie-web-flume-python-hbase-kafka-scala-SPARK等相關(guān)知識(shí)一一分享费韭！

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市庭瑰，隨后出現(xiàn)的幾起案子星持，更是在濱河造成了極大的恐慌，老刑警劉巖弹灭，帶你破解...
沈念sama閱讀 206,311評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件督暂，死亡現(xiàn)場(chǎng)離奇詭異揪垄，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)逻翁，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,339評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門饥努，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人八回，你說我怎么就攤上這事酷愧。” “怎么了缠诅？”我有些...
開封第一講書人閱讀 152,671評(píng)論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵溶浴，是天一觀的道長(zhǎng)。經(jīng)常有香客問我管引，道長(zhǎng)士败，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 55,252評(píng)論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任汉匙，我火速辦了婚禮拱烁，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘噩翠。我一直安慰自己戏自，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 64,253評(píng)論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布伤锚。她就那樣靜靜地躺著擅笔，像睡著了一般。火紅的嫁衣襯著肌膚如雪屯援。梳的紋絲不亂的頭發(fā)上猛们，一...
開封第一講書人閱讀 49,031評(píng)論 1贊 285
城市分裂傳說
那天，我揣著相機(jī)與錄音狞洋，去河邊找鬼弯淘。笑死，一個(gè)胖子當(dāng)著我的面吹牛吉懊，可吹牛的內(nèi)容都是我干的庐橙。我是一名探鬼主播，決...
沈念sama閱讀 38,340評(píng)論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼借嗽，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼态鳖！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起恶导，我...
開封第一講書人閱讀 36,973評(píng)論 0贊 259
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤浆竭，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體邦泄，經(jīng)...
沈念sama閱讀 43,466評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡删窒，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,937評(píng)論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了顺囊。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片易稠。...
茶點(diǎn)故事閱讀 38,039評(píng)論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖包蓝，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情企量，我是刑警寧澤测萎，帶...
沈念sama閱讀 33,701評(píng)論 4贊 323
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站届巩，受9級(jí)特大地震影響硅瞧，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜恕汇，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,254評(píng)論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一腕唧、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧瘾英，春花似錦枣接、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,259評(píng)論 0贊 19
一樁弒父案但惶，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至湿蛔，卻和暖如春膀曾，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背阳啥。一陣腳步聲響...
開封第一講書人閱讀 31,485評(píng)論 1贊 262
情欲美人皮
我被黑心中介騙來泰國(guó)打工添谊，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人察迟。一個(gè)月前我還...
沈念sama閱讀 45,497評(píng)論 2贊 354
代替公主和親
正文我出身青樓斩狱，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親卷拘。傳聞我的和親對(duì)象是個(gè)殘疾皇子喊废，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,786評(píng)論 2贊 345

大數(shù)據(jù)技術(shù)人員工具包最全集合

推薦閱讀更多精彩內(nèi)容