給 Java 開發(fā)者的 10 個(gè)大數(shù)據(jù)工具和框架

IT開發(fā)人員面對(duì)的最大挑戰(zhàn)?

當(dāng)今IT開發(fā)人員面對(duì)的最大挑戰(zhàn)就是復(fù)雜性洽胶,硬件越來越復(fù)雜靴迫,OS越來越復(fù)雜嗤练,編程語言和API越來越復(fù)雜,我們構(gòu)建的應(yīng)用也越來越復(fù)雜矿咕。根據(jù)外媒的一項(xiàng)調(diào)查報(bào)告抢肛,中軟卓越專家列出了Java程序員在過去12個(gè)月內(nèi)一直使用的一些工具或框架,或許會(huì)對(duì)你有意義痴腌。

先來看看大數(shù)據(jù)的概念雌团。根據(jù)維基百科,大數(shù)據(jù)是龐大或復(fù)雜的數(shù)據(jù)集的廣義術(shù)語士聪,因此傳統(tǒng)的數(shù)據(jù)處理程序不足以支持如此龐大的體量锦援。

在許多情況下,使用SQL數(shù)據(jù)庫存儲(chǔ)/檢索數(shù)據(jù)都是很好的選擇剥悟。而現(xiàn)如今的很多情況下灵寺,它都不再能滿足我們的目的,這一切都取決于用例的變化区岗。

現(xiàn)在來討論一些不同的非SQL存儲(chǔ)/處理數(shù)據(jù)工具略板,例如,NoSQL數(shù)據(jù)庫慈缔,全文搜索引擎叮称,實(shí)時(shí)流式處理,圖形數(shù)據(jù)庫等藐鹤。

1瓤檐、MongoDB——最受歡迎的,跨平臺(tái)的娱节,面向文檔的數(shù)據(jù)庫挠蛉。

MongoDB是一個(gè)基于分布式文件存儲(chǔ)的數(shù)據(jù)庫,使用C++語言編寫肄满。旨在為Web應(yīng)用提供可擴(kuò)展的高性能數(shù)據(jù)存儲(chǔ)解決方案谴古。應(yīng)用性能高低依賴于數(shù)據(jù)庫性能质涛,MongoDB則是非關(guān)系數(shù)據(jù)庫中功能最豐富,最像關(guān)系數(shù)據(jù)庫的掰担,隨著MongDB 3.4版本發(fā)布汇陆,其應(yīng)用場(chǎng)景適用能力得到了進(jìn)一步拓展。

MongoDB的核心優(yōu)勢(shì)就是靈活的文檔模型恩敌、高可用復(fù)制集烘贴、可擴(kuò)展分片集群配乓。你可以試著從幾大方面了解MongoDB酥泛,如實(shí)時(shí)監(jiān)控MongoDB工具杨幼、內(nèi)存使用量和頁面錯(cuò)誤、連接數(shù)恢口、數(shù)據(jù)庫操作孝宗、復(fù)制集等。

2耕肩、Elasticsearch ——為云構(gòu)建的分布式RESTful搜索引擎因妇。

ElasticSearch是基于Lucene的搜索服務(wù)器。它提供了分布式多用戶能力的全文搜索引擎猿诸,基于RESTful web接口婚被。Elasticsearch是用Java開發(fā)的,并作為Apache許可條款下的開放源碼發(fā)布梳虽,是比較流行的企業(yè)級(jí)搜索引擎址芯。

ElasticSearch不僅是一個(gè)全文本搜索引擎,還是一個(gè)分布式實(shí)時(shí)文檔存儲(chǔ)窜觉,其中每個(gè)field均是被索引的數(shù)據(jù)且可被搜索;也是一個(gè)帶實(shí)時(shí)分析功能的分布式搜索引擎谷炸,并且能夠擴(kuò)展至數(shù)以百計(jì)的服務(wù)器存儲(chǔ)及處理PB級(jí)的數(shù)據(jù)。ElasticSearch在底層利用Lucene完成其索引功能禀挫,因此其許多基本概念源于Lucene旬陡。

3、Cassandra——開源分布式數(shù)據(jù)庫管理系統(tǒng)语婴。

最初是由Facebook開發(fā)的描孟,旨在處理許多商品服務(wù)器上的大量數(shù)據(jù),提供高可用性砰左,沒有單點(diǎn)故障画拾。

Apache Cassandra是一套開源分布式NoSQL數(shù)據(jù)庫系統(tǒng)。集Google BigTable的數(shù)據(jù)模型與Amazon Dynamo的完全分布式架構(gòu)于一身菜职。于2008開源,此后旗闽,由于Cassandra良好的可擴(kuò)展性酬核,被Digg蜜另、Twitter等Web 2.0網(wǎng)站所采納,成為了一種流行的分布式結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)方案嫡意。

因Cassandra是用Java編寫的举瑰,所以理論上在具有JDK6及以上版本的機(jī)器中都可以運(yùn)行,官方測(cè)試的JDK還有OpenJDK 及Sun的JDK蔬螟。 Cassandra的操作命令此迅,類似于我們平時(shí)操作的關(guān)系數(shù)據(jù)庫,對(duì)于熟悉MySQL的朋友來說旧巾,操作會(huì)很容易上手耸序。

4、Redis ——開源(BSD許可)內(nèi)存數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)鲁猩,用作數(shù)據(jù)庫坎怪,緩存和消息代理。

Redis是一個(gè)開源的使用ANSI C語言編寫的廓握、支持網(wǎng)絡(luò)搅窿、可基于內(nèi)存亦可持久化的日志型、Key-Value數(shù)據(jù)庫隙券,并提供多種語言的API男应。Redis 有三個(gè)主要使其有別于其它很多競(jìng)爭對(duì)手的特點(diǎn):Redis是完全在內(nèi)存中保存數(shù)據(jù)的數(shù)據(jù)庫,使用磁盤只是為了持久性目的; Redis相比許多鍵值數(shù)據(jù)存儲(chǔ)系統(tǒng)有相對(duì)豐富的數(shù)據(jù)類型; Redis可以將數(shù)據(jù)復(fù)制到任意數(shù)

5娱仔、Hazelcast ——基于Java的開源內(nèi)存數(shù)據(jù)網(wǎng)格沐飘。

Hazelcast 是一種內(nèi)存數(shù)據(jù)網(wǎng)格 in-memory data grid,提供Java程序員關(guān)鍵任務(wù)交易和萬億級(jí)內(nèi)存應(yīng)用拟枚。雖然Hazelcast沒有所謂的“Master”薪铜,但是仍然有一個(gè)Leader節(jié)點(diǎn)(the oldest member),這個(gè)概念與ZooKeeper中的Leader類似恩溅,但是實(shí)現(xiàn)原理卻完全不同隔箍。同時(shí),Hazelcast中的數(shù)據(jù)是分布式的脚乡,每一個(gè)member持有部分?jǐn)?shù)據(jù)和相應(yīng)的backup數(shù)據(jù)蜒滩,這點(diǎn)也與ZooKeeper不同。

Hazelcast的應(yīng)用便捷性深受開發(fā)者喜歡奶稠,但如果要投入使用俯艰,還需要慎重考慮。

6锌订、Ehcache——廣泛使用的開源Java分布式緩存竹握。

主要面向通用緩存、Java EE和輕量級(jí)容器辆飘。

EhCache 是一個(gè)純Java的進(jìn)程內(nèi)緩存框架啦辐,具有快速谓传、精干等特點(diǎn),是hibernate中默認(rèn)的CacheProvider芹关。主要特性有:快速簡單续挟,具有多種緩存策略;緩存數(shù)據(jù)有兩級(jí),內(nèi)存和磁盤侥衬,因此無需擔(dān)心容量問題;緩存數(shù)據(jù)會(huì)在虛擬機(jī)重啟的過程中寫入磁盤;可以通過RMI诗祸、可插入API等方式進(jìn)行分布式緩存;具有緩存和緩存管理器的偵聽接口;支持多緩存管理器實(shí)例,以及一個(gè)實(shí)例的多個(gè)緩存區(qū)域;提供Hibernate的緩存實(shí)現(xiàn)轴总。

7直颅、Hadoop ——用Java編寫的開源軟件框架。

用于分布式存儲(chǔ)肘习,并對(duì)非常大的數(shù)據(jù)用戶可以在不了解分布式底層細(xì)節(jié)的情況下际乘,開發(fā)分布式程序。充分利用集群進(jìn)行高速運(yùn)算和存儲(chǔ)漂佩。Hadoop實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)(Hadoop Distributed File System)脖含,簡稱HDFS。Hadoop的框架最核心的設(shè)計(jì)就是:HDFS和MapReduce投蝉。HDFS為海量的數(shù)據(jù)提供了存儲(chǔ)养葵,MapReduce則為海量的數(shù)據(jù)提供了計(jì)算。

8瘩缆、Solr ——開源企業(yè)搜索平臺(tái)关拒,用Java編寫,來自Apache Lucene項(xiàng)目庸娱。

Solr是一個(gè)獨(dú)立的企業(yè)級(jí)搜索應(yīng)用服務(wù)器着绊,它對(duì)外提供類似于Web-service的API接口。用戶可以通過http請(qǐng)求熟尉,向搜索引擎服務(wù)器提交一定格式的XML文件归露,生成索引;也可以通過Http Get操作提出查找請(qǐng)求,并得到XML格式的返回結(jié)果斤儿。

與ElasticSearch一樣剧包,同樣是基于Lucene,但它對(duì)其進(jìn)行了擴(kuò)展往果,提供了比Lucene更為豐富的查詢語言疆液,同時(shí)實(shí)現(xiàn)了可配置、可擴(kuò)展并對(duì)查詢性能進(jìn)行了優(yōu)化陕贮。

9堕油、Spark ——Apache Software Foundation中最活躍的項(xiàng)目,是一個(gè)開源集群計(jì)算框架。

Spark 是一種與 Hadoop 相似的開源集群計(jì)算環(huán)境馍迄,但是兩者之間還存在一些不同之處福也,這些不同之處使 Spark 在某些工作負(fù)載方面表現(xiàn)得更加優(yōu)越,換句話說攀圈,Spark 啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢外峦甩,它還可以優(yōu)化迭代工作負(fù)載赘来。

Spark 是在 Scala 語言中實(shí)現(xiàn)的,它將 Scala 用作其應(yīng)用程序框架凯傲。與 Hadoop 不同犬辰,Spark 和 Scala 能夠緊密集成,其中的 Scala 可以像操作本地集合對(duì)象一樣輕松地冰单。

10幌缝、Memcached ——通用分布式內(nèi)存緩存系統(tǒng)。

Memcached是一套分布式快取系統(tǒng)诫欠,當(dāng)初是Danga Interactive為了LiveJournal所發(fā)展的涵卵,但被許多軟件(如MediaWiki)所使用。Memcached作為高速運(yùn)行的分布式緩存服務(wù)器荒叼,具有以下的特點(diǎn):協(xié)議簡單轿偎,基于libevent的事件處理,內(nèi)置內(nèi)存存儲(chǔ)方式被廓。

想往大數(shù)據(jù)方向發(fā)展的坏晦,在這里我分享一些學(xué)習(xí)大數(shù)據(jù)的教程給真心想學(xué)習(xí)大數(shù)據(jù)的朋友,你可以加我的群:724693112或者微信:wxid_j9y4t84ezzcr22直接找我聊領(lǐng)取嫁乘,希望能幫到真正想學(xué)習(xí)昆婿,進(jìn)步的人,吸收自己想要的知識(shí)點(diǎn)蜓斧,充實(shí)自己仓蛆。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市法精,隨后出現(xiàn)的幾起案子多律,更是在濱河造成了極大的恐慌,老刑警劉巖搂蜓,帶你破解...
    沈念sama閱讀 212,718評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件狼荞,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡帮碰,警方通過查閱死者的電腦和手機(jī)相味,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,683評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來殉挽,“玉大人丰涉,你說我怎么就攤上這事拓巧。” “怎么了一死?”我有些...
    開封第一講書人閱讀 158,207評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵肛度,是天一觀的道長。 經(jīng)常有香客問我投慈,道長承耿,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,755評(píng)論 1 284
  • 正文 為了忘掉前任伪煤,我火速辦了婚禮加袋,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘抱既。我一直安慰自己职烧,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,862評(píng)論 6 386
  • 文/花漫 我一把揭開白布防泵。 她就那樣靜靜地躺著蚀之,像睡著了一般。 火紅的嫁衣襯著肌膚如雪择克。 梳的紋絲不亂的頭發(fā)上恬总,一...
    開封第一講書人閱讀 50,050評(píng)論 1 291
  • 那天,我揣著相機(jī)與錄音肚邢,去河邊找鬼壹堰。 笑死,一個(gè)胖子當(dāng)著我的面吹牛骡湖,可吹牛的內(nèi)容都是我干的贱纠。 我是一名探鬼主播,決...
    沈念sama閱讀 39,136評(píng)論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼响蕴,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼谆焊!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起浦夷,我...
    開封第一講書人閱讀 37,882評(píng)論 0 268
  • 序言:老撾萬榮一對(duì)情侶失蹤辖试,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后劈狐,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體罐孝,經(jīng)...
    沈念sama閱讀 44,330評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,651評(píng)論 2 327
  • 正文 我和宋清朗相戀三年肥缔,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了莲兢。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,789評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖改艇,靈堂內(nèi)的尸體忽然破棺而出收班,到底是詐尸還是另有隱情,我是刑警寧澤谒兄,帶...
    沈念sama閱讀 34,477評(píng)論 4 333
  • 正文 年R本政府宣布摔桦,位于F島的核電站,受9級(jí)特大地震影響舵变,放射性物質(zhì)發(fā)生泄漏酣溃。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,135評(píng)論 3 317
  • 文/蒙蒙 一纪隙、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧扛或,春花似錦绵咱、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,864評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至住涉,卻和暖如春麸锉,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背舆声。 一陣腳步聲響...
    開封第一講書人閱讀 32,099評(píng)論 1 267
  • 我被黑心中介騙來泰國打工花沉, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人媳握。 一個(gè)月前我還...
    沈念sama閱讀 46,598評(píng)論 2 362
  • 正文 我出身青樓碱屁,卻偏偏與公主長得像,于是被迫代替她去往敵國和親蛾找。 傳聞我的和親對(duì)象是個(gè)殘疾皇子娩脾,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,697評(píng)論 2 351

推薦閱讀更多精彩內(nèi)容