A
Apache Kafka:命名于捷克作家卡夫卡峡捡,用于構(gòu)建實(shí)時(shí)數(shù)據(jù)管道和流媒體應(yīng)用抚垄。它如此流行的原因在于能夠以容錯(cuò)的方式存儲(chǔ)、管理和處理數(shù)據(jù)流谁鳍,據(jù)說還非痴铀溃「快速」。鑒于社交網(wǎng)絡(luò)環(huán)境大量涉及數(shù)據(jù)流的處理呕童,卡夫卡目前非常受歡迎漆际。
Apache Mahout:Mahout 提供了一個(gè)用于機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的預(yù)制算法庫(kù),也可用作創(chuàng)建更多算法的環(huán)境夺饲。換句話說奸汇,機(jī)器學(xué)習(xí)極客的最佳環(huán)境。
Apache Oozie:在任何編程環(huán)境中往声,你都需要一些工作流系統(tǒng)通過預(yù)定義的方式和定義的依賴關(guān)系擂找,安排和運(yùn)行工作。Oozie 為 pig浩销、MapReduce 以及 Hive 等語(yǔ)言編寫的大數(shù)據(jù)工作所提供正是這個(gè)贯涎。
應(yīng)用程序開發(fā)(APP DEV):應(yīng)用程序開發(fā)是根據(jù)用戶要求建造出軟件系統(tǒng)或者系統(tǒng)中的軟件部分的過程,包括需求捕捉慢洋、需求分析柬采、設(shè)計(jì)欢唾、實(shí)現(xiàn)和測(cè)試的系統(tǒng)工程。一般是用某種程序設(shè)計(jì)語(yǔ)言來實(shí)現(xiàn)的粉捻。通常采用應(yīng)用程序開發(fā)工具可以進(jìn)行開發(fā)礁遣。
Apache Drill, Apache Impala, Apache Spark SQL:這三個(gè)開源項(xiàng)目都提供快速和交互式的 SQL,如與 Apache Hadoop 數(shù)據(jù)的交互肩刃。如果你已經(jīng)知道 SQL 并處理以大數(shù)據(jù)格式存儲(chǔ)的數(shù)據(jù)(即 HBase 或 HDFS)祟霍,這些功能將非常有用。抱歉盈包,這里說的有點(diǎn)奇怪沸呐。
Apache Hive:知道 SQL 嗎?如果知道那你就很好上手 Hive 了。Hive 有助于使用 SQL 讀取呢燥、寫入和管理駐留在分布式存儲(chǔ)中的大型數(shù)據(jù)集崭添。
Apache Pig:Pig 是在大型分布式數(shù)據(jù)集上創(chuàng)建、查詢叛氨、執(zhí)行例程的平臺(tái)呼渣。所使用的腳本語(yǔ)言叫做 Pig Latin(我絕對(duì)不是瞎說,相信我)寞埠。據(jù)說 Pig 很容易理解和學(xué)習(xí)屁置。但是我很懷疑有多少是可以學(xué)習(xí)的?
Apache Sqoop:一個(gè)用于將數(shù)據(jù)從 Hadoop 轉(zhuǎn)移到非 Hadoop 數(shù)據(jù)存儲(chǔ)(如數(shù)據(jù)倉(cāng)庫(kù)和關(guān)系數(shù)據(jù)庫(kù))的工具。
Apache Storm:一個(gè)免費(fèi)開源的實(shí)時(shí)分布式計(jì)算系統(tǒng)仁连。它使得使用 Hadoop 進(jìn)行批處理的同時(shí)可以更容易地處理非結(jié)構(gòu)化數(shù)據(jù)蓝角。
人工智能(Artificial Intelligence):研發(fā)智能機(jī)器和智能軟件,這些智能設(shè)備能夠感知周遭的環(huán)境饭冬,并根據(jù)要求作出相應(yīng)的反應(yīng)使鹅,甚至能自我學(xué)習(xí)
聚合(Aggregation) – 搜索、合并昌抠、顯示數(shù)據(jù)的過程
算法(Algorithm):算法可以理解成一種數(shù)學(xué)公式或用于進(jìn)行數(shù)據(jù)分析的統(tǒng)計(jì)學(xué)過程并徘。那么,「算法」又是何以與大數(shù)據(jù)扯上關(guān)系的呢?要知道扰魂,盡管算法這個(gè)詞是一個(gè)統(tǒng)稱麦乞,但是在這個(gè)流行大數(shù)據(jù)分析的時(shí)代,算法也經(jīng)常被提及且變得越發(fā)流行劝评。
異常檢測(cè)(Anomaly detection) – 在數(shù)據(jù)集中搜索與預(yù)期模式或行為不匹配的數(shù)據(jù)項(xiàng)姐直。除了“Anomalies”,用來表示異常的詞有以下幾種:outliers, exceptions, surprises, contaminants.他們通常可提供關(guān)鍵的可執(zhí)行信息
匿名化(Anonymization) – 使數(shù)據(jù)匿名蒋畜,即移除所有與個(gè)人隱私相關(guān)的數(shù)據(jù)
應(yīng)用(Application) – 實(shí)現(xiàn)某種特定功能的計(jì)算機(jī)軟件
分析法(Analytics):用于發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在涵義声畏。讓我們?cè)囅胍粋€(gè)很可能發(fā)生的情況,你的信用卡公司給你發(fā)了封記錄著你全年卡內(nèi)資金轉(zhuǎn)賬情況的郵件,如果這個(gè)時(shí)候你拿著這張單子插龄,開始認(rèn)真研究你在食品愿棋、衣物、娛樂等方面消費(fèi)情況的百分比會(huì)怎樣?你正在進(jìn)行分析工作均牢,你在從你原始的數(shù)據(jù)(這些數(shù)據(jù)可以幫助你為來年自己的消費(fèi)情況作出決定)中挖掘有用的信息糠雨。那么,如果你以類似的方法在推特和臉書上對(duì)整個(gè)城市人們發(fā)的帖子進(jìn)行處理會(huì)如何呢?在這種情況下徘跪,我們就可以稱之為大數(shù)據(jù)分析甘邀。所謂大數(shù)據(jù)分析,就是對(duì)大量數(shù)據(jù)進(jìn)行推理并從中道出有用的信息垮庐。以下有三種不同類型的分析方法松邪,現(xiàn)在我們來對(duì)它們分別進(jìn)行梳理。