經(jīng)常有人咨詢恬总,SAS如何和HADOOP交互前普、集成?下面我們大圣眾包(www.dashengzb.cn)小編分享一篇來自CSDN的Anyjack文章。在回答這個問題前壹堰,主要看HADOOP在SAS系統(tǒng)中的定位拭卿,有下面定位考慮:
1.把HADOOP作為傳統(tǒng)數(shù)據(jù)源供SAS訪問
這是最簡單的一種應(yīng)用場景,就是把HADOOP當做類似于ORACLE/DB2等之類的數(shù)據(jù)庫源來使用贱纠,SAS有能力直接在HADOOP上進行數(shù)據(jù)處理峻厚,在HADOOP上進行直接數(shù)據(jù)讀寫
2.把HADOOP作為分析平臺
通過在HADOOP上嵌入SAS分析組件,SAS可以使你在數(shù)秒內(nèi)交互式瀏覽或者分析上十億行記錄谆焊。
配合SAS 的Event Stream Process(實時事件處理引擎)惠桃,你可以實時的分析當前數(shù)據(jù),快速洞悉變化辖试。
3..把HADOOP作為數(shù)據(jù)管理平臺
使用SAS Data Loader for haddop組件辜王,企業(yè)用戶能利用其對HADOOP上的數(shù)據(jù)進行簡單、快速的數(shù)據(jù)清洗罐孝、轉(zhuǎn)換呐馆、數(shù)據(jù)質(zhì)量管理等操作
換另外一種方法來說,SAS針對HADOOP提供有FROM /WITH/IN的能力
FROM
你的數(shù)據(jù)可以來自(FROM)你的HADOOP系統(tǒng)莲兢,你也可以寫數(shù)據(jù)從(FROM)SAS到HADOOP
通過利用SAS/ACCESS to haddop組件或者使用SAS SPDE FOR HADOOP技術(shù)汹来,你能像操作常規(guī)數(shù)據(jù)那樣操作HADOOP
WITH
“With”是利用HADOOP上各個節(jié)點的存儲能力和計算能力并行進行數(shù)據(jù)訪問和處理的能力。而不像是”FROM”抓取改艇、寫入能力收班,存在一個管道來集中接收來自HADOOP的數(shù)據(jù)或者從一個管道往HADOOP中寫入數(shù)據(jù)。
“WITH”可以充分利用HADOOP各個節(jié)點的存儲能力和計算能力谒兄,使HADOOP節(jié)點和SAS節(jié)點間并行交互和計算摔桦,比如SAS產(chǎn)品 Visual Analytics, Visual Statistics, In-Memory Statistics for Hadoop, High Performance Analytic procedures .
IN
“In”就是SAS支持直接在HADOOP中進行計算,所有的操作都在HADOOP內(nèi)部完成承疲,SAS只是負責(zé)提交代碼酣溃、轉(zhuǎn)換SAS代碼為HADOOP代碼(M/R)瘦穆、接收代碼執(zhí)行結(jié)果。
典型的SAS組件有:SAS Code Accelerator for Hadoop, SAS Data Quality Accelerator for Hadoop
希望上述講解能回答HADOOP和SAS的關(guān)系,讓大家對SAS在HADOOP上的應(yīng)用有個比較簡單的理解赊豌。
原文地址:http://www.dashengzb.cn/articles/a-320.html
(更多大數(shù)據(jù)與商業(yè)智能領(lǐng)域干貨扛或、或電子書,可添加個人微信號(dashenghuaer))