曾經(jīng)試用過主流大廠提供的大數(shù)據(jù)平臺服務(wù)鹿寨,僅從用戶體驗(yàn)角度上來說庐氮,各有千秋。
- 百度天算控制臺 功能分類明確漆弄,使用簡單睦裳,組件版本較新,客服響應(yīng)及時
- 騰訊大數(shù)據(jù)處理套件TBDS 沒有完全開放服務(wù)撼唾,使用前需要申請廉邑,申請周期較長。我通過聯(lián)系客服倒谷,獲得了一個臨時體驗(yàn)賬號蛛蒙,見第二張圖
- 華為企業(yè)云控制臺 提供開發(fā)、測試管理流程(果然是以軟件著稱)渤愁,Spark版本較低(1.5.1)牵祟,退還押金讓人蛋疼(走各類審批流程、客服多次騷擾抖格、周期長)
- 阿里云數(shù)加控制臺 阿里的云平臺種類較多诺苹,云梯(貌似已下線)、飛天(自研)雹拄、數(shù)加收奔,有點(diǎn)眼花繚亂。因?yàn)槭亲匝邪旖埃褂幂^繁雜(可能是因?yàn)椴皇煜ぃ┏镆褂们耙徺IMaxCompute服務(wù),性能較好(個人體驗(yàn))
- Amazon EMR控制臺 各組件基本是當(dāng)前最新版本呢撞!申請賬號時需要綁定信用卡损姜,萬一集群忘記銷毀。殊霞。摧阅。
各產(chǎn)品的收費(fèi)情況和其能提供的服務(wù)器性能、服務(wù)功能相關(guān)绷蹲,收費(fèi)方式多樣化棒卷,可年顾孽、月、時比规。4臺規(guī)模集群的Hadoop+Spark服務(wù)若厚,大概3-5元/小時不等。
因?yàn)槎际谴髲S的大數(shù)據(jù)平臺產(chǎn)品蜒什,所以肯定都是功底深厚测秸、面向廣泛。上述描述灾常,僅僅是個人體驗(yàn)霎冯,不具有通用性、不帶有批判性钞瀑、沒有代表性沈撞。
本文僅簡單介紹一下我比較喜歡的百度天算這個產(chǎn)品:
使用過程如下:執(zhí)行WordCount應(yīng)用程序,統(tǒng)計(jì)文本中單詞詞頻雕什。
-
需要使用對象存儲BOS和百度MapReduce BMR功能
-
進(jìn)入對象存儲BOS后缠俺,用戶通過新建bucket,建立存放在 BOS上的文件夾
-
將需要執(zhí)行的Spark應(yīng)用程序及被測數(shù)據(jù)上傳到剛才建立的文件夾中
-
通過導(dǎo)航欄進(jìn)入百度MapReduce功能监徘,準(zhǔn)備創(chuàng)建集群
-
配置集群名稱晋修、登錄用戶名、密碼(用來進(jìn)入Web UI和SSH連接)凰盔、BOS路徑墓卦、選擇組件版本
我選擇使用Hadoop 2.7、Spark 1.6.0户敬、Hue 3.10.0落剪、HBase 1.1.2,創(chuàng)建4個節(jié)點(diǎn)
-
付費(fèi)
-
支付成功后尿庐,集群就開通了
-
4臺規(guī)模的集群忠怖,初始化了10分鐘,時間較長抄瑟,應(yīng)該是啟動虛機(jī)后凡泣,根據(jù)用戶的選擇,下載相應(yīng)的組件包皮假,修改配置鞋拟,啟動服務(wù)。
-
集群服務(wù)啟動成功
-
通過集群的實(shí)例詳情惹资,可以鏈接Yarn Web UI和Hue Web UI
-
通過導(dǎo)航欄選擇作業(yè)贺纲,創(chuàng)建作業(yè)
-
選擇Spark作業(yè),指定Spark-submit命令參數(shù)及應(yīng)用程序參數(shù)(位置在BOS)
-
作業(yè)創(chuàng)建成功后褪测,等待執(zhí)行
-
作業(yè)執(zhí)行過程中可以查看作業(yè)詳情
-
一段時間后猴誊,作業(yè)完成
-
通過查看作業(yè)日志潦刃,觀察輸出結(jié)果
通過集群界面中的Hadoop Yarn Web UI鏈接懈叹,查看應(yīng)用程序的具體執(zhí)行情況
-
可用在集群的監(jiān)控頁面乖杠,觀察集群狀態(tài)和各大數(shù)據(jù)組件信息
-
可以在導(dǎo)航欄選擇多用戶訪問控制,對多用戶權(quán)限進(jìn)行管理和控制
-
百度云提供詳盡的產(chǎn)品手冊澄成,對用戶進(jìn)行指導(dǎo)
使用過程中一些小坑:
- 集群環(huán)境默認(rèn)使用JDK 1.7版本滑黔,所以用戶編譯應(yīng)用程序時,請使用JDK 1.7环揽,否則會出現(xiàn)類似:Unsupported major.minor.version 51.0的錯誤
- 集群環(huán)境默認(rèn)使用Scala 2.10版本,所以用戶編譯應(yīng)用程序時庵佣,請使用Scala 2.10.x歉胶,否則會出現(xiàn)類似: java.lang.AbstractMethodError: bdsparkwc$1.call(Ljava/lang/Object;)Ljava/lang/Iterable;的錯誤
- 當(dāng)應(yīng)用程序執(zhí)行完畢后,無法使用Yarn Web UI來登陸應(yīng)用程序的Driver Web UI 4040界面巴粪,估計(jì)是Spark History Server服務(wù)沒有開啟
- 其提供IP用來SSH連接通今,經(jīng)常出現(xiàn)超時
總結(jié):
目前來看,主流大廠都是通過這種SaaS方式來提供大數(shù)據(jù)平臺全托管的服務(wù)肛根,面向一些沒有數(shù)據(jù)中心辫塌、沒有運(yùn)維能力的中小型企業(yè),按需部署和使用派哲,非常的快捷。通過其詳盡的產(chǎn)品使用指南,用戶再具備一些大數(shù)據(jù)組件相關(guān)使用的知識集乔,就可以快速的進(jìn)行大數(shù)據(jù)的清洗锌云、挖掘、分析和報(bào)告褂乍,無需為集群節(jié)點(diǎn)分配持隧、部署、優(yōu)化逃片、維護(hù)投入時間屡拨。
相關(guān)鏈接: