? ? ? ?本文主要介紹dataworks的數(shù)據(jù)集成、數(shù)據(jù)質(zhì)量刘莹、數(shù)據(jù)地圖與數(shù)據(jù)開(kāi)發(fā)
一株茶、簡(jiǎn)介
? ? ? ? DataWorks(數(shù)據(jù)工場(chǎng)蛉鹿,原大數(shù)據(jù)開(kāi)發(fā)套件)是阿里云重要的PaaS平臺(tái)產(chǎn)品齐媒,提供數(shù)據(jù)集成蒲每、數(shù)據(jù)開(kāi)發(fā)、數(shù)據(jù)地圖喻括、數(shù)據(jù)質(zhì)量和數(shù)據(jù)服務(wù)等全方位的產(chǎn)品服務(wù),一站式開(kāi)發(fā)管理的界面贫奠,幫助企業(yè)專(zhuān)注于數(shù)據(jù)價(jià)值的挖掘和探索唬血。DataWorks支持多種計(jì)算和存儲(chǔ)引擎服務(wù),包括離線(xiàn)計(jì)算MaxCompute唤崭、開(kāi)源大數(shù)據(jù)引擎E-MapReduce拷恨、實(shí)時(shí)計(jì)算(基于Flink)、機(jī)器學(xué)習(xí)PAI谢肾、圖計(jì)算服務(wù)Graph Compute和交互式分析服務(wù)等腕侄,并且支持用戶(hù)自定義接入計(jì)算和存儲(chǔ)服務(wù)。DataWorks為您提供全鏈路智能大數(shù)據(jù)及AI開(kāi)發(fā)和治理服務(wù)。(引用阿里DataWorks文檔)
二冕杠、作用
? ? ? ?可以使用DataWorks微姊,對(duì)數(shù)據(jù)進(jìn)行傳輸、轉(zhuǎn)換和集成等操作分预,從不同的數(shù)據(jù)存儲(chǔ)引入數(shù)據(jù)兢交,并進(jìn)行轉(zhuǎn)化和開(kāi)發(fā),最后將處理好的數(shù)據(jù)同步至其它數(shù)據(jù)系統(tǒng)笼痹。(引用阿里DataWorks文檔)
三配喳、數(shù)據(jù)集成
1.創(chuàng)建工作空間
? ? ? 此步驟的前置條件是必須購(gòu)買(mǎi)了DataWorks的服務(wù),進(jìn)入到DataWorks的控制臺(tái)凳干,點(diǎn)擊創(chuàng)建工作空間
? ? ? 購(gòu)買(mǎi)服務(wù)鏈接:https://common-buy.aliyun.com/?spm=a2c0j.8205274.1252641.124455.21da154drWipQc&commodityCode=dide_pre#/buy
? ? ? ?其他的都是項(xiàng)目名晴裹、顯示名什么的,最主要的是模式的選擇救赐,工作空間氛圍兩種模式息拜,一種是單環(huán)境模式,一種是雙環(huán)境模式,我們使用的是雙環(huán)境模式净响,如果選擇雙環(huán)境模式少欺,項(xiàng)目名后綴_dev是開(kāi)發(fā)環(huán)境,如果想要查詢(xún)其他環(huán)境的表數(shù)據(jù)時(shí)馋贤,得加上項(xiàng)目空間名+表才可以查詢(xún)到赞别。
2.數(shù)據(jù)集成
? ? ? ?數(shù)據(jù)集成分為兩種模式,一種是向?qū)J脚渑遥环N是腳本模式仿滔,目前數(shù)據(jù)集成只適合離線(xiàn)數(shù)據(jù)同步,據(jù)說(shuō)阿里云三月份會(huì)上線(xiàn)支持實(shí)時(shí)數(shù)據(jù)同步犹芹,向?qū)J骄褪前凑瞻⒗镌频奶崾疽徊揭徊降牟僮髌橐常喈?dāng)于是傻瓜式的操作,腳本模式腰埂,是根據(jù)自己編寫(xiě)導(dǎo)入導(dǎo)出的腳本飒焦,如果使用過(guò)datax的同學(xué),這個(gè)腳本模式其實(shí)跟datax差不多屿笼。無(wú)論是想到模式還是腳本模式都需要前置設(shè)置數(shù)據(jù)源牺荠。
? ? ? ?數(shù)據(jù)源設(shè)置,在數(shù)據(jù)集成模塊里面有個(gè)數(shù)據(jù)源管理的選項(xiàng)驴一,進(jìn)行數(shù)據(jù)源配置
? ? ? 配置好數(shù)據(jù)源后點(diǎn)擊新建同步任務(wù)
? ? ? 向?qū)J叫荽疲跀?shù)據(jù)源為MySql的時(shí)候,支持過(guò)濾語(yǔ)句肝断,可以根據(jù)過(guò)濾語(yǔ)句進(jìn)行篩選出新增數(shù)據(jù)杈曲,ODPS為DataWorks的數(shù)據(jù)源驰凛,默認(rèn)庫(kù)odps_first
? ? ? 同步任務(wù)支持的數(shù)據(jù)源可查看官方文檔:https://help.aliyun.com/document_detail/137670.html?spm=a2c4g.11186623.2.7.7bbc4c07xGyZXa#concept-uzy-hgv-42b
? ? ? ? ?腳本模式,其實(shí)里面書(shū)寫(xiě)的是json,但是要注意的是担扑,是用腳本模式的話(huà)恰响,有些過(guò)濾字段是不支持的,具體不支持的條件請(qǐng)看相應(yīng)的配置文檔(這里踩過(guò)坑)
PS;重點(diǎn)魁亦,向?qū)J睫D(zhuǎn)為腳本模式不可逆渔隶,慎重!慎重=嗄巍间唉!慎重!@酢呈野!
四、數(shù)據(jù)質(zhì)量
? ? ? ?數(shù)據(jù)質(zhì)量這塊印叁,個(gè)人感覺(jué)更適合一些非結(jié)構(gòu)化數(shù)據(jù)或者一些敏感數(shù)據(jù)對(duì)某一項(xiàng)的值要求比較嚴(yán)格被冒,這邊主要是對(duì)列變化的值做的一個(gè)報(bào)警規(guī)則配置。點(diǎn)擊數(shù)據(jù)質(zhì)量里面的創(chuàng)建規(guī)則按鈕轮蜕。
? ? ? ? 在規(guī)則里面我們可以按照自己的業(yè)務(wù)去進(jìn)行設(shè)定昨悼,當(dāng)一定量的數(shù)據(jù)超過(guò)某個(gè)值,或者當(dāng)天的數(shù)據(jù)量超過(guò)某個(gè)值跃洛,或某個(gè)列的值不可能為負(fù)率触,結(jié)果為負(fù)的一些報(bào)警規(guī)則設(shè)置,通過(guò)這些設(shè)定去分析我們這批數(shù)據(jù)在生產(chǎn)的時(shí)候的一個(gè)質(zhì)量情況汇竭,也可以幫助我們?cè)贅I(yè)務(wù)上規(guī)避很多風(fēng)險(xiǎn)葱蝗。
五、數(shù)據(jù)地圖
? ? ? ? 數(shù)據(jù)地圖顧名思義就是你可以在這里看到所有空間創(chuàng)建的表的信息细燎,并可以在這里去刪除生產(chǎn)環(huán)境的表两曼,也可以監(jiān)控到表每天的一個(gè)數(shù)據(jù)變化,目前數(shù)據(jù)地圖的更新周期為天玻驻,阿里是一天對(duì)數(shù)據(jù)地圖的數(shù)據(jù)進(jìn)行更新(更新不是實(shí)時(shí)的)
? ? ? ? ?數(shù)據(jù)地圖概況悼凑,可以查看到有多少個(gè)項(xiàng)目,多少?gòu)埍砘魇ǎ瑪?shù)據(jù)存儲(chǔ)量佛析,以及需要消耗的計(jì)算資源等
? ? ?在全部數(shù)據(jù)里可以搜索你想找到的表
? ? ? ?點(diǎn)擊表名,可以去查看標(biāo)的詳細(xì)信息彪蓬,可以查看到這張表的創(chuàng)建時(shí)間、存儲(chǔ)量捺萌、分區(qū)變更以及預(yù)覽表數(shù)據(jù)等等
六档冬、數(shù)據(jù)開(kāi)發(fā)
? ? ? ?數(shù)據(jù)開(kāi)發(fā)才是DataWorks里面的重中之重膘茎,數(shù)據(jù)開(kāi)發(fā)又分為離線(xiàn)開(kāi)發(fā)和實(shí)時(shí)開(kāi)發(fā),分別對(duì)應(yīng)著兩個(gè)計(jì)算引擎酷誓,(MC和實(shí)時(shí)計(jì)算)
? ? ? 只有有實(shí)時(shí)計(jì)算引擎的才能開(kāi)發(fā)實(shí)時(shí)任務(wù)(目前我們還沒(méi)開(kāi)通實(shí)時(shí)開(kāi)發(fā))披坏,主要給大家介紹一下離線(xiàn)開(kāi)發(fā)
1.創(chuàng)建業(yè)務(wù)流程
? ? ? ? 創(chuàng)建好業(yè)務(wù)流程后,我在業(yè)務(wù)流程里面可以看到盐数,業(yè)務(wù)流程里面可以使用的節(jié)點(diǎn)信息棒拂,包括我們前面提到的數(shù)據(jù)集成,MC計(jì)算引擎提供的數(shù)據(jù)計(jì)算節(jié)點(diǎn)玫氢,通過(guò)MC提供的節(jié)點(diǎn)我們對(duì)同步過(guò)來(lái)的數(shù)據(jù)進(jìn)行ETL帚屉,并把最后統(tǒng)計(jì)好的數(shù)據(jù)在使用數(shù)據(jù)集成,同步到業(yè)務(wù)數(shù)據(jù)庫(kù)中漾峡。
? ? ? ? 這里看大家數(shù)據(jù)工具的程度攻旦,如果以前寫(xiě)過(guò)MR或者Spark,那么直接使用SQL就可以了生逸,如果使用MR或者Spark比較熟的話(huà)牢屋,可以寫(xiě)代碼,我們這里主要使用的還是isql槽袄,有點(diǎn)像MySql烙无,但是又不完全是
ps:在阿里云的這個(gè)MC計(jì)算評(píng)臺(tái),每一步操作查詢(xún)都是要花錢(qián)的(按量付費(fèi))(包月的不用)
我們寫(xiě)完我們的sql后遍尺,按照流程串起來(lái)
串起來(lái)后截酷,我們就可以進(jìn)行測(cè)試了,根據(jù)自己的測(cè)試結(jié)果進(jìn)行修改或者調(diào)整j狮鸭。
七合搅、總結(jié)
? ? ? ? 阿里云服務(wù)是一整套的大數(shù)據(jù)框架體系,讓我們開(kāi)發(fā)人員操作的很方便歧蕉,中間也出現(xiàn)過(guò)其他問(wèn)題灾部,但是在阿里的幫助下,都是追不解決惯退,不能說(shuō)完全解決赌髓,因?yàn)槲覀兪褂玫倪€是公用的,不是給我們公司自己搭建的計(jì)算服務(wù)催跪,說(shuō)一下锁蠕,使用過(guò)程中遇到的問(wèn)題,第一就是費(fèi)錢(qián)懊蒸,我們使用的是按量付費(fèi)荣倾,每一次開(kāi)發(fā)的查詢(xún)sql都需要花錢(qián)。第二就是阿里的文檔個(gè)別解釋不準(zhǔn)確或是書(shū)寫(xiě)有問(wèn)題骑丸,這些都是在工作中遇到的也跟阿里的開(kāi)發(fā)人員反應(yīng)過(guò)來(lái)舌仍,建議如果你們公司使用產(chǎn)品服務(wù)妒貌,一定要加阿里云的釘釘群,減少你們的摸索時(shí)間铸豁,因?yàn)槟阍陂_(kāi)發(fā)中遇到問(wèn)題灌曙,提交工單的話(huà),一個(gè)工單可能你得等一個(gè)多小時(shí)才能有回復(fù)节芥,中間的時(shí)間就完全浪費(fèi)掉了在刺,但是在釘釘群里,大家如果遇到類(lèi)似的問(wèn)題都會(huì)回答你的头镊,釘釘群也有阿里的專(zhuān)職技術(shù)人員蚣驼。
? ? ? ? 這一節(jié)就給大家分享這么多吧,DataWorks還包含著其他的東西拧晕,例如運(yùn)維中心隙姿、數(shù)據(jù)服務(wù)等等,到下一節(jié)再給大家繼續(xù)分享厂捞,如果文中有什么描述有歧義的输玷,歡迎批評(píng)指正。
? ? ? ? 謝謝瀏覽~~