大數(shù)據(jù)阿里云工具之DataWorks(一)

? ? ? ?本文主要介紹dataworks的數(shù)據(jù)集成、數(shù)據(jù)質(zhì)量刘莹、數(shù)據(jù)地圖與數(shù)據(jù)開(kāi)發(fā)

一株茶、簡(jiǎn)介

? ? ? ? DataWorks(數(shù)據(jù)工場(chǎng)蛉鹿,原大數(shù)據(jù)開(kāi)發(fā)套件)是阿里云重要的PaaS平臺(tái)產(chǎn)品齐媒,提供數(shù)據(jù)集成蒲每、數(shù)據(jù)開(kāi)發(fā)、數(shù)據(jù)地圖喻括、數(shù)據(jù)質(zhì)量和數(shù)據(jù)服務(wù)等全方位的產(chǎn)品服務(wù),一站式開(kāi)發(fā)管理的界面贫奠,幫助企業(yè)專(zhuān)注于數(shù)據(jù)價(jià)值的挖掘和探索唬血。DataWorks支持多種計(jì)算和存儲(chǔ)引擎服務(wù),包括離線(xiàn)計(jì)算MaxCompute唤崭、開(kāi)源大數(shù)據(jù)引擎E-MapReduce拷恨、實(shí)時(shí)計(jì)算(基于Flink)、機(jī)器學(xué)習(xí)PAI谢肾、圖計(jì)算服務(wù)Graph Compute和交互式分析服務(wù)等腕侄,并且支持用戶(hù)自定義接入計(jì)算和存儲(chǔ)服務(wù)。DataWorks為您提供全鏈路智能大數(shù)據(jù)及AI開(kāi)發(fā)和治理服務(wù)。(引用阿里DataWorks文檔)

二冕杠、作用

? ? ? ?可以使用DataWorks微姊,對(duì)數(shù)據(jù)進(jìn)行傳輸、轉(zhuǎn)換和集成等操作分预,從不同的數(shù)據(jù)存儲(chǔ)引入數(shù)據(jù)兢交,并進(jìn)行轉(zhuǎn)化和開(kāi)發(fā),最后將處理好的數(shù)據(jù)同步至其它數(shù)據(jù)系統(tǒng)笼痹。(引用阿里DataWorks文檔)

三配喳、數(shù)據(jù)集成

1.創(chuàng)建工作空間

? ? ? 此步驟的前置條件是必須購(gòu)買(mǎi)了DataWorks的服務(wù),進(jìn)入到DataWorks的控制臺(tái)凳干,點(diǎn)擊創(chuàng)建工作空間

? ? ? 購(gòu)買(mǎi)服務(wù)鏈接:https://common-buy.aliyun.com/?spm=a2c0j.8205274.1252641.124455.21da154drWipQc&commodityCode=dide_pre#/buy

? ? ? ?其他的都是項(xiàng)目名晴裹、顯示名什么的,最主要的是模式的選擇救赐,工作空間氛圍兩種模式息拜,一種是單環(huán)境模式,一種是雙環(huán)境模式,我們使用的是雙環(huán)境模式净响,如果選擇雙環(huán)境模式少欺,項(xiàng)目名后綴_dev是開(kāi)發(fā)環(huán)境,如果想要查詢(xún)其他環(huán)境的表數(shù)據(jù)時(shí)馋贤,得加上項(xiàng)目空間名+表才可以查詢(xún)到赞别。

2.數(shù)據(jù)集成

? ? ? ?數(shù)據(jù)集成分為兩種模式,一種是向?qū)J脚渑遥环N是腳本模式仿滔,目前數(shù)據(jù)集成只適合離線(xiàn)數(shù)據(jù)同步,據(jù)說(shuō)阿里云三月份會(huì)上線(xiàn)支持實(shí)時(shí)數(shù)據(jù)同步犹芹,向?qū)J骄褪前凑瞻⒗镌频奶崾疽徊揭徊降牟僮髌橐常喈?dāng)于是傻瓜式的操作,腳本模式腰埂,是根據(jù)自己編寫(xiě)導(dǎo)入導(dǎo)出的腳本飒焦,如果使用過(guò)datax的同學(xué),這個(gè)腳本模式其實(shí)跟datax差不多屿笼。無(wú)論是想到模式還是腳本模式都需要前置設(shè)置數(shù)據(jù)源牺荠。

? ? ? ?數(shù)據(jù)源設(shè)置,在數(shù)據(jù)集成模塊里面有個(gè)數(shù)據(jù)源管理的選項(xiàng)驴一,進(jìn)行數(shù)據(jù)源配置


? ? ? 配置好數(shù)據(jù)源后點(diǎn)擊新建同步任務(wù)

? ? ? 向?qū)J叫荽疲跀?shù)據(jù)源為MySql的時(shí)候,支持過(guò)濾語(yǔ)句肝断,可以根據(jù)過(guò)濾語(yǔ)句進(jìn)行篩選出新增數(shù)據(jù)杈曲,ODPS為DataWorks的數(shù)據(jù)源驰凛,默認(rèn)庫(kù)odps_first

? ? ? 同步任務(wù)支持的數(shù)據(jù)源可查看官方文檔:https://help.aliyun.com/document_detail/137670.html?spm=a2c4g.11186623.2.7.7bbc4c07xGyZXa#concept-uzy-hgv-42b


? ? ? ? ?腳本模式,其實(shí)里面書(shū)寫(xiě)的是json,但是要注意的是担扑,是用腳本模式的話(huà)恰响,有些過(guò)濾字段是不支持的,具體不支持的條件請(qǐng)看相應(yīng)的配置文檔(這里踩過(guò)坑)


PS;重點(diǎn)魁亦,向?qū)J睫D(zhuǎn)為腳本模式不可逆渔隶,慎重!慎重=嗄巍间唉!慎重!@酢呈野!

四、數(shù)據(jù)質(zhì)量

? ? ? ?數(shù)據(jù)質(zhì)量這塊印叁,個(gè)人感覺(jué)更適合一些非結(jié)構(gòu)化數(shù)據(jù)或者一些敏感數(shù)據(jù)對(duì)某一項(xiàng)的值要求比較嚴(yán)格被冒,這邊主要是對(duì)列變化的值做的一個(gè)報(bào)警規(guī)則配置。點(diǎn)擊數(shù)據(jù)質(zhì)量里面的創(chuàng)建規(guī)則按鈕轮蜕。


? ? ? ? 在規(guī)則里面我們可以按照自己的業(yè)務(wù)去進(jìn)行設(shè)定昨悼,當(dāng)一定量的數(shù)據(jù)超過(guò)某個(gè)值,或者當(dāng)天的數(shù)據(jù)量超過(guò)某個(gè)值跃洛,或某個(gè)列的值不可能為負(fù)率触,結(jié)果為負(fù)的一些報(bào)警規(guī)則設(shè)置,通過(guò)這些設(shè)定去分析我們這批數(shù)據(jù)在生產(chǎn)的時(shí)候的一個(gè)質(zhì)量情況汇竭,也可以幫助我們?cè)贅I(yè)務(wù)上規(guī)避很多風(fēng)險(xiǎn)葱蝗。

五、數(shù)據(jù)地圖

? ? ? ? 數(shù)據(jù)地圖顧名思義就是你可以在這里看到所有空間創(chuàng)建的表的信息细燎,并可以在這里去刪除生產(chǎn)環(huán)境的表两曼,也可以監(jiān)控到表每天的一個(gè)數(shù)據(jù)變化,目前數(shù)據(jù)地圖的更新周期為天玻驻,阿里是一天對(duì)數(shù)據(jù)地圖的數(shù)據(jù)進(jìn)行更新(更新不是實(shí)時(shí)的)

? ? ? ? ?數(shù)據(jù)地圖概況悼凑,可以查看到有多少個(gè)項(xiàng)目,多少?gòu)埍砘魇ǎ瑪?shù)據(jù)存儲(chǔ)量佛析,以及需要消耗的計(jì)算資源等

? ? ?在全部數(shù)據(jù)里可以搜索你想找到的表

? ? ? ?點(diǎn)擊表名,可以去查看標(biāo)的詳細(xì)信息彪蓬,可以查看到這張表的創(chuàng)建時(shí)間、存儲(chǔ)量捺萌、分區(qū)變更以及預(yù)覽表數(shù)據(jù)等等

六档冬、數(shù)據(jù)開(kāi)發(fā)

? ? ? ?數(shù)據(jù)開(kāi)發(fā)才是DataWorks里面的重中之重膘茎,數(shù)據(jù)開(kāi)發(fā)又分為離線(xiàn)開(kāi)發(fā)和實(shí)時(shí)開(kāi)發(fā),分別對(duì)應(yīng)著兩個(gè)計(jì)算引擎酷誓,(MC和實(shí)時(shí)計(jì)算)

? ? ? 只有有實(shí)時(shí)計(jì)算引擎的才能開(kāi)發(fā)實(shí)時(shí)任務(wù)(目前我們還沒(méi)開(kāi)通實(shí)時(shí)開(kāi)發(fā))披坏,主要給大家介紹一下離線(xiàn)開(kāi)發(fā)

1.創(chuàng)建業(yè)務(wù)流程

? ? ? ? 創(chuàng)建好業(yè)務(wù)流程后,我在業(yè)務(wù)流程里面可以看到盐数,業(yè)務(wù)流程里面可以使用的節(jié)點(diǎn)信息棒拂,包括我們前面提到的數(shù)據(jù)集成,MC計(jì)算引擎提供的數(shù)據(jù)計(jì)算節(jié)點(diǎn)玫氢,通過(guò)MC提供的節(jié)點(diǎn)我們對(duì)同步過(guò)來(lái)的數(shù)據(jù)進(jìn)行ETL帚屉,并把最后統(tǒng)計(jì)好的數(shù)據(jù)在使用數(shù)據(jù)集成,同步到業(yè)務(wù)數(shù)據(jù)庫(kù)中漾峡。

? ? ? ? 這里看大家數(shù)據(jù)工具的程度攻旦,如果以前寫(xiě)過(guò)MR或者Spark,那么直接使用SQL就可以了生逸,如果使用MR或者Spark比較熟的話(huà)牢屋,可以寫(xiě)代碼,我們這里主要使用的還是isql槽袄,有點(diǎn)像MySql烙无,但是又不完全是

ps:在阿里云的這個(gè)MC計(jì)算評(píng)臺(tái),每一步操作查詢(xún)都是要花錢(qián)的(按量付費(fèi))(包月的不用)

我們寫(xiě)完我們的sql后遍尺,按照流程串起來(lái)

串起來(lái)后截酷,我們就可以進(jìn)行測(cè)試了,根據(jù)自己的測(cè)試結(jié)果進(jìn)行修改或者調(diào)整j狮鸭。

七合搅、總結(jié)

? ? ? ? 阿里云服務(wù)是一整套的大數(shù)據(jù)框架體系,讓我們開(kāi)發(fā)人員操作的很方便歧蕉,中間也出現(xiàn)過(guò)其他問(wèn)題灾部,但是在阿里的幫助下,都是追不解決惯退,不能說(shuō)完全解決赌髓,因?yàn)槲覀兪褂玫倪€是公用的,不是給我們公司自己搭建的計(jì)算服務(wù)催跪,說(shuō)一下锁蠕,使用過(guò)程中遇到的問(wèn)題,第一就是費(fèi)錢(qián)懊蒸,我們使用的是按量付費(fèi)荣倾,每一次開(kāi)發(fā)的查詢(xún)sql都需要花錢(qián)。第二就是阿里的文檔個(gè)別解釋不準(zhǔn)確或是書(shū)寫(xiě)有問(wèn)題骑丸,這些都是在工作中遇到的也跟阿里的開(kāi)發(fā)人員反應(yīng)過(guò)來(lái)舌仍,建議如果你們公司使用產(chǎn)品服務(wù)妒貌,一定要加阿里云的釘釘群,減少你們的摸索時(shí)間铸豁,因?yàn)槟阍陂_(kāi)發(fā)中遇到問(wèn)題灌曙,提交工單的話(huà),一個(gè)工單可能你得等一個(gè)多小時(shí)才能有回復(fù)节芥,中間的時(shí)間就完全浪費(fèi)掉了在刺,但是在釘釘群里,大家如果遇到類(lèi)似的問(wèn)題都會(huì)回答你的头镊,釘釘群也有阿里的專(zhuān)職技術(shù)人員蚣驼。

? ? ? ? 這一節(jié)就給大家分享這么多吧,DataWorks還包含著其他的東西拧晕,例如運(yùn)維中心隙姿、數(shù)據(jù)服務(wù)等等,到下一節(jié)再給大家繼續(xù)分享厂捞,如果文中有什么描述有歧義的输玷,歡迎批評(píng)指正。

? ? ? ? 謝謝瀏覽~~

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末靡馁,一起剝皮案震驚了整個(gè)濱河市欲鹏,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌臭墨,老刑警劉巖赔嚎,帶你破解...
    沈念sama閱讀 211,639評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異胧弛,居然都是意外死亡尤误,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,277評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門(mén)结缚,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)损晤,“玉大人,你說(shuō)我怎么就攤上這事红竭∮妊” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 157,221評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵茵宪,是天一觀(guān)的道長(zhǎng)最冰。 經(jīng)常有香客問(wèn)我,道長(zhǎng)稀火,這世上最難降的妖魔是什么暖哨? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,474評(píng)論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮凰狞,結(jié)果婚禮上鹿蜀,老公的妹妹穿的比我還像新娘箕慧。我一直安慰自己服球,他們只是感情好茴恰,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,570評(píng)論 6 386
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著斩熊,像睡著了一般往枣。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上粉渠,一...
    開(kāi)封第一講書(shū)人閱讀 49,816評(píng)論 1 290
  • 那天分冈,我揣著相機(jī)與錄音,去河邊找鬼霸株。 笑死雕沉,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的去件。 我是一名探鬼主播坡椒,決...
    沈念sama閱讀 38,957評(píng)論 3 408
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼尤溜!你這毒婦竟也來(lái)了倔叼?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 37,718評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤宫莱,失蹤者是張志新(化名)和其女友劉穎丈攒,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體授霸,經(jīng)...
    沈念sama閱讀 44,176評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡巡验,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,511評(píng)論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了碘耳。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片显设。...
    茶點(diǎn)故事閱讀 38,646評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖藏畅,靈堂內(nèi)的尸體忽然破棺而出敷硅,到底是詐尸還是另有隱情,我是刑警寧澤愉阎,帶...
    沈念sama閱讀 34,322評(píng)論 4 330
  • 正文 年R本政府宣布绞蹦,位于F島的核電站,受9級(jí)特大地震影響榜旦,放射性物質(zhì)發(fā)生泄漏幽七。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,934評(píng)論 3 313
  • 文/蒙蒙 一溅呢、第九天 我趴在偏房一處隱蔽的房頂上張望澡屡。 院中可真熱鬧猿挚,春花似錦、人聲如沸驶鹉。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,755評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)室埋。三九已至办绝,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間姚淆,已是汗流浹背孕蝉。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,987評(píng)論 1 266
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留腌逢,地道東北人降淮。 一個(gè)月前我還...
    沈念sama閱讀 46,358評(píng)論 2 360
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像搏讶,于是被迫代替她去往敵國(guó)和親佳鳖。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,514評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容