商業(yè)智能之ETL

商業(yè)智能儀表盤(pán)的制作過(guò)程中牛欢,需要分別用到ETL功能铭拧、數(shù)據(jù)倉(cāng)庫(kù)功能、OLAP功能及數(shù)據(jù)可視化功能庇茫。

ETL是英文Extract-Transform-Load的首字母縮寫(xiě)港粱,是將分析時(shí)使用的數(shù)據(jù)從數(shù)據(jù)源端經(jīng)過(guò)抽取(Extract)旦签、清洗轉(zhuǎn)換(Transform)之后加載(Load)到數(shù)據(jù)倉(cāng)庫(kù)的過(guò)程查坪。使用ETL功能的目的是將所有分析所需的分散在企業(yè)內(nèi)外部的零亂、標(biāo)準(zhǔn)不統(tǒng)一宁炫、沒(méi)有質(zhì)量保證的數(shù)據(jù)整合到一起偿曙,為分析決策提供完整、高質(zhì)量的數(shù)據(jù)信息羔巢。

ETL功能常見(jiàn)的執(zhí)行順序分為兩類(lèi)望忆,一類(lèi)是按照“ETL”的順序執(zhí)行,也就是先抽取竿秆,再清洗轉(zhuǎn)換启摄,最后加載,另一類(lèi)是按照“ELT"的順序執(zhí)行幽钢,也就是先抽取歉备,再加載,最后清洗轉(zhuǎn)換匪燕。加載對(duì)象數(shù)據(jù)倉(cāng)庫(kù)的處理能力越強(qiáng)蕾羊,處理數(shù)據(jù)量越大喧笔,清洗轉(zhuǎn)換邏輯越復(fù)雜,越傾向于按照“ELT”的順序執(zhí)行龟再。

ETL功能中的“E”表示抽取功能书闸,其目的是將分析所需的所有相關(guān)數(shù)據(jù)從不同數(shù)據(jù)源中抽取出來(lái)為加載到數(shù)據(jù)倉(cāng)庫(kù)做準(zhǔn)備。

ETL功能中的“T”表示清洗轉(zhuǎn)換功能吸申,其目的是保證數(shù)據(jù)的完整性與準(zhǔn)確性梗劫。數(shù)據(jù)清洗的主要任務(wù)是過(guò)濾篩選不完整、錯(cuò)誤及重復(fù)的數(shù)據(jù)記錄截碴。不完整數(shù)據(jù)主要指的是分析中需要用到而數(shù)據(jù)源中又有所缺失的數(shù)據(jù)記錄笛求。錯(cuò)誤數(shù)據(jù)主要指的是有錯(cuò)誤數(shù)值存在的數(shù)據(jù)記錄,錯(cuò)誤值可能來(lái)自不健全的業(yè)務(wù)系統(tǒng)臊泌、系統(tǒng)bug或人為輸入信息錯(cuò)誤怎抛。重復(fù)數(shù)據(jù)主要指的是在不應(yīng)出現(xiàn)重復(fù)值的字段中出現(xiàn)重復(fù)值的情況,這多數(shù)是因?yàn)槌槿『喜?shù)據(jù)時(shí)的邏輯錯(cuò)誤哲虾,造成一表信息在多表中重復(fù)記錄翻倍丙躏。

數(shù)據(jù)轉(zhuǎn)換主要對(duì)“粒度”不一致及“規(guī)則”不一致的數(shù)據(jù)進(jìn)行轉(zhuǎn)換。在業(yè)務(wù)描述性分析中的“粒度”指的是觀測(cè)業(yè)務(wù)的精細(xì)程度束凑,而一個(gè)數(shù)據(jù)表中最小的業(yè)務(wù)觀測(cè)粒度一般是這個(gè)數(shù)據(jù)表中主鍵所代表的業(yè)務(wù)記錄單位晒旅。粒度越粗,一般越趨于對(duì)業(yè)務(wù)整體趨勢(shì)進(jìn)行描述分析汪诉;反之废恋,粒度越細(xì),一般越趨于對(duì)業(yè)務(wù)詳情進(jìn)行描述分析扒寄。

ETL功能有時(shí)還需要將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)鱼鼓,針對(duì)不同內(nèi)容的非結(jié)構(gòu)化數(shù)據(jù),要編寫(xiě)不同邏輯的解讀程序才能正確地轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)该编。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末迄本,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子课竣,更是在濱河造成了極大的恐慌嘉赎,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,042評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件稠氮,死亡現(xiàn)場(chǎng)離奇詭異曹阔,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)隔披,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,996評(píng)論 2 384
  • 文/潘曉璐 我一進(jìn)店門(mén)赃份,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人,你說(shuō)我怎么就攤上這事抓韩【烙溃” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 156,674評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵谒拴,是天一觀的道長(zhǎng)尝江。 經(jīng)常有香客問(wèn)我,道長(zhǎng)英上,這世上最難降的妖魔是什么炭序? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,340評(píng)論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮苍日,結(jié)果婚禮上惭聂,老公的妹妹穿的比我還像新娘。我一直安慰自己相恃,他們只是感情好辜纲,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,404評(píng)論 5 384
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著拦耐,像睡著了一般耕腾。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上杀糯,一...
    開(kāi)封第一講書(shū)人閱讀 49,749評(píng)論 1 289
  • 那天扫俺,我揣著相機(jī)與錄音,去河邊找鬼固翰。 笑死牵舵,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的倦挂。 我是一名探鬼主播,決...
    沈念sama閱讀 38,902評(píng)論 3 405
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼担巩,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼方援!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起涛癌,我...
    開(kāi)封第一講書(shū)人閱讀 37,662評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤犯戏,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后拳话,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體先匪,經(jīng)...
    沈念sama閱讀 44,110評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,451評(píng)論 2 325
  • 正文 我和宋清朗相戀三年弃衍,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了呀非。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,577評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖岸裙,靈堂內(nèi)的尸體忽然破棺而出猖败,到底是詐尸還是另有隱情,我是刑警寧澤降允,帶...
    沈念sama閱讀 34,258評(píng)論 4 328
  • 正文 年R本政府宣布恩闻,位于F島的核電站,受9級(jí)特大地震影響剧董,放射性物質(zhì)發(fā)生泄漏幢尚。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,848評(píng)論 3 312
  • 文/蒙蒙 一翅楼、第九天 我趴在偏房一處隱蔽的房頂上張望尉剩。 院中可真熱鬧,春花似錦犁嗅、人聲如沸边涕。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,726評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)功蜓。三九已至,卻和暖如春宠蚂,著一層夾襖步出監(jiān)牢的瞬間式撼,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,952評(píng)論 1 264
  • 我被黑心中介騙來(lái)泰國(guó)打工求厕, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留著隆,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,271評(píng)論 2 360
  • 正文 我出身青樓呀癣,卻偏偏與公主長(zhǎng)得像美浦,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子项栏,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,452評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容

  • 一浦辨、ETL發(fā)展的歷史背景 隨著企業(yè)的發(fā)展,各業(yè)務(wù)線沼沈、產(chǎn)品線流酬、部門(mén)都會(huì)承建各種信息化系統(tǒng)方便開(kāi)展自己的業(yè)務(wù)。隨著信息...
    愛(ài)爾噶辛恚克斯閱讀 394評(píng)論 0 0
  • 記錄一下 ETL是將業(yè)務(wù)系統(tǒng)的數(shù)據(jù)經(jīng)過(guò)抽取惭载、清洗轉(zhuǎn)換之后加載到數(shù)據(jù)倉(cāng)庫(kù)的過(guò)程旱函,目的是將企業(yè)中的分散、零亂描滔、標(biāo)準(zhǔn)不統(tǒng)...
    小蝸牛爬樓梯閱讀 1,950評(píng)論 0 21
  • ETL是將業(yè)務(wù)系統(tǒng)的數(shù)據(jù)經(jīng)過(guò)抽取棒妨、清洗轉(zhuǎn)換之后加載到數(shù)據(jù)倉(cāng)庫(kù)的過(guò)程,目的是將企業(yè)中的分散含长、零亂券腔、標(biāo)準(zhǔn)不統(tǒng)一的數(shù)據(jù)整...
    42c64edf12e9閱讀 341評(píng)論 0 2
  • 關(guān)鍵詞:搭建商業(yè)智能BI 隨著商業(yè)智能價(jià)值的不斷深入人心纷纫,各行各業(yè)都對(duì)BI商業(yè)智能系統(tǒng)有了不同程度的探索。據(jù)悉陪腌,商...
    jiaogo王閱讀 617評(píng)論 0 0
  • ETL是將業(yè)務(wù)系統(tǒng)的數(shù)據(jù)經(jīng)過(guò)抽取锻弓、清洗轉(zhuǎn)換之后加載到數(shù)據(jù)倉(cāng)庫(kù)的過(guò)程,目的是將企業(yè)中的分散蝌箍、零亂青灼、標(biāo)準(zhǔn)不統(tǒng)一的數(shù)據(jù)整...
    叫我老村長(zhǎng)閱讀 1,709評(píng)論 1 35