商業(yè)智能儀表盤(pán)的制作過(guò)程中牛欢,需要分別用到ETL功能铭拧、數(shù)據(jù)倉(cāng)庫(kù)功能、OLAP功能及數(shù)據(jù)可視化功能庇茫。
ETL是英文Extract-Transform-Load的首字母縮寫(xiě)港粱,是將分析時(shí)使用的數(shù)據(jù)從數(shù)據(jù)源端經(jīng)過(guò)抽取(Extract)旦签、清洗轉(zhuǎn)換(Transform)之后加載(Load)到數(shù)據(jù)倉(cāng)庫(kù)的過(guò)程查坪。使用ETL功能的目的是將所有分析所需的分散在企業(yè)內(nèi)外部的零亂、標(biāo)準(zhǔn)不統(tǒng)一宁炫、沒(méi)有質(zhì)量保證的數(shù)據(jù)整合到一起偿曙,為分析決策提供完整、高質(zhì)量的數(shù)據(jù)信息羔巢。
ETL功能常見(jiàn)的執(zhí)行順序分為兩類(lèi)望忆,一類(lèi)是按照“ETL”的順序執(zhí)行,也就是先抽取竿秆,再清洗轉(zhuǎn)換启摄,最后加載,另一類(lèi)是按照“ELT"的順序執(zhí)行幽钢,也就是先抽取歉备,再加載,最后清洗轉(zhuǎn)換匪燕。加載對(duì)象數(shù)據(jù)倉(cāng)庫(kù)的處理能力越強(qiáng)蕾羊,處理數(shù)據(jù)量越大喧笔,清洗轉(zhuǎn)換邏輯越復(fù)雜,越傾向于按照“ELT”的順序執(zhí)行龟再。
ETL功能中的“E”表示抽取功能书闸,其目的是將分析所需的所有相關(guān)數(shù)據(jù)從不同數(shù)據(jù)源中抽取出來(lái)為加載到數(shù)據(jù)倉(cāng)庫(kù)做準(zhǔn)備。
ETL功能中的“T”表示清洗轉(zhuǎn)換功能吸申,其目的是保證數(shù)據(jù)的完整性與準(zhǔn)確性梗劫。數(shù)據(jù)清洗的主要任務(wù)是過(guò)濾篩選不完整、錯(cuò)誤及重復(fù)的數(shù)據(jù)記錄截碴。不完整數(shù)據(jù)主要指的是分析中需要用到而數(shù)據(jù)源中又有所缺失的數(shù)據(jù)記錄笛求。錯(cuò)誤數(shù)據(jù)主要指的是有錯(cuò)誤數(shù)值存在的數(shù)據(jù)記錄,錯(cuò)誤值可能來(lái)自不健全的業(yè)務(wù)系統(tǒng)臊泌、系統(tǒng)bug或人為輸入信息錯(cuò)誤怎抛。重復(fù)數(shù)據(jù)主要指的是在不應(yīng)出現(xiàn)重復(fù)值的字段中出現(xiàn)重復(fù)值的情況,這多數(shù)是因?yàn)槌槿『喜?shù)據(jù)時(shí)的邏輯錯(cuò)誤哲虾,造成一表信息在多表中重復(fù)記錄翻倍丙躏。
數(shù)據(jù)轉(zhuǎn)換主要對(duì)“粒度”不一致及“規(guī)則”不一致的數(shù)據(jù)進(jìn)行轉(zhuǎn)換。在業(yè)務(wù)描述性分析中的“粒度”指的是觀測(cè)業(yè)務(wù)的精細(xì)程度束凑,而一個(gè)數(shù)據(jù)表中最小的業(yè)務(wù)觀測(cè)粒度一般是這個(gè)數(shù)據(jù)表中主鍵所代表的業(yè)務(wù)記錄單位晒旅。粒度越粗,一般越趨于對(duì)業(yè)務(wù)整體趨勢(shì)進(jìn)行描述分析汪诉;反之废恋,粒度越細(xì),一般越趨于對(duì)業(yè)務(wù)詳情進(jìn)行描述分析扒寄。
ETL功能有時(shí)還需要將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)鱼鼓,針對(duì)不同內(nèi)容的非結(jié)構(gòu)化數(shù)據(jù),要編寫(xiě)不同邏輯的解讀程序才能正確地轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)该编。