ETL:分別是“Extract”硫戈、“ Transform” 、“Load”三個(gè)單詞的首字母縮寫下硕,也就是“抽取”丁逝、“轉(zhuǎn)換”汁胆、“裝載”,但我們?nèi)粘M?jiǎn)稱其為數(shù)據(jù)抽取霜幼。ETL是BI/DW(商務(wù)智能/數(shù)據(jù)倉(cāng)庫(kù))的核心和靈魂嫩码,按照統(tǒng)一的規(guī)則集成并提高數(shù)據(jù)的價(jià)值,是負(fù)責(zé)完成數(shù)據(jù)從數(shù)據(jù)源向目標(biāo)數(shù)據(jù)倉(cāng)庫(kù)轉(zhuǎn)化的過(guò)程罪既,是實(shí)施數(shù)據(jù)倉(cāng)庫(kù)的重要步驟铸题。
ETL包含了三方面:
“抽取”:將數(shù)據(jù)從各種原始的業(yè)務(wù)系統(tǒng)中讀取出來(lái),這是所有工作的前提萝衩。
“轉(zhuǎn)換”:按照預(yù)先設(shè)計(jì)好的規(guī)則將抽取得數(shù)據(jù)進(jìn)行轉(zhuǎn)換回挽,使本來(lái)異構(gòu)的數(shù)據(jù)格式能統(tǒng)一起來(lái)没咙。
“裝載”:將轉(zhuǎn)換完的數(shù)據(jù)按計(jì)劃增量或全部導(dǎo)入到數(shù)據(jù)倉(cāng)庫(kù)中猩谊。
閱讀翻譯過(guò)來(lái)的中文書籍的時(shí)候常見(jiàn)額術(shù)語(yǔ)(如果英語(yǔ)還可以建議讀原版):
時(shí)間戳:
時(shí)間間隔:
固定時(shí)期:
Numpy:Numerical Python簡(jiǎn)稱
dtype:數(shù)據(jù)類型
矢量化:vectorization
廣播:broadcasting
花式索引:Fancy indexing
轉(zhuǎn)置:transpose
通用函數(shù):ufunc
聚合計(jì)算:aggregation,通常叫做約簡(jiǎn)
NaN:not a number
層次化索引:Hierarchical indexing
類型推斷:type inference
JSON:Javascript Object Notation
XML:Extensible Markup Language
數(shù)據(jù)挖掘?qū)д?br>
PCA:Principal Components Analysis,主成分分析
SVD:Singular Value Decomposition祭刚,奇異值分解
關(guān)聯(lián)分析:association analysis
支持向量機(jī):support vector machines牌捷,SVM
貝葉斯信念網(wǎng)絡(luò):Bayesian belief networks,BNN
聯(lián)機(jī)分析處理:On-Line Analytical Processing涡驮,OLAP
分類:classification
回歸:regression
神經(jīng)網(wǎng)絡(luò):Back Propagation暗甥,BP
DBMS:Datebase Management System,數(shù)據(jù)庫(kù)管理系統(tǒng)捉捅。
RDBMS:Relational Datebase Management System撤防,關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)