本文要回答幾個問題铭拧,BI赃蛛、ETL、數(shù)據(jù)分析都是什么意思搀菩?怎么做數(shù)據(jù)分析呕臂?他們之間的關(guān)系是什么?
數(shù)據(jù)分析是什么肪跋?
簡言之歧蒋,數(shù)據(jù)分析是從大量數(shù)據(jù)中,用適當?shù)慕y(tǒng)計分析方法州既,提取出有用信息的過程谜洽。
數(shù)據(jù)分析在企業(yè)里通常稱為BI,即商業(yè)智能business intelligence吴叶,是指將企業(yè)業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)進行統(tǒng)計分析阐虚,形成有規(guī)律的信息,來輔助用戶做出決策蚌卤。
實現(xiàn)BI的過程就需要ETL实束,ETL的流程通常是:
1、獲取數(shù)據(jù)extract?
2造寝、轉(zhuǎn)換磕洪、清洗數(shù)據(jù)transform
3、加載調(diào)取數(shù)據(jù)load
4诫龙、圖表統(tǒng)計展現(xiàn)BI
數(shù)據(jù)分析怎么做析显?
大家都有過下飯館或者做菜的經(jīng)驗吧?要經(jīng)過客人點菜签赃,廚房做菜谷异,服務(wù)員上菜的過程分尸,做數(shù)據(jù)分析的過程也類似,可分為五個步驟:
1.明確需求——點菜
明確需求是核心歹嘹,要知道用戶的目的是什么箩绍,需求分析人員要全面了解、理解業(yè)務(wù)尺上,并得到關(guān)鍵用戶對業(yè)務(wù)邏輯的認可和確認材蛛,而不能自己猜測用戶的需求邏輯,避免徒勞無益怎抛,之后的所有步驟也都要以業(yè)務(wù)需求為核心來進行卑吭。
2.數(shù)據(jù)采集、清洗——洗菜
采集:加法马绝,盡可能收集數(shù)據(jù)豆赏,越全面越好,減少數(shù)據(jù)盲點富稻。
清洗:減法掷邦,清洗、修復(fù)無效數(shù)據(jù)(如:錯誤椭赋、重復(fù)抚岗、殘缺記錄,缺失值處理等)纹份,確保數(shù)據(jù)分析完整性苟跪、準確性。
3.數(shù)據(jù)處理——配菜
根據(jù)業(yè)務(wù)需求蔓涧,對數(shù)據(jù)進行整理(如按條件篩選提取件已,聚合、分類元暴、匯總等)篷扩,建立數(shù)據(jù)模型、數(shù)據(jù)集茉盏。
4.數(shù)據(jù)分析——做菜
描述性分析:數(shù)據(jù)的集中趨勢——眾數(shù)鉴未、中位數(shù)、平均數(shù)
? ? ? ? ? ? ? ? ? ? ? 數(shù)據(jù)的離散趨勢——最大最小值鸠姨、極差铜秆、四分位差、方差和標準差
趨勢性分析:對同一指標讶迁、比率在不同時期的值连茧,進行比較,觀察增加變動情況,獲得趨勢啸驯。
——定比客扎、環(huán)比、同比
相關(guān)性分析:分析現(xiàn)象間是否存在依存關(guān)系罚斗,及依存的相關(guān)程度和相關(guān)方向徙鱼。——不相關(guān)针姿、線性相關(guān)袱吆、非線性相關(guān)、相關(guān)但非線性相關(guān)搓幌。
相關(guān)系數(shù):是描述線性相關(guān)程度的量杆故。
5.結(jié)果展現(xiàn)——上菜
將數(shù)據(jù)分析的結(jié)果,以報告溉愁、報表、圖表饲趋、監(jiān)控儀表盤等形式展現(xiàn)給用戶拐揭,為決策判斷提供支持依據(jù)。
由此可見奕塑,BI實施過程中堂污,甲方、乙方所扮演的角色分別是:
甲方用戶是客人龄砰,
乙方廠商是飯館盟猖,
信息圖表像菜肴,
需求分析像服務(wù)員换棚,
BI工程師像大廚式镐,
ETL工程師像后廚小工,
很形象吧固蚤?