以下內(nèi)容是我在Udacity的商業(yè)數(shù)據(jù)分析納米項目的學(xué)習(xí)總結(jié),大部分內(nèi)容是摘抄自課程文案奸晴。
第一部分——準(zhǔn)備
在建立模型前费封,需要作出以下準(zhǔn)備:
1.理解業(yè)務(wù)
? 需要做出哪些決策具篇?
? 需要獲得哪些信息淌实,來做出這些決策缩搅?
? 什么類型的分析能夠獲取決策所需的信息越败?
2.理解數(shù)據(jù)
? 需要什么數(shù)據(jù)?
? 有什么數(shù)據(jù)可用硼瓣?
? 數(shù)據(jù)的重要特征是什么究飞?
3.準(zhǔn)備數(shù)據(jù)
? 收集:收集數(shù)據(jù)時,可能需要從組織內(nèi)的多個來源收集數(shù)據(jù)堂鲤。
? 清理:使用的數(shù)據(jù)集可能有一些問題需要在分析之前解決噪猾。這可能包括數(shù)據(jù)不正確或丟失。
? 格式化:可能需要通過更改日期字段的顯示方式筑累,重命名字段,甚至旋轉(zhuǎn)數(shù)據(jù)來格式化數(shù)據(jù)丝蹭,類似于使用數(shù)據(jù)透視表慢宗。
? 混合:將數(shù)據(jù)與其他數(shù)據(jù)集進行混合或組合,以增加其他變量奔穿,類似于在 Excel 中使用 VLOOKUP 函數(shù)镜沽。
? 數(shù)據(jù)抽樣:可能需要對數(shù)據(jù)集進行取樣,并使用更易于管理的記錄數(shù)贱田。
第二部分——分析/建模
1.利用Methodology Map選擇解決問題的框架
2.根據(jù)框架創(chuàng)建模型
這里以線性回歸方程為例缅茉,需要注意系數(shù)估計值(coefficient estimates)、p 值(p-values)和 R 平方男摧。
第三部分——模型評估
? 觀察模型上的關(guān)鍵結(jié)果
? 確保結(jié)果在業(yè)務(wù)問題的情境中有意義
? 確定是否繼續(xù)下面的步驟還是返回上一階段
? 必要時重復(fù)多次
第四部分——模型發(fā)布和可視化
? 根據(jù)分析蔬墩,確定呈現(xiàn)見解的最佳方式
? 根據(jù)觀眾,確定呈現(xiàn)見解的最佳方式
? 確保共享的信息不要過量
? 使用結(jié)果向觀眾講述故事
? 對于更復(fù)雜的分析耗拓,你可能需要向觀眾演示分析問題解決過程
? 始終注明使用的數(shù)據(jù)源出處
? 確保你的分析支持需要做出的決策