知識點總結
如何用數據解決實際問題
第1章 解決問題,你需要“流程”
圖1 解決問題的流程
- 目的:針對“原因是什么痢畜,需要采取哪些行動”等問題得出結論
- 問題:思考“怎樣才是最理想的狀態(tài)”,現(xiàn)狀與理想狀態(tài)之間的差距就是問題
- 通過“假設”分解問題和尋找原因,再收集證據(數據)證明或推翻假設。難以收集全部數據是很正常的摊求,但也不應該根據“現(xiàn)有數據”來開始所有的工作,需要設法借用相同或相近的數據來代替理論上所需的數據
第2章 分解數據刘离,找到“問題的關鍵”
- 趨勢:捕捉數據在一段時間內的變化
- 快照:截取某個期間的情況睹簇,查看指標在期間內的大小、比例和分布等
- WHAT型假設 將較大變量分解為具體指標寥闪,找到最小的具體指標以后再通過維度拆分
- 平均值&中位數
指標 | 優(yōu)點 | 缺點 |
---|---|---|
平均值 | 能夠用一個數值表現(xiàn)整體的“大小” 易于計算及使用 |
平均之后,看不出來原始數據 存在極大(或極心ヌ省)數值時疲憋,會受其影響 |
中位數 | 不受離群值影響,用位于中間的數據表示 | 表示整體“大小”的程度不夠精確(因為消除了離群值的影響) 與平均值相同梁只,看不出來原始數據 |
- 平均值會忽略“數據構成要素的差異”缚柳,可能會使讀者誤入“辛普森悖論”
- 標準差。體現(xiàn)數據波動搪锣,前提是兩個數據大小相當或相同
- 變異系數秋忙。變異系數=標準差/平均值,變異系數可以消除數據大泄怪邸(規(guī)模)給標準差帶來的影響
- 通過直方圖可以直觀查看數據分布
- 矩陣表
維度 | “快照”視點 | “趨勢”視點 |
---|---|---|
大小/比例維度 | ||
波動維度 |
第3章 采用交叉視點灰追,鎖定“原因”
前兩章是對現(xiàn)狀更加清晰的了解,但仍屬于“整理數據”的范疇狗超,第3章的原因分析才開始真正“分析數據”
- 相關分析弹澎。散點圖和相關系數∨溃可先計算相關系數苦蒿,對重要內容繪制散點圖確認。相關系數一般達到0.5或0.7即相關渗稍。
- WHY模型 ①尋找接近結果的原因佩迟,在關聯(lián)更密切的數據之間考察相關關系团滥;②選擇能夠采取對策的原因,找到原因以后要可控制可解決
-
兩種相關分析模式报强。第1種灸姊,找出對最終目標具有密切影響的原因;第2種躺涝,在某個業(yè)務流程中找出瓶頸
圖2 相關分析模式1
圖3 相關分析模式2
- 得出結論時的4大誤區(qū):①因果關系厨钻。相關關系不等于因果關系;②疑似相關坚嗜。找到更直接的原因夯膀,兩個高相關的數據中間可能有更密切的要素;③數據范圍苍蔬。數據的相關性可能在指定范圍內表現(xiàn)诱建,從全局來看也許不明顯;④離群值碟绑。沒有明確理由不可刪除離群值
圖4是“討論及實施對策”前所有步驟的舉例總結俺猿,包括如何拆解一個大變量和如何找到影響細分指標的原因
圖4 解決問題的故事構造
第4章 制定對策,要依據“方程式”
將第3章提及的“相關”量化
- 一元線性回歸格仲。R2(相關系數的平方)押袍,R2 一般達0.25或0.49即表示線性回歸方程擬合良好,有可解釋性凯肋∫瓴眩回歸時注意:①數據之間必須具有單純的比例關系;②離群值以及不同的數據選擇范圍侮东,會導致分析結果產生很大不同
- 用相關分析判斷數據關聯(lián)的緊密程度圈盔,用回歸分析判斷其影響大小
第5章 用數據講故事
- 把解決問題的過程展現(xiàn)出來,把精力用來考慮“核心信息是什么”“對方想知道什么”
- 隨時與相關人員分享分析的過程悄雅,必要時與他們展開討論驱敲,了解對方的想法和困惑
- 高級技能簡介。多元回歸宽闲,注意多重共線性的問題众眨;假設檢驗,能夠幫助我們了解自己所使用的數據范圍的局限容诬,并在此基礎上進行分析
感謝閱讀围辙,歡迎點贊