主講:陳丹奕
撰寫第一份數(shù)據(jù)分析報(bào)告
展示數(shù)據(jù)收集猜极、處理的能力拷沸,邏輯思維框架色查,數(shù)據(jù)可視化,行業(yè)業(yè)務(wù)理解的能力
數(shù)據(jù)報(bào)告的制作過程
需求層撞芍、數(shù)據(jù)層秧了、分析層、輸出層
普通難度
目標(biāo)確定 數(shù)據(jù)獲取 數(shù)據(jù)清洗 數(shù)據(jù)整理 描述分析 洞察結(jié)論 報(bào)告撰寫
目標(biāo)確定
選擇熟悉感興趣的領(lǐng)域行業(yè)
選擇范圍比較小的細(xì)分領(lǐng)域行業(yè)作為切入點(diǎn)
確定這個(gè)領(lǐng)域行業(yè)有公開發(fā)表的數(shù)據(jù)序无,可以獲取的ugc內(nèi)容
構(gòu)建報(bào)告故事線验毡,常用結(jié)果是“總分總”
數(shù)據(jù)獲取
數(shù)據(jù)來源 內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)
內(nèi)部數(shù)據(jù)可以直接獲取,已有原始資料需整理帝嗡,需要進(jìn)行收集
外部數(shù)據(jù)包括一般手段收集晶通、技術(shù)手段收集、合作哟玷、純購(gòu)買
數(shù)據(jù)清洗
數(shù)據(jù)清洗是分析流程最重要的部分狮辽,占分析項(xiàng)目時(shí)間的60%以上
數(shù)據(jù)清洗路徑
預(yù)處理
去除/補(bǔ)全有缺失的數(shù)據(jù)
去除修改格式和內(nèi)容錯(cuò)誤的數(shù)據(jù)
去除邏輯錯(cuò)誤的數(shù)據(jù)
去除不需要的數(shù)據(jù)
關(guān)聯(lián)性驗(yàn)證
數(shù)據(jù)計(jì)算 對(duì)數(shù)據(jù)表進(jìn)行統(tǒng)計(jì)計(jì)算,生成各級(jí)指標(biāo)
描述分析:變化 分布 對(duì)比 預(yù)測(cè)
數(shù)據(jù)建模
考慮線性回歸和聚類模型