〇、作業(yè)要求
1)決策樹
請根據(jù)前兩題的提示,在 RStudio 中寫出完成本次分析(用決策樹模型來預(yù)測不同人群所給的滿意分?jǐn)?shù),將受訪用戶劃分為四個人群)的代碼,并將運行結(jié)果可視化呈現(xiàn)井誉,根據(jù)可視化結(jié)果得出你的分析結(jié)論。
請將你的分析結(jié)論匯報給業(yè)務(wù)同事整胃,匯報內(nèi)容包括:
1.決策樹模型運行代碼
2.模型結(jié)果可視化視圖
3.基于模型結(jié)果產(chǎn)生的業(yè)務(wù)洞見(可以參考課程中的表格+文字)
2)線性回歸
業(yè)務(wù)同事想了解一下城區(qū)和年齡對用戶滿意分?jǐn)?shù)的影響颗圣,希望數(shù)據(jù)分析師可以用跑一個線性回歸模型,并根據(jù)模型運行結(jié)果回答業(yè)務(wù)同事的問題屁使。
問題一:本次線性回歸結(jié)果(公式)為在岂?
問題二:此時的決定系數(shù)R^2和調(diào)整R^2的取值為?
問題三:某受訪用戶A為西城區(qū)用戶蛮寂,年齡為28歲蔽午。請你通過線性模型預(yù)測用戶A給的滿意分?jǐn)?shù)為多少?
問題四:某受訪用戶A為朝陽區(qū)用戶酬蹋,年齡為40歲及老。請你通過線性模型預(yù)測用戶A給的滿意分?jǐn)?shù)為多少?
問題五:根據(jù)模型運行結(jié)果范抓,依照四個城區(qū)對用戶滿意分?jǐn)?shù)的影響程度做一個由強正向到強負(fù)向的排序骄恶。
一、決策樹
1)決策樹模型運行代碼
2)模型結(jié)果可視化視圖
3)基于模型結(jié)果產(chǎn)生的業(yè)務(wù)洞見
1.人群滿意度分?jǐn)?shù)關(guān)鍵特征:用戶年齡(滿意度分?jǐn)?shù)與用戶年齡呈正相關(guān))
2.小于24歲與超過29歲的用戶群體占比相對較大匕垫,分別占比32%與38%僧鲁,但分?jǐn)?shù)卻呈現(xiàn)出最低值2分與最高值8.3分,兩級分化嚴(yán)重象泵,針對此兩類用戶可分別制定不同運營策略
二寞秃、線性回歸
1)本次線性回歸結(jié)果
分?jǐn)?shù) =?-7.59?- 0.08 *?δ(東城區(qū)) +?1.43 *?δ(海淀區(qū) )+ 0.38 *?δ(西城區(qū)) + 0.46 *?年齡
2)決定系數(shù)
R^2 =?0.8744
調(diào)整R^2 =?0.8691
3)預(yù)測用戶A給的滿意分?jǐn)?shù)1
某受訪用戶A為西城區(qū)用戶,年齡為28歲单芜。請你通過線性模型預(yù)測用戶A給的滿意分?jǐn)?shù)為多少?
分?jǐn)?shù) = -7.59 + 0.38 +0.46 * 28 = 5.67(5犁柜、6分之間)
4)用戶A給的滿意分?jǐn)?shù)2
某受訪用戶A為朝陽區(qū)用戶洲鸠,年齡為40歲。請你通過線性模型預(yù)測用戶A給的滿意分?jǐn)?shù)為多少馋缅?
分?jǐn)?shù) = -7.59 +0.46 * 40 = 10.81(因調(diào)查最高分為10分扒腕,因此預(yù)測分?jǐn)?shù)為10分)
5)由強正向到強負(fù)向的排序
通過模型運行結(jié)果我們可以看出自變量的系數(shù)如表格所示,由強正向到強負(fù)向的排序分別為海淀萤悴、西城瘾腰、朝陽、東城覆履,其中東城區(qū)對因變量有負(fù)向影響蹋盆。
6)代碼及結(jié)果提交
運行結(jié)果: