數(shù)據(jù)分析過程:
1、以事實為基礎提出假設蔬胯,界定問題
2对供、將問題細分鹅髓,形成互不重疊的子問題
3、進行數(shù)據(jù)收集與分析京景,證實或者證偽假設的問題
4迈勋、提出方案,推進問題的解決
5醋粟、執(zhí)行方案靡菇,驗證數(shù)據(jù)分析。
數(shù)據(jù)的分類:
統(tǒng)計學上把數(shù)據(jù)分為三類米愿,分類數(shù)據(jù)厦凤,順序數(shù)據(jù),數(shù)值數(shù)據(jù)
分類型數(shù)據(jù):主要是對事物的類別進行描述育苟,比如電商網(wǎng)站中的品類较鼓,社交系統(tǒng)中用戶的等級
順序型數(shù)據(jù):顧名思義,就是按照順序排列的數(shù)據(jù)违柏,這種數(shù)據(jù)也是文字的博烂,如時間順序,空間順序漱竖,優(yōu)先等級
數(shù)值型數(shù)據(jù):最常見的數(shù)據(jù)類型禽篱,用數(shù)字或文字描述事物,是 數(shù)據(jù)分析的主要來源
數(shù)據(jù)分析的目的:
數(shù)據(jù)分析的目的就是把隱藏在一大批看似雜亂無章的數(shù)據(jù)背后的信息集中和提煉出來馍惹,總結出所研究對象的內在規(guī)律躺率。
數(shù)據(jù)分析的種類有三種:
1,描述性數(shù)據(jù)分析:常用對比分析法万矾,平均分析法悼吱,交叉分析法。
平均分析法大致有三種類型:
算數(shù)平均數(shù):算數(shù)平均法和加權算術平均法簡單方便良狈,容易受異常值影響后添。
幾何平均數(shù):主要用于 對比率,指數(shù)進行平均薪丁,用來計算平均發(fā)展速度遇西,用來計算復利下的平均年利率,在變量可能為負數(shù)和零的時候窥突,不能使用努溃,當數(shù)據(jù)呈倍數(shù)關系或者不對稱分布時適用性強硫嘶。
調和平均數(shù):也叫倒數(shù)平均數(shù)阻问,主要是用來解決無法掌握總體單位數(shù)的情況下,只有每組的變量值和相應的標志總量沦疾,而需要得到平均數(shù)的問題称近,通常在遇到需要計算平均速度第队,平均利潤,平均成本指標時使用刨秆,尤其是觀測值是階段性變異的資料凳谦。
2,探索性數(shù)據(jù)分析:相關分析法衡未,因子分析法尸执,回歸分析法
3,驗證性數(shù)據(jù)分析:同上
數(shù)據(jù)分析的作用:
主要三作用:現(xiàn)狀分析缓醋,原因分析如失,預測分析
數(shù)據(jù)分析操作過程:
1.明確目標:搜集和明確數(shù)據(jù)分析上下游需求,資源送粱,能力和表達形式褪贵,時間節(jié)點等。
2.數(shù)據(jù)獲瓤苟怼:從數(shù)據(jù)庫脆丁,公開出版物,互聯(lián)網(wǎng)动雹,市場調查等方面搜集數(shù)據(jù)槽卫。
3.數(shù)據(jù)清洗:數(shù)據(jù)清洗,數(shù)據(jù)轉化胰蝠,數(shù)據(jù)提取晒夹,數(shù)據(jù)計算,具體包括數(shù)據(jù)整理入庫姊氓,去除無效? 數(shù)據(jù)丐怯,填充缺失信息,選擇變量
? ? 第一階段:預處理翔横,數(shù)據(jù)導入读跷,元數(shù)據(jù)分析,觀察數(shù)據(jù)禾唁,一般來說100萬條以下用excel效览,單機大量? 100萬條以上MYSQL+Navicat,單機海量1000萬條以上荡短,文本文件+python
? ? 第二階段:去除補齊有缺失的數(shù)據(jù)
? ? 第三階段:去除修改格式和內容錯誤的數(shù)據(jù)
? ? 第四階段:去除不需要的數(shù)據(jù)
? ? 第五階段:去除不需要的數(shù)據(jù)
? ? 第六階段:關聯(lián)性驗證
4.數(shù)據(jù)整理:數(shù)據(jù)離散化丐枉,數(shù)據(jù)標準化,對數(shù)據(jù)進行重新編碼掘托,對數(shù)據(jù)表進行統(tǒng)計計算瘦锹,生成各級指標,主要的目的是將清洗后的數(shù)據(jù)進行統(tǒng)一格式,集中存儲弯院。
5.數(shù)據(jù)分析:數(shù)據(jù)分析是將處理后的數(shù)據(jù)進行建模分析辱士,描述分析,模型測試听绳,價值提取颂碘,高層次的分析方法也叫數(shù)據(jù)挖掘,數(shù)據(jù)挖掘側重解決四類問題椅挣,分類头岔,聚類,關聯(lián)鼠证,預測
6.數(shù)據(jù)展現(xiàn):餅圖切油,柱狀圖,條形圖名惩,折線圖澎胡,雷達圖等等
7.報告撰寫:將模型加載,對數(shù)據(jù)分析過程總結和呈現(xiàn)
數(shù)據(jù)分析報告邏輯
核心三要素是:邏輯框架娩鹉、數(shù)據(jù)證明攻谁、洞察結論;
邏輯框架:結論先行弯予,數(shù)據(jù)跟上戚宦,邏輯完善,備注其他锈嫩;一般以總分總模式為主受楼;
數(shù)據(jù)分析方法論:
事實上是使用常見的企業(yè)分析方法論,設計數(shù)據(jù)分析的維度和范圍呼寸,常用的方法包括
1艳汽、思考模型
5W+2H:為什么,什么目的对雪,誰河狐,那個領域,什么時候瑟捣,怎么做
金字塔模型
魚骨圖模型
事實--解釋--行為
水平思考馋艺,事實,感情迈套,批判捐祠,樂觀,創(chuàng)造桑李,宏觀
2踱蛀、戰(zhàn)略分析工具
戰(zhàn)略-3C 公司窿给,對手,顧客
戰(zhàn)略規(guī)劃星岗,橫軸表示競爭要素填大,縱軸表示競爭水平
對業(yè)務進行優(yōu)先排序戒洼,縱軸表示公司優(yōu)勢俏橘,橫軸表示市場價值
SWOT矩陣,優(yōu)勢圈浇,弱點寥掐,機會,危機
影響要素磷蜀,五個力分析召耘,供應鏈的變化,需求鏈變化褐隆,技術沖擊污它,新進入者,有無替代者
組織7S庶弃,保持戰(zhàn)略衫贬,共同價值,結構歇攻,體制固惯,員工,技能缴守,組織文化
3.市場營銷分析模型
市場4P,產品葬毫,價格,渠道屡穗,廣告
銷售漏斗模型
根據(jù)收入分類的家庭數(shù)量的相對度分布贴捡,
人口分布曲線,
意愿能力矩陣
用戶發(fā)布村砂,技術革新者栈暇,有號召力的人,早期用戶箍镜,后期跟風源祈,滯后采用的
服務營銷三角形,服務營銷的滲透的過程中色迂,最初關注功能香缺,然后轉移到渠道,最后由品牌影響力
PPM分析歇僧,縱軸表示成長率图张,市場占有率锋拖,分為,兒童業(yè)務祸轮,明星業(yè)務兽埃,瘦狗業(yè)務,現(xiàn)金牛
VRIO分析适袜,價值柄错,稀缺性,跟進難度苦酱,組織能力
4.常見管理模型
六西格瑪
PDCA循環(huán)售貌,計劃,實施疫萤,改善颂跨,驗證,
價值鏈扯饶,橫軸表示研究恒削,開發(fā),采購尾序,生產钓丰,流通,銷售蹲诀,售后斑粱,縱軸表示競爭對手
緊迫性和重要性的矩陣,重要性和緊迫性
5.數(shù)據(jù)挖掘模型
聚類:kmeans脯爪、系統(tǒng)層次聚類
分類:相似度計算则北、決策樹
回歸:邏輯回歸,線性回歸
降維:主成分分析痕慢、因子分析尚揣,對應分析/mds
文本挖掘:Word2vec、DOC2ver/LDA掖举、文本相似度計算
時間序列等等