概念
1捉捅、含義
數(shù)據(jù)分析是數(shù)據(jù)和分析的結(jié)合撤防,通過對數(shù)據(jù)統(tǒng)計處理分析出對業(yè)務(wù)有用的觀點。其過程更加重視思維方法而非技術(shù)手段棒口。技術(shù)只是實現(xiàn)目的的一種方法即碗。因此相關(guān)人員的技術(shù)能力難以評判焰情。數(shù)據(jù)分析一般在業(yè)務(wù)初創(chuàng)和改善時期十分有用陌凳。
其業(yè)務(wù)場景主要有:
(1)掌握業(yè)務(wù)剥懒,如核心指標(biāo)通過漏斗數(shù)據(jù)和序列數(shù)據(jù)展示;可以通過報表看到數(shù)據(jù)變化情況合敦,并分析為什么初橘,是否存在問題
(2)改進(jìn)業(yè)務(wù),分析業(yè)務(wù)潛力和問題充岛;是否有業(yè)務(wù)下滑和用戶流失保檐。
(3)評估某一策略的效果等。
2崔梗、準(zhǔn)備
數(shù)據(jù)分析的需要的技能為:
(1)業(yè)務(wù)調(diào)研夜只;通過調(diào)研得到分析思路和方向主題,如產(chǎn)品驗證和啟發(fā)思路蒜魄。
(2)創(chuàng)新思考扔亥;需要廣闊的知識面:經(jīng)濟(jì)學(xué),心理學(xué)和統(tǒng)計學(xué)谈为。
經(jīng)濟(jì)學(xué)旅挤,如分析電商財報,毛利很低伞鲫,待付賬單很大粘茄。
毛利低--消費者擴(kuò)大--市場擴(kuò)大--掌握供應(yīng)商--分期付款--錢拿去做金融
(互聯(lián)網(wǎng)中為用戶創(chuàng)造價值和盈利往往不在一個領(lǐng)域,羊毛出在豬身上理論)秕脓;
心理學(xué)柒瓣,如便捷食品中有無洋蔥案例,減少家庭主婦內(nèi)疚感吠架。
統(tǒng)計學(xué)芙贫,主要是算法了。
(3)邏輯推理诵肛;不同的背景和角度可能得到不同的結(jié)果屹培,因此要全面。邏輯推理不等于因果關(guān)系推理怔檩,也不等于相關(guān)性關(guān)系褪秀。在分析中很可能因為錯誤歸因(把相關(guān)關(guān)系認(rèn)為是因果關(guān)系);比較對象選擇失當(dāng)薛训;以及數(shù)據(jù)維度選擇問題媒吗;先入為主的偏見;個例代表全體導(dǎo)致結(jié)果出錯乙埃。
(4)可行性建議闸英;一般的分析只是陳述事實锯岖;優(yōu)秀的分析要分析優(yōu)勢,劣勢甫何,怎么辦出吹。
3、分析方法
(1)傳統(tǒng)數(shù)據(jù)指標(biāo)
傳統(tǒng)數(shù)據(jù)指標(biāo)包括概率表辙喂,直方圖捶牢,均值,方差巍耗,標(biāo)準(zhǔn)差(衡量數(shù)據(jù)的散度)和相關(guān)性等秋麸。其基本理論支撐是大數(shù)定律。樣本量越大炬太,統(tǒng)計值越接近真實值灸蟆。
(2)分析手段
在拿到數(shù)據(jù)后,從哪些角度開始分析呢亲族。
1炒考、指標(biāo)拆分
<1>分布分析
數(shù)據(jù)指標(biāo)可能在不同的數(shù)據(jù)分布中是相同的,無法真正表示數(shù)據(jù)孽水。因此只關(guān)注指標(biāo)而不關(guān)注數(shù)據(jù)是不行的票腰。
<2>趨勢分析
趨勢分析包括:單變量趨勢和多變量趨勢
單變量趨勢:通過周期,波動女气,異常值
多變量趨勢:基于系統(tǒng)基模杏慰;抽象出增強(qiáng)環(huán)(各個節(jié)點循環(huán)促進(jìn)),調(diào)節(jié)環(huán)(各個節(jié)點相互牽制最終平衡)炼鞠,以及考慮時間延遲性(某些改進(jìn)可能并不是立即就會有明顯效果)
<3>因素分析
因素分析可以進(jìn)行多種拆解缘滥。
(1)根據(jù)流程的各個階段進(jìn)行縱向拆解,通過漏斗以及比例等發(fā)現(xiàn)問題谒主。
(2)根據(jù)模塊進(jìn)行橫行拆解朝扼。
如在買股票是判斷公司股票是不是值得買。
首先從收入支出霎肯,資產(chǎn)負(fù)債等得到營業(yè)利潤和總資產(chǎn)擎颖,相除得到資產(chǎn)回報率,可以反應(yīng)企業(yè)的經(jīng)營效率观游。再從營業(yè)利潤和總資產(chǎn)中剝離出凈利潤和股東權(quán)益搂捧,得到固定權(quán)益回報率,從而判斷值不值得投資懂缕。
2允跑、樣本拆分
<1>個例分析
一般來說,高層次的數(shù)據(jù)統(tǒng)計可能會難以發(fā)現(xiàn)隱含的問題。這個時候需要從典型個例來進(jìn)行分析。如視屏點擊率低的case,可以從點擊率及其低(顯著)的樣本入手署浩,然后看這一類在總量中占比;另一方面亿笤,選擇數(shù)量多的案例進(jìn)行分析;直到分析的樣本包含整個數(shù)據(jù)集。
<2>異常分析
與預(yù)期不相符合就是異常。
<3>分組分析
小組化劃分后數(shù)據(jù)的特征會更加鮮明瓣戚,同時不同組的需求不相同,需要差異化個性化的服務(wù)焦读。一般對于客戶的劃分可以從(大小,新老舱权,行業(yè))進(jìn)行矗晃,因為他們需求不同。
(1)在用戶增長領(lǐng)域宴倍,可以利用分組做留存分析张症,這個分組規(guī)則按照用戶的使用程度劃分,因為使用產(chǎn)品時間長度不一的用戶一般來說流失的原因是不一樣的鸵贬。
(2)在價格歧視領(lǐng)域俗他,可以對不同用戶群或者客戶群按其價格可承受程度分組,分別定價阔逼,如飛機(jī)票兆衅。
4、高級工具嗜浮,OLAP與機(jī)器學(xué)習(xí)模型
<1>OLAP
分組分析與因素分析等結(jié)合羡亩,對數(shù)據(jù)切片、分塊危融;鉆取和上卷等畏铆。
<2>機(jī)器學(xué)習(xí)
1、非監(jiān)督
(1)聚類:一般要分5類的話吉殃,先用算法分為10-20類辞居,再通過人工聚合。因為人工可以知道哪些參數(shù)或者維度更為重要蛋勺。
(2)關(guān)聯(lián)規(guī)則
2瓦灶、監(jiān)督學(xué)習(xí)
選定假設(shè)空間從而選擇模型,再進(jìn)行模型訓(xùn)練