推斷分析---通過分析少量數(shù)據(jù)的特征盏档,推斷整體數(shù)據(jù)特征呼伸。
方差分析
樣本檢驗(yàn)
趨勢預(yù)測
1.方差分析----通過數(shù)據(jù)復(fù)盤衡量運(yùn)營策略在產(chǎn)品運(yùn)營中腔丧,我們會遇到各種需要評估運(yùn)營效果的場景警没,包括促活的活動是否起到作用葫哗、A/B 測試的策略有無成效等等缔刹。
具體例如球涛,產(chǎn)品升級前的平均 DAU 是 155 萬,產(chǎn)品升級后的平均 DAU 是 157 萬校镐,那么如何判斷 DAU 提升的 2 萬是正常的波動亿扁,還是升級帶來的效果呢?
本質(zhì)都是在對比不同分組數(shù)據(jù)間的數(shù)據(jù)變化鸟廓,或是對比同一組數(shù)據(jù)在實(shí)施某些策略前后的數(shù)據(jù)變化从祝,及其變化背后的原因。也就說引谜,判斷數(shù)據(jù)波動是否是某一因素(活動/策略)導(dǎo)致的牍陌,便是方差分析。
我們把分組叫作樣本员咽,把變化叫作差異毒涧,差異的大小程度叫作顯著性。
對比不同分組數(shù)據(jù)間的數(shù)據(jù)變化贝室,叫分析不同樣本間的差異顯著性契讲;
對比同一組數(shù)據(jù)實(shí)施某些策略前后的數(shù)據(jù)變化,叫分析同一樣本在策略前后的差異顯著性滑频。
而分析以上差異顯著性是否明顯的方法捡偏,就叫作方差分析。
應(yīng)用:
某用戶運(yùn)營工作重點(diǎn)之一误趴,就是搞清楚在優(yōu)惠金額對用戶的購買轉(zhuǎn)化率是否能起到有效作用霹琼。
抽取了過去半年產(chǎn)品上投放的所有促銷活動,并把活動中的優(yōu)惠金額分成了以下三個組凉当,最后按照不同區(qū)間分組去分別計(jì)算用戶的購買率枣申。
用戶行為是隨機(jī)的,不管有沒有促銷活動看杭,用戶的購買轉(zhuǎn)化率本身就會發(fā)生一定的波動忠藤,可能某天某組的某個用戶心情大好,或者發(fā)了年終獎了就會在產(chǎn)品上剁手楼雹。而這些隨機(jī)因素都與優(yōu)惠金額無關(guān)模孩,所以我們不能說某組的轉(zhuǎn)化率高,是這個區(qū)間的優(yōu)惠金額效果好導(dǎo)致的贮缅。那么應(yīng)該如何正確認(rèn)識用戶數(shù)量與購買率之間的關(guān)系呢榨咐?這就需要用到正態(tài)分布圖了。
(1)正態(tài)分布圖
絕大部分用戶的購買率都集中在某個值附近谴供,這個值我們叫作整體購買率的平均值块茁。如果每個客群分組自身的購買率均值與這個整體購買率平均值不一致,就會出現(xiàn)以下兩種情況。
第一種情況
藍(lán)色分組的購買率平均值(藍(lán)色線)比整體平均值(黑色線)要高数焊,有可能是最右邊那個很高的購買率把分組的均值抬升的永淌,同時藍(lán)色分組的數(shù)據(jù)分布很散(方差大),此時不能有十足把握說明該組用戶的購買轉(zhuǎn)化率很高佩耳。
第二種情況
綠色分組購買率平均值(綠色線)比整體平均值(黑色線)高遂蛀,但是綠色分組的數(shù)據(jù)非常集中,都集中在分組的平均值(綠色線)附近干厚,此時我們可以認(rèn)為該組的轉(zhuǎn)化率平均值與整體有明顯區(qū)別李滴。
“組內(nèi)方差”,即描述每個分組內(nèi)部數(shù)據(jù)分布的離散情況萍诱。
對于上面藍(lán)色和綠色分組的“組內(nèi)方差”悬嗓,顯然藍(lán)色的組內(nèi)方差更大,綠色的組內(nèi)方差更小裕坊。
所以包竹,如果上面三個分組的用戶購買率平均值不在中線(整體購買率)左右,而是有明顯的偏高或偏低籍凝,且該組內(nèi)的每個轉(zhuǎn)化率都緊緊圍繞在該組購買率平均值的附近(即組內(nèi)方差很兄芟埂)。那么我們就可以斷定:該組購買率與整體不一致饵蒂,是該組對應(yīng)優(yōu)惠金額的影響造成的声诸。
(2)方差分析之定性、定量分析
將上表中三個組的轉(zhuǎn)化率放進(jìn)了這個圖中退盯,嘗試通過分析工具在轉(zhuǎn)化率數(shù)據(jù)中得到結(jié)論彼乌。
定性分析
這三組的購買率數(shù)據(jù)的分布都很相似,即雖然各組的均值不盡相同渊迁,但各組的數(shù)據(jù)分布的都比較散(方差大)慰照,總有很大或很小的購買率來提升或降低了組內(nèi)的平均值,所以不能僅從各組的購買率均值本身來斷言該組的購買率與眾不同琉朽。
因此毒租,可以看到,這三組數(shù)據(jù)并無區(qū)別箱叁,用戶的購買率與優(yōu)惠金額之間沒有明顯的關(guān)系墅垮,當(dāng)然這是一個定性的分析過程。
定量分析
F 檢驗(yàn)值用來精確表達(dá)這幾組差異大小的耕漱,F(xiàn) crit臨界值是一個判斷基線
當(dāng) F > F crit算色,這幾組之間的差異超過判斷基準(zhǔn)了,認(rèn)為不同優(yōu)惠金額的分組間的購買率是不一樣的螟够,優(yōu)惠金額這個因素會對購買率產(chǎn)生影響剃允,也就是說通過運(yùn)營優(yōu)惠金額這個抓手,是可以提升用戶購買轉(zhuǎn)化率的;
反之斥废,當(dāng) F < F crit,則認(rèn)為不同優(yōu)惠金額的分組間的購買率是一樣的给郊,優(yōu)惠金額這個因素不會對購買率產(chǎn)生影響牡肉,也就是說需要繼續(xù)尋找其他與購買轉(zhuǎn)化率有關(guān)的抓手。
A淆九、B统锤、C 三組的方差分析結(jié)果。如圖所示 F (1.5555556) &amp;lt; F crit (3.8852938)炭庙,所以從定量分析角度饲窿,我們也能判定優(yōu)惠金額不會對購買率產(chǎn)生影響。
方差分析也叫 Analysis of Variance焕蹄,簡稱 ANOVA逾雄,也叫“F 檢驗(yàn)”,用于兩個及兩個以上分組樣本的差異性檢驗(yàn)腻脏。
方差分析標(biāo)準(zhǔn)路徑
第一步鸦泳,判斷樣本是否滿足“方差分析”的前提條件
(1)第一個條件:每個分組中的每個值都必須來自同一個總體樣本
比如,同一家店鋪中男性顧客和女性顧客(即樣本)永品,都來自這個店鋪的成交客戶(即總體)做鹰,所以是同一個總體,可以用方差分析來分析不同性別客單價的差異鼎姐;但如果想分析這個店鋪中口紅品類的用戶購買率和其他店鋪口紅品類的用戶購買率的差異钾麸,就不能用方差分析,因?yàn)檫@兩個用戶群體不是來自同一個總體炕桨。
判斷樣本是不是都來自同一個總體饭尝,其實(shí)就是看這些樣本是不是同一個功能的用戶、是不是同一種類型的用戶谋作、是不是同一個業(yè)務(wù)流程的用戶芋肠。
以下就是來自同一總體的用戶:
高留存的注冊用戶和低留存的注冊用戶;
DAU 里面的新增用戶和喚醒用戶遵蚜;
從同一個入口進(jìn)來的成功購買用戶和流失用戶。
以下這些就不是來自同一總體的用戶吭净,不能用方差分析來分析他們之間是否有差異:
產(chǎn)品的注冊用戶和游客睡汹,因?yàn)椴皇峭活愋陀脩簦?/p>
沉默用戶和活躍用戶,因?yàn)椴皇峭活愋陀脩簦?/p>
使用過功能 A 和未使用功能 A 的用戶寂殉,因?yàn)椴皇峭还δ艿挠脩簦?/p>
從活動落地頁進(jìn)來然后完成購買的用戶囚巴,和從首頁 Banner 進(jìn)來完成購買的用戶,因?yàn)椴皇峭粯I(yè)務(wù)流程的用戶。
(2)第二個條件:方差分析只能分析滿足正態(tài)分布的指標(biāo)
在產(chǎn)品運(yùn)營中大部分指標(biāo)都是正態(tài)分布彤叉。
幾乎所有轉(zhuǎn)化率都滿足正態(tài)分布:購買率庶柿、點(diǎn)擊率、轉(zhuǎn)化率秽浇、活躍率浮庐、留存率、復(fù)購率等柬焕。
幾乎所有的業(yè)務(wù)量都滿足正態(tài)分布:客單價审残、每日新增用戶數(shù)、渠道引流的流量等斑举。
幾乎所有的用戶畫像指標(biāo)都滿足正態(tài)分布:年齡搅轿、城市、登錄次數(shù)富玷、使用時長等璧坟。
但是,以下這些就不是正態(tài)分布的指標(biāo)凌彬,不能用方差分析沸柔。
注冊用戶中男性和女性的數(shù)量,它們并不會集中在某個區(qū)間铲敛,所以不能用方差分析去分析不同客群的男性數(shù)量和女性數(shù)量的差異褐澎;但男女的比例是正態(tài)分布的指標(biāo),根據(jù)產(chǎn)品客群不同始終集中在某個占比區(qū)間伐蒋。工三??
不同客群的累計(jì)消費(fèi)金額先鱼,不是正態(tài)分布指標(biāo)俭正,因?yàn)槔塾?jì)類指標(biāo)只會增長,并不會集中在某個區(qū)間焙畔;但是每日消費(fèi)金額是正態(tài)分布的指標(biāo)掸读,因?yàn)槊咳盏南M(fèi)金額雖然有波動宏多,但產(chǎn)品的客群是穩(wěn)定的,消費(fèi)金額也是集中在某個區(qū)間肾请。
(3)第三個條件:分析的樣本必須是隨機(jī)抽樣
每個用戶的購買率就是隨機(jī)抽樣來的。最簡單的隨機(jī)抽樣就是均勻抽樣铛铁,例如 10 萬用戶饵逐,我就按照順序倍权,每隔 5000 人抽一個出來,就能隨機(jī)抽樣出來 20 人。
第二步奸柬,計(jì)算 F 檢驗(yàn)值和 F crit 臨界值
若 F > F crit婴程,則各個分組的指標(biāo)值有顯著差異档叔;
若 F < F crit衙四,則各個分組的指標(biāo)值無顯著差異传蹈;
第三步,如果有差異挑格,需要評估差異大小
當(dāng) F > F crit漂彤,則各個分組的指標(biāo)值有差異灾搏,但是差異有多大呢确镊?用一個新的指標(biāo)來表示:
R2=SSA/SST蕾域,其中 R2 表示差異大小,SSA 是組間誤差平方和巨缘,SST 是總誤差平方和若锁。
可把 R2 看成相關(guān)系數(shù)又固,所以可以用相關(guān)系數(shù)的判斷標(biāo)準(zhǔn)來給出差異的大小:
當(dāng) R2>0.5乏冀,認(rèn)為各個分組間的差異非常顯著辆沦;
當(dāng) R2 在 [0.1,0.5] 之間時肢扯,認(rèn)為各個分組間的差異一般顯著蔚晨;
當(dāng) R2<0.1 時蛛株,認(rèn)為各個分組間的差異微弱顯著谨履。
應(yīng)用:
1.產(chǎn)品升級前后熬丧,使用時長有了一定提升析蝴,可以說升級有效果嗎闷畸?
升級后的平均使用時長為 1分 34 秒,升級前為 1 分 26 秒盾沫。升級后使用時長提升了不到 10 秒鐘,能說產(chǎn)品升級有效果嗎佩捞?
1)判斷樣本是否滿足“方差分析”的前提條件
使用時長來自同一群用戶一忱,就是產(chǎn)品的使用用戶帘营,是同一總體仪吧;并且使用時長滿足正態(tài)分布,所以要分析升級前和升級后有無效果械蹋,就是分析升級前的使用時長和升級后的使用時長是否有差異哗戈,也就是可以用方差分析來判斷唯咬。
2)計(jì)算 F 檢驗(yàn)值和 F crit 臨界值
F 檢驗(yàn)值是 5.97胆胰,F(xiàn) crit 臨界值是 4.1959蜀涨,所以 F &amp;gt; F crit厚柳,所以這兩組數(shù)據(jù)有差異别垮,也就是說升級后使用時長的提升是有效的碳想。
3)評估差異大小
結(jié)果是 0.1757移袍,屬于一般顯著葡盗。
結(jié)論:此次產(chǎn)品升級對使用時長是有效果的,平均使用時長提升了 8 秒胶背,但提升效果一般钳吟。
2.最近做了一次活動红且,活動后的 DAU 有所提升暇番,可以說活動有效果嗎壁酬?
為了提升 DAU舆乔,做了一個促活的活動,把活動前后的 DAU 抽樣 15 天的數(shù)據(jù)對比斜纪,發(fā)現(xiàn)活動后 DAU 均值是 55567盒刚,比活動前的 DAU 均值 54198 有所提升因块,可以說活動有效果嗎涡上?
我們不能單純地看 DAU 均值提升就認(rèn)為有效果吩愧,也有可能是正常的波動脐帝,所以我們需要準(zhǔn)確對比這兩個分組間的差異。
1)判斷樣本是否滿足“方差分析”的前提條件
因?yàn)閮山M的 DAU 都來自產(chǎn)品的 DAU糖权,所以認(rèn)為是來自同一總體堵腹,同時 DAU 滿足正態(tài)分布,所以可以用方差分析來進(jìn)行分析星澳。
2)計(jì)算 F 檢驗(yàn)值和 F crit 臨界值
因?yàn)?F(0.022) &amp;lt; F crit(4.1959)疚顷,所以這兩組數(shù)據(jù)無差異,也就是說這兩組 DAU 沒有任何區(qū)別禁偎,均值的變化是正常波動腿堤,促活活動并沒有帶來效果,所以不需要進(jìn)行第三步如暖,不需要評估差異大小释液。
上面的案例都是針對一種策略來分析效果妄迁。我們把這種形式的方差分析叫作單因素方差分析封字,因?yàn)橹辉u估一種策略在不同客群、或不同渠道、或不同場景中的效果证薇。下面我們看看一個更復(fù)雜的場景——多因素方差分析箩张。
3.如何分析注冊率是拉新活動帶來的熟掂?還是渠道本身特性帶來的?
渠道運(yùn)營,涉及的渠道很多,同時在每個渠道上也會投放大量的運(yùn)營活動拳昌,目的都是盡可能地將渠道的流量引導(dǎo)到產(chǎn)品上完成注冊沈矿,才能進(jìn)行后續(xù)更為深入的運(yùn)營。
(1)渠道
剛開始我們對接渠道犀填,由于資源有限冕广,運(yùn)營活動還是全渠道投放睬辐。想分析針對單一一個運(yùn)營活動,各個渠道間的用戶注冊率是否有差別。
F(1.96) &amp;lt; F crit(3.55),所以各個渠道的注冊率沒有差異。
面對這樣的問題瑟押,你自然會說可能是拉新活動的沒有做出差異化的原因,所以你把拉新活動精細(xì)化,拆為權(quán)益類活動掰吕、品牌類活動和通用類活動。通過這三類細(xì)分活動再次投放到各個渠道上,再次評估各個渠道的注冊轉(zhuǎn)化率。
(2)活動
于是杂瘸,除了渠道败玉,還有活動來影響注冊率。此時有兩個因素來影響注冊率运翼,分別是渠道因素(有三組)和活動類型因素(有三組),所以我們用無重復(fù)雙因素方差分析來做,
這里是兩個因素,所以要從行和列分別去分析:
行的 F(8.46) > F crit(6.94),所以注冊率在不同行(不同活動)上差異顯著涧郊,并且 R2 為 0.796,屬于非常顯著棚唆;
列的 F(0.16) < F crit(6.94)暇赤,所以注冊率在不同列(不同渠道)上無差異。
所以瑟俭,當(dāng)我們給各個渠道投放多種類型的活動時翎卓,我們發(fā)現(xiàn)注冊率和活動類型強(qiáng)關(guān)聯(lián)契邀。
(3)客群
把活動細(xì)分為三類只是精細(xì)化運(yùn)營的開始摆寄,接下來你自然會想把這三類活動投放給每個渠道的不同客群,再看看對注冊率的影響。
于是微饥,除了渠道和活動逗扒,還增加了渠道中的客群(這里僅按照性別這個維度來分析)。此時每種類型的活動又針對男性客群和女性客群分別進(jìn)行了投放欠橘,我們把這種情況叫作有重復(fù)因素矩肩。
有重復(fù)因素,即每個因素(活動類型)中都有兩個重復(fù)值(男性和女性)肃续。
樣本是每個行中的男性客群和女性客群黍檩;
列是渠道;
交互是男性客群或女性客群始锚,是否與渠道一起共同對注冊率產(chǎn)生了影響刽酱。
從結(jié)果中我們可以看到:
樣本的 F(10.57) > F crit (4.25) ,所以不同性別的客群和注冊率差異顯著瞧捌,再考察樣本的 R2 為 0.64棵里,為很強(qiáng)的顯著關(guān)系;
列的 F(0.47) < F crit (4.25)姐呐,所以不同渠道的客群和注冊率差異不顯著殿怜;
交互的 F (0.49) > F crit (3.63),所以不同性別的客群與渠道共同對注冊率差異不顯著曙砂。
此時我們可以下結(jié)論:不同渠道本身對注冊率影響不大头谜,可以排除渠道自身特征的影響;但是不同性別客群的拉新活動對注冊率的影響非常大麦轰,后續(xù)可以針對渠道中的不同性別投入更多的拉新資源以提升注冊率乔夯。
提醒:在本文的講解過程中,對方差分析的原理和要求做了很多業(yè)務(wù)上的適應(yīng)性的假設(shè)款侵。而實(shí)際業(yè)務(wù)的情況非常復(fù)雜末荐,在使用方差分析前應(yīng)查閱統(tǒng)計(jì)學(xué)的資料后,確認(rèn)業(yè)務(wù)情況符合方差分析的幾個條件才能使用新锈。如果硬套方差分析的方法來分析只會產(chǎn)生嚴(yán)重誤導(dǎo)和偏差甲脏。
總結(jié)
方差分析適用場景:
第一類:同一客群在實(shí)施某個策略前后的指標(biāo)對比,以評估策略效果妹笆。
第二類:兩個或多個客群對比同一指標(biāo)块请,以評估不同客群在這個指標(biāo)上的差異,以評估不同客群的指標(biāo)運(yùn)營效果拳缠。