http://www.reibang.com/p/c6df75dbb2fa
http://www.evanmiller.org/ab-testing/
【目的】AB測試,還有AA測試
【樣本選擇】分桶怎么分的却特,每組是否滿足正態(tài)分布
根據(jù) cookie (比如 cookie 會話ID的最后一位數(shù)字)決定分桶就是一個不錯的方法戈轿。
【AB測試意義】A/B測試其實是一種“先驗”的實驗體系,屬于預(yù)測型結(jié)論道伟,與“后驗”的歸納性結(jié)論差別巨大。A/B測試的目的在于通過科學(xué)的實驗設(shè)計使碾、采樣樣本代表性蜜徽、流量分割與小流量測試等方式來獲得具有代表性的實驗結(jié)論,并確信該結(jié)論在推廣到全部流量可信票摇。
【實現(xiàn)手段】
相似性采樣:在A/B測試的實驗中拘鞋,需要保證小流量的實驗具備代表性,也就是說1%的流量做出來的實驗結(jié)果矢门,可以推廣到100%的用戶盆色,為了保證這一點灰蛙,需要保證1%的流量的樣本特征與100%流量的樣本特征具備相似性。(說個最簡單的邏輯:假定把所有小米手機用戶均勻的分到這100組中隔躲,那第一組的所有小米手機用戶的特征與第2組-第100組的所有小米手機用戶具備相似性)
代表性誤差:代表性誤差摩梧,又稱抽樣誤差。主要是指在用樣本數(shù)據(jù)向總體進行推斷時所產(chǎn)生的隨機誤差宣旱。從理論上講仅父,這種誤差是不可避免的,但是它是可以計算并且加以控制的浑吟。(繼續(xù)小米笙纤。。盡管把小米用戶均勻的分成了100組组力,但是不能完全保證每個組里的小米用戶的數(shù)量省容、性別、地域等特征完全一樣燎字,這就帶來了實驗誤差風(fēng)險)
聚類:物理或抽象對象的集合分成由類似的對象組成的多個類的過程被稱為聚類腥椒,也就是在分配小米用戶的過程中,需要按照實驗?zāi)康牡牟煌烟卣飨嗨菩愿叩挠脩粽J(rèn)為是一類用戶候衍,比如定義100次點擊為高頻點擊寞酿,可能在某些情況下也會認(rèn)為99次點擊的用戶跟100次點擊的用戶是一類用戶。
置信度與置信區(qū)間
在統(tǒng)計學(xué)中脱柱,一個概率樣本的置信區(qū)間(Confidence interval)是對這個樣本的某個總體參數(shù)的區(qū)間估計伐弹。置信區(qū)間展現(xiàn)的是這個參數(shù)的真實值有一定概率落在測量結(jié)果的周圍的程度。置信區(qū)間給出的是被測量參數(shù)的測量值的可信程度榨为,即前面所要求的“一定概率”惨好。這個概率被稱為置信水平。
置信度:簡單來將表示可信程度随闺,一般來說95%的置信度就很好了日川,一些及其嚴(yán)苛的A/B測試實驗才會到99%的置信度。差別在于矩乐,越高的置信度得出結(jié)論的實驗時間越長龄句、流量要求越高
置信區(qū)間:從前面的概念中也講了,1%的流量盡管具備了代表性散罕,但是跟100%的流量還是有差異的嘛分歇,所以實驗結(jié)果的評判要有一定的前提的,置信度就是這個前提欧漱,置信區(qū)間表示在這個置信度的前提下职抡,實驗結(jié)果很可能會落在一個區(qū)間內(nèi),比如下圖误甚,95%的置信度的前提下缚甩,置信區(qū)間為[-2.3%, +17.4%],可以解讀為這個A/B測試的實驗既有可能使“點擊次數(shù)”降低2.3%谱净,又有可能提升17.4%。說明這個實驗結(jié)果還不穩(wěn)定擅威,可能是試驗時間短或者是流量不夠壕探。