- Author: 杜七
一硼一、為什么要做正態(tài)變換
統(tǒng)計(jì)分析中激才,基礎(chǔ)數(shù)據(jù)的分布可能比較特別遵倦,不符合所謂的“正態(tài)分布”尽超。
日常的數(shù)據(jù)都是什么樣子,離正態(tài)分布差距有多少梧躺,看看Dealing with Non-normal Data: Strategies and Tools似谁。這篇文章介紹的很詳細(xì)。
二掠哥、如何做正態(tài)分布變換
日常解決業(yè)務(wù)問(wèn)題的時(shí)候巩踏,不管是線性回歸分析,還是分析問(wèn)題的時(shí)候续搀,都需要把數(shù)據(jù)變換成類似正態(tài)分布的樣子塞琼,比如RFM模型的應(yīng)用,需要根據(jù)客戶價(jià)值分?jǐn)?shù)來(lái)劃分客戶目代,若轉(zhuǎn)換成正態(tài)分布屈梁,更容易別人理解。
原始數(shù)據(jù)是非正態(tài)分布的榛了,或者原始數(shù)據(jù)右偏在讶,或者左偏,需要對(duì)原數(shù)據(jù)做一定的變換霜大。
正態(tài)分布的變換构哺,比較經(jīng)典的就是BOX-COX transformation
三、實(shí)際應(yīng)用的變換介紹
R語(yǔ)言中有一個(gè)AID package,專門(mén)用來(lái)做BOX-COX的變換曙强,如下:
Information on package ??AID?ˉ
Description:
Package: AID
Type: Package
Title: An R Package to Estimate Box-Cox Power Transformation Parameter
Version: 1.4
Date: 2014-01-21
Depends: MASS, tseries, nortest, stats
Author: Osman Dag, Ozgur Asar, Ozlem Ilk
Maintainer: Osman Dag <osman.dag@metu.edu.tr>
Description: Includes a function to estimate the power transformation parameter and some
datasets
License: GPL (>= 2)
Packaged: 2014-01-21 13:58:01 UTC; METU
NeedsCompilation: no
Repository: CRAN
Date/Publication: 2014-01-21 15:17:05
Built: R 3.0.2; ; 2014-02-05 00:15:39 UTC; windows
Index:
AID : An R Package to Estimate Box-Cox Power
Transformation Parameter
boxcoxnc : A Function to Estimate Box-Cox Power
Transformation Parameter via Normality Tests
and Artifical Covariate Method
grades: Student Grades Data
textile:Textile Data
1残拐,網(wǎng)絡(luò)實(shí)例
Making Data Normal Using Box-Cox Power Transformation ,這篇文章寫(xiě)的比較詳細(xì)。
應(yīng)用BOX-COX方法最大的問(wèn)題在于如何確定lambda碟嘴,采取的方法是最大似然估計(jì).在關(guān)于lambda的對(duì)數(shù)最大似然圖像上找估計(jì)值的95%置信區(qū)間溪食。
2,RFM模型客戶價(jià)值分?jǐn)?shù)變換
- 參考AID package里面的boxcoxnc函數(shù)娜扇,來(lái)實(shí)現(xiàn)RFM的分?jǐn)?shù)的變換错沃。 注意:實(shí)際boxcoxnc變化過(guò)程中, 數(shù)據(jù)量有一定限制雀瓢,比如boxcoxnc枢析,要求樣本數(shù)據(jù)是3-5000。這個(gè)如果原數(shù)據(jù)比較多刃麸,可以抽樣;
- 調(diào)用boxcoxnc醒叁,比如boxcoxnc(rfm$days,method="all");
- boxcoxnc的參數(shù)有幾個(gè),其中,method是用來(lái)估計(jì)box-cox的參數(shù)lambda的泊业,方法可以選擇的把沼,默認(rèn)是all;lam是選擇預(yù)測(cè)的lamba的區(qū)間,即在哪個(gè)區(qū)間內(nèi)求似然估計(jì)脱吱,默認(rèn)是(-2,2),迭代步長(zhǎng)0.01;
- 其他參數(shù)可不單獨(dú)設(shè)置智政,plotid會(huì)畫(huà)出正態(tài)檢驗(yàn)的似然估計(jì),默認(rèn)是plotit=TRUE;
- 確定lambda,可以根據(jù)box-cox變換對(duì)原數(shù)據(jù)做處理箱蝠,這樣處理后的數(shù)據(jù)的分布會(huì)接近正態(tài)分布续捂。