為什么要用趨勢檢驗
在客觀世界存在各種各樣隨時間變動的數(shù)據(jù)怒详,很多時候我們都想要知道數(shù)據(jù)變化隨時間的發(fā)展趨勢如何酿傍,常用的方式是我們使用回歸的參數(shù)方法擬合出一條直線烙懦,然后判斷其趨勢。這樣的方法往往受多方面的因素影響赤炒,比如單調(diào)的趨勢不一定是線性的氯析,也不一定能有一個顯函數(shù)來表達。其次參數(shù)檢驗的方法受限于數(shù)據(jù)量莺褒,有時候我們得到的數(shù)據(jù)很少掩缓,不適合做回歸等參數(shù)方法。比如當(dāng)我們開發(fā)的APP上線新功能遵岩,我們需要在短時間內(nèi)判斷其是否帶來用戶的增長你辣,流量的增長,以便做出相應(yīng)的策略尘执;或者當(dāng)出現(xiàn)某種疫情的時候舍哄,我們迫切希望了解到疫情是否得到控制等...... Cox和Stuart提出的基于符號檢驗的非參數(shù)方法就能有效的解決之一問題
舉個例子說明
以下是天津機場從1995年1月到2003年12月的108個月旅客吞吐量數(shù)據(jù)
光從數(shù)字和趨勢圖看,我們能否說這個趨勢是增長還是減少誊锭,還是都不明顯呢表悬,似乎是增長,但是又不總是增長丧靡。
對此我們可以做如下處理
step1 做出假設(shè)
step2 取數(shù)據(jù)對
(X1,X1+c)... (X(n-c),Xn)
這里 當(dāng)n為偶數(shù) c=n/2 ; 當(dāng)n為奇數(shù) c= (n+1)/2
step3 計算符號
計算 Dt = Xt -X(t+c)
計算 S+ (Dt為正)和 S-(Dt為負) 的個數(shù)
顯然蟆沫,當(dāng)無趨勢時 S+ 或S- 服從p=0.5 的二項分布,如果S+大温治,則可能存在下降趨勢饭庞。
所以有該檢驗的統(tǒng)計量如下:
Scala 版本
import breeze.stats.distributions._
import scala.collection.mutable.ListBuffer
/**
* 計算二項分布的分布函數(shù)
* @param binomial
* @param n
* @return
*/
def pbinom(binomial: Binomial, n: Int) = {
var p = 0.0
if (n >= binomial.n) {
p = 1
} else {
for (i <- 0 to n) {
p += binomial.probabilityOf(i)
}
}
p
}
/**
* CoxStuart趨勢檢驗
* @param timeSeries
* @param AlternativeHypothesis
* @return
*/
def CoxStuart(timeSeries: Seq[Double],
AlternativeHypothesis: String = hypothesis.GROWTHREND) = {
val length = timeSeries.length
val ts = if (length % 2 != 0) {
timeSeries.drop(length / 2 + 1)
} else timeSeries
val pre = ts.slice(0, ts.length / 2)
val pro = ts.slice(ts.length / 2, ts.length)
val sign = new ListBuffer[Double]()
for (i <- 0 until length / 2 ) {
sign.append(pre(i) - pro(i))
}
val spositive = sign.count(_ > 0)
val snagtive = sign.count(_ < 0)
def min(n: Int, g: Int) = {
if (n > g) g else n
}
val binomial = Binomial((length / 2), 0.5)
val p = AlternativeHypothesis.toUpperCase match {
case "REDUCETREND" => pbinom(binomial, snagtive)
case "NOTREND" => pbinom(binomial, min(snagtive, spositive)) * 2
case _ => pbinom(binomial, spositive)
}
coxstuer((ts.length / 2), spositive, snagtive, p)
}
val source: BufferedSource = Source.fromFile("TJAir.csv")
val data = source.getLines().map(_.toDouble)
val coxstuer1 = CoxSturt(data.toSeq)
println("p-value =" + coxstuer1.pvalue)
Scala 算法得出 p-value = 0.004536670169793693
R 語言版本
#數(shù)據(jù)加載
TJair <- read_csv("TJAir.csv")
#繪制趨勢圖
plot(TJair$TJair,type = "l")
# cox_stuert 趨勢檢驗
# 假設(shè)檢驗
#h0:無趨勢 ,h1:上升趨勢
len <- length(TJair$TJair)
clen <-if(len%%2 == 0){
len/2
} else{
(len+1)/2
}
pvcont <- TJair$TJair
D <- pvcont[1:clen] - pvcont[(clen+1):len]
## 符號計算
spositive <- sum(sign(D) == 1)
snegative <- sum(sign(D) == -1)
## 結(jié)果檢驗
pbinom(spositive,clen,0.5)
pbinom(spositive,54,0.5)
[1] 0.00453667
R語言 計算結(jié)果 p-value = 0.00453667
參考資料:《非參數(shù)統(tǒng)計》第四版 吳喜之 趙博娟