在傳統(tǒng)的統(tǒng)計(jì)學(xué)中值是用于方差分析的共螺。
- 舉個(gè)例子:
我們開(kāi)發(fā)出了一種降血壓的藥该肴,需要檢驗(yàn)這個(gè)降血壓藥品的藥效如何情竹。我們就做了如下實(shí)驗(yàn),給定不同劑量匀哄,分別是0秦效,1,2涎嚼,3阱州,4這四個(gè)級(jí)別的劑量(0劑量表示病人服用了安慰劑),給4組病人服用法梯,在一定時(shí)間后測(cè)量病人的血壓差,在得到數(shù)據(jù)以后。我們要問(wèn)脾拆,這種新藥是不是有顯著藥效苦银,也就是說(shuō)病人的血壓差是不是顯著的不等于0。
劑量 | 血壓差 |
---|---|
0 | |
1 | |
... | ... |
4 |
我們得到了五個(gè)總體 铛绰,這五個(gè)總體的均值為
诈茧,我們假設(shè)是:
中至少有一個(gè)不為0
- 組間離差:
- 組內(nèi)離差:
繼而構(gòu)造檢驗(yàn)統(tǒng)計(jì)量,
,
分別是組間和組內(nèi)離差捂掰,這個(gè)統(tǒng)計(jì)量服從
敢会,式中
曾沈,也就是總樣本數(shù),r是總體個(gè)數(shù)鸥昏。
在我們這個(gè)例子中塞俱,,
互广,那么這個(gè)統(tǒng)計(jì)量
服從分布
敛腌。當(dāng)這個(gè)統(tǒng)計(jì)量比較大的時(shí)候,也就是超過(guò)
時(shí)惫皱,我們拒絕零假設(shè)像樊,即認(rèn)為幾個(gè)
中至少有一個(gè)不為0,即認(rèn)為新藥有顯著的改變血壓旅敷。
在這個(gè)例子中生棍,是為了檢驗(yàn)在不同的藥劑量下,血壓差是不是有顯著的差異媳谁。實(shí)際上涂滴,方差分析的真正目的是:在隨機(jī)變量Y的不同水平下,檢驗(yàn)?zāi)硞€(gè)變量X是不是有顯著的變化晴音。其實(shí)就是在說(shuō)變量X和Y之間的相關(guān)性柔纵。
前面做了那么多鋪墊,終于進(jìn)入正題了锤躁。前面提到利用f值這個(gè)檢驗(yàn)統(tǒng)計(jì)量搁料,可以判斷假設(shè)H0是否成立:f值越大,大到一定程度時(shí)系羞,就有理由拒絕零假設(shè)郭计,認(rèn)為不同總體下的均值存在顯著差異。
值越大椒振,我們拒絕
的把握也越大昭伸,我們?cè)接欣碛上嘈?img class="math-inline" src="https://math.jianshu.com/math?formula=%CE%BC_%7BS_%2B%7D%E2%89%A0%CE%BC_%7BS_%E2%88%92%7D" alt="μ_{S_+}≠μ_{S_?}" mathimg="1">,越有把握認(rèn)為集合
與
呈現(xiàn)出巨大差異澎迎,也就說(shuō)xi這個(gè)特征對(duì)預(yù)測(cè)類別的幫助也越大庐杨。
我們計(jì)算的 ,才是
中的
值夹供,服從
分布灵份,先計(jì)算
值然后轉(zhuǎn)為
p-value
看到這個(gè)方法返回兩個(gè)變量,是
值罩引,
是
各吨,這個(gè)
就是用于檢驗(yàn)特征與變量之間相關(guān)性的,假設(shè)你給出
值(常常取0.05,0.01)揭蜒,如果你的
小于
横浑,那就有把握認(rèn)為,這個(gè)特征和預(yù)測(cè)變量
之間屉更,具有相關(guān)性徙融。比方說(shuō)你取
,這就意味著你有95%(也就是
)的把握認(rèn)為瑰谜,這個(gè)特征和預(yù)測(cè)變量y之間存在相關(guān)性欺冀。