統(tǒng)計顯著性與實際顯著性
一掐松、課堂內容
1.統(tǒng)計顯著性與實際顯著性的概念
- 統(tǒng)計上顯著性是指:估計總體參數落在某一區(qū)間內,可能犯錯誤的概率(statistics significance)
- 實際顯著性是指:由于各總體存在內在變異性,當兩個總體之間的差異絕對超過總體內部這類變異性(practical significance)
2.代碼操作
用自助法對比計算了均數差的傳統(tǒng)方法倘待。
下面的代碼是老師從stack overflow中的一個帖子里復制粘貼的代碼,然后做了修改疹味。
import statamodels.stats.api as sms
x1 = coffee_red[coffee_red['drinks_coffee'] == True]['height']
x2 = coffee_red[coffee_red['drinks_coffee'] == False]['height']
cm = sms.CompareMeans(sms.DescrStatsW(x1), sms.DescrStataW(x2))
cm.tconfint_diff(usevar = 'unequal')
3.置信區(qū)間的相關術語
(1)誤差范圍(Margin of Error(EOR)):是置信區(qū)間寬度的一半静袖,通過對樣本估計值的加減,達到置信區(qū)間的最終結果朋鞍。
(2)置信區(qū)間寬度(Confidence Interval Width):置信區(qū)間上限與下限的差異
(3)增加樣本容量,會降低置信區(qū)間的寬度妥箕;增加置信度(95%增加到99%)會增加置信區(qū)間的寬度
4.置信區(qū)間得出的結論類型
- 置信區(qū)間是基于對數據的整體模擬給出總體的參數滥酥;不能給出個別數據的特征。
- 機器學習采用個別方法得出結論畦幢,因為通過每個單獨數據點預測結果坎吻。
二、總結
(1)用自助法模擬傳統(tǒng)檢驗的代碼沒看懂宇葱,很多表達方法沒明白為什么要這么寫瘦真,視頻里也沒提到,估計不屬于現階段需要掌握的內容黍瞧,但是后續(xù)中還要重新研究吗氏。
(2)置信區(qū)間表達的的共性的問題,不能用來評價單個個體的情況雷逆,也不能說明所有個體,可能適合描述具有某類特征的集合體污尉;機器學習更期待獲得個性特征膀哲。
這是Udacity數據分析(入門)課程的統(tǒng)計學lesson11的學習筆記三
Lesson11的課程學習結束
轉載請注明出處