統(tǒng)計檢驗/jupyter循環(huán)進度條展示

分析建模窜觉,日常問題整理(二十四)


2019.4.10~2019.4.28


    1. 相關檢驗
# 相關系數(shù)
pd.DataFrame(pd.DataFrame([[1,1,0,0,0],[0,1,1,0,3]]).T.rename(columns = {0:'A',1:'B'})).corr()
    1. 正態(tài)檢驗
import scipy
import scipy.stats as scs
import scipy.stats as scs
def normality_tests(arr):
    """
    Tests for normality distribution of given data set
    :param arr: ndarray
    object to generate statistics on
    :return:
    """
    print("Skew of data set  %14.3f" % scs.skew(arr))
    print("Skew test p-value %14.3f" % scs.skewtest(arr)[1])
    print("Kurt of data set  %14.3f" % scs.kurtosis(arr))
    print("Kurt test p-value %14.3f" % scs.kurtosistest(arr)[1])
    print("Norm test p-value %14.3f" % scs.normaltest(arr)[1])

normality_tests([-1,-0.5,-0.4,-0.3,-0.2,0,0.2,0.3,0.4,0.5,1])
# Skew of data set           0.001
# Skew test p-value          0.292
# Kurt of data set           0.001
# Kurt test p-value          0.625
# Norm test p-value          0.509

KS檢驗

scipy.stats.kstest (rvs, cdf, args = ( ), N = 20, alternative ='two-sided', mode ='approx')

Anderson 檢驗揩瞪,該方法是由 scipy.stats.kstest 改進而來的史飞,可以做正態(tài)分布尉间、指數(shù)分布锹引、Logistic 分布冶伞、Gumbel 分布等多種分布檢驗。默認參數(shù)為 norm恳蹲,即正態(tài)性檢驗虐块。

scipy.stats.anderson (x, dist ='norm' )

Shapiro-Wilk test檢驗

scipy.stats.shapiro(x)
    1. 卡方檢驗

目的:判別兩組數(shù)據(jù)是否有差別?比較理論頻數(shù)和實際頻數(shù)的吻合程度或者擬合優(yōu)度問題嘉蕾?比較實際數(shù)據(jù)和理論分布之間的差異有多大贺奠。
原假設
H0:兩組數(shù)據(jù)無差異(一般選擇有絕對優(yōu)勢出現(xiàn)的事件,如果發(fā)生的小概率事件就不得不拒絕掉原假設)
H1:兩組數(shù)據(jù)不是無差異
卡方統(tǒng)計量=x^2=\sum(f_i-np_i)^2/np_i荆针,在0假設成立的情況下服從自由度為k-1的卡方分布敞嗡。
np_i 表示理論分布出現(xiàn)的頻數(shù)或者值,f_i表示實際值航背。

from  scipy.stats import chi2_contingency
kf = chi2_contingency(np.array([[1,2,1,1,2,1],[1,2,2,1,1,2]]))
print('chisq-statistic=%.4f, p-value=%.4f, df=%i expected_frep=%s'%kf)

表1:第X1個變量出現(xiàn)的實際值

Y V1 V2 V3 總計
0 4 7 6 17
1 1 3 6 10
總計 5 10 12 27

表2:第X1個變量出現(xiàn)的理論值

Y V1 V2 V3 總計
0 5*17/27=3.1 6.3 7.6 17
1 5*10/27=1.9 3.7 4.4 10
總計 5 10 12 27

卡方值 =
(4-3.1)^2/3.1+(7-6.3)^2/6.3+(6-7.6)^2/7.6+(1-1.9)^2/1.9+(3-3.7)^2/3.7+(6-4.4)^2/4.4 =

兩個表的數(shù)字差距越大,兩個表的獨立性越強約偏離均勻的分布棱貌,01在各組的分布越不均勻玖媚,粗分類結果越好(對y的區(qū)分效果越好)。
卡方檢驗和IV值都可以用來評價變量的作用婚脱。

from  scipy.stats import chi2_contingency
kf = chi2_contingency(np.array([[4,7,6],[1,3,6]]))
# 這里需要算0兩類的變量分布
print('chisq-statistic=%.4f, p-value=%.4f, df=%i expected_frep=%s'%kf)

output:
chisq-statistic=1.6994, p-value=0.4275, df=2 expected_frep=[[ 3.14814815  6.2962963   7.55555556]
 [ 1.85185185  3.7037037   4.44444444]]
    1. T檢驗

T檢驗今魔,亦稱student t檢驗(Student's t test)勺像,主要用于樣本含量較小(例如n < 30)错森,總體標準差未知的總體吟宦。T檢驗是用t分布理論來推論差異發(fā)生的概率,從而比較兩個平均數(shù)的差異是否顯著涩维。
單總體檢驗殃姓,t分布

單總體t.jpg

雙總體檢驗,t分布
雙總體t.jpg

H0:
單總體瓦阐,樣本均值是否等于總體均值20蜗侈,結論:P<0.05,等于總體均值

from scipy import stats
import pandas as pd
dataSer=pd.Series([15.6,16.2,22.5,20.5,16.4,19.4,16.6,17.9,12.7,13.9])
pop_mean=20
t,p_twoTail=stats.ttest_1samp(dataSer,pop_mean)
p_oneTail = p_twoTail/2
print("t=",t,"p_twoTail=",p_twoTail, "p_oneTail = ", p_oneTail)
output:t= -3.00164952589 p_twoTail= 0.0149164142489 p_oneTail =  0.00745820712445

H0:兩樣本均值無差異

rvs1 = stats.norm.rvs(loc=5,scale=10,size=500)  
rvs2 = stats.norm.rvs(loc=5,scale=10,size=500)
# 檢驗兩樣本均值是否有顯著差異
# 首先睡蟋,檢驗方差是否相等
stats.levene(rvs1, rvs2)

# 如果p>0.05方差相等
stats.ttest_ind(rvs1,rvs2)

# 如果p<0.05方差不相等
stats.ttest_ind(rvs1,rvs2, equal_var = False)
    1. 卡方檢驗和T檢驗區(qū)別

T檢驗主要檢驗均值踏幻,卡方檢驗主要檢驗整體差異?

    1. jupyter進度條展示
from tqdm import tqdm_notebook,tnrange
for i in tqdm_notebook(range(0, new_loc.shape[0], 10),desc = 'lst loop'):
      print(i)
最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末戳杀,一起剝皮案震驚了整個濱河市该面,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌信卡,老刑警劉巖隔缀,帶你破解...
    沈念sama閱讀 218,525評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異坐求,居然都是意外死亡蚕泽,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,203評論 3 395
  • 文/潘曉璐 我一進店門桥嗤,熙熙樓的掌柜王于貴愁眉苦臉地迎上來须妻,“玉大人,你說我怎么就攤上這事泛领』睦簦” “怎么了?”我有些...
    開封第一講書人閱讀 164,862評論 0 354
  • 文/不壞的土叔 我叫張陵渊鞋,是天一觀的道長绰更。 經(jīng)常有香客問我,道長锡宋,這世上最難降的妖魔是什么儡湾? 我笑而不...
    開封第一講書人閱讀 58,728評論 1 294
  • 正文 為了忘掉前任,我火速辦了婚禮执俩,結果婚禮上徐钠,老公的妹妹穿的比我還像新娘。我一直安慰自己役首,他們只是感情好尝丐,可當我...
    茶點故事閱讀 67,743評論 6 392
  • 文/花漫 我一把揭開白布显拜。 她就那樣靜靜地躺著,像睡著了一般爹袁。 火紅的嫁衣襯著肌膚如雪远荠。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,590評論 1 305
  • 那天失息,我揣著相機與錄音譬淳,去河邊找鬼。 笑死根时,一個胖子當著我的面吹牛瘦赫,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播蛤迎,決...
    沈念sama閱讀 40,330評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼确虱,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了替裆?” 一聲冷哼從身側響起校辩,我...
    開封第一講書人閱讀 39,244評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎辆童,沒想到半個月后宜咒,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,693評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡把鉴,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,885評論 3 336
  • 正文 我和宋清朗相戀三年故黑,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片庭砍。...
    茶點故事閱讀 40,001評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡场晶,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出怠缸,到底是詐尸還是另有隱情诗轻,我是刑警寧澤,帶...
    沈念sama閱讀 35,723評論 5 346
  • 正文 年R本政府宣布揭北,位于F島的核電站扳炬,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏搔体。R本人自食惡果不足惜恨樟,卻給世界環(huán)境...
    茶點故事閱讀 41,343評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望疚俱。 院中可真熱鬧厌杜,春花似錦、人聲如沸计螺。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,919評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽登馒。三九已至匙握,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間陈轿,已是汗流浹背圈纺。 一陣腳步聲響...
    開封第一講書人閱讀 33,042評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留麦射,地道東北人蛾娶。 一個月前我還...
    沈念sama閱讀 48,191評論 3 370
  • 正文 我出身青樓,卻偏偏與公主長得像潜秋,于是被迫代替她去往敵國和親蛔琅。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,955評論 2 355

推薦閱讀更多精彩內(nèi)容