均數(shù)差
一闷供、課堂內容
如何利用代碼計算均差數(shù),并通過均差數(shù)的置信區(qū)間來得出相關的推斷結論统诺。
置信區(qū)間表達的意思是歪脏,在區(qū)間內,滿足區(qū)間條件粮呢。
二婿失、項目練習
1. 對于10,000次迭代,自展法(bootstrap)會對你的樣本數(shù)據(jù)進行抽樣啄寡,計算喝咖啡和不喝咖啡的人的平均身高的差異豪硅。使用你的抽樣分布建立一個99%的置信區(qū)間。
diff_coffee = []
for _ in range(10000):
coffee_sample = sample_data.sample(200, replace = True)
d_coffee = coffee_sample[coffee_sample['drinks_coffee'] == True]['height'].mean()
nd_coffee = coffee_sample[coffee_sample['drinks_coffee'] == False]['height'].mean()
diff_coffee.append(d_coffee - nd_coffee)
plt.hist(diff_coffee)
np.percentile(diff_coffee, 0.5), np.percentile(diff_coffee, 99.5)
2. 對于10,000次迭代挺物,自展法會對樣本數(shù)據(jù)進行抽樣懒浮,計算21歲以上和21歲以下的平均身高的差異。使用你的抽樣分布構建一個99%的置信區(qū)間。
diff_coffee = []
for _ in range(10000):
coffee_sample = sample_data.sample(200, replace = True)
d_coffee = coffee_sample[coffee_sample['age'] == '<21']['height'].mean()
nd_coffee = coffee_sample[coffee_sample['age'] != '<21']['height'].mean()
diff_coffee.append(d_coffee - nd_coffee)
plt.hist(diff_coffee)
np.percentile(diff_coffee, 0.5), np.percentile(diff_coffee, 99.5)
3. 對于10,000次迭代砚著,自展法會對你的樣本數(shù)據(jù)進行抽樣次伶,計算出21歲以下個體的喝咖啡的人的平均身高和不喝咖啡的人的平均身高之間的差異。使用你的抽樣分布稽穆,建立一個95%的置信區(qū)間冠王。
diff_21 = []
for _ in range(10000):
coffee_sample = sample_data.sample(200, replace = True)
d_coffee = coffee_sample.query("age == '<21' and drinks_coffee == True")['height'].mean()
nd_coffee = coffee_sample.query("age == '<21' and drinks_coffee == False")['height'].mean()
diff_21.append(d_coffee - nd_coffee)
plt.hist(diff_21)
np.percentile(diff_21, 2.5), np.percentile(diff_21, 97.5)
4. 對于10,000次迭代,自展法會對你的樣本數(shù)據(jù)進行抽樣舌镶,計算出21歲以上個體的喝咖啡的人的平均身高和不喝咖啡的人的平均身高之間的差異柱彻。使用你的抽樣分布,建立一個95%的置信區(qū)間餐胀。
diff_21 = []
for _ in range(10000):
coffee_sample = sample_data.sample(200, replace = True)
d_coffee = coffee_sample.query("age != '<21' and drinks_coffee == True")['height'].mean()
nd_coffee = coffee_sample.query("age != '<21' and drinks_coffee == False")['height'].mean()
diff_21.append(d_coffee - nd_coffee)
plt.hist(diff_21)
np.percentile(diff_21, 2.5), np.percentile(diff_21, 97.5)
三绒疗、總結
1.query
(1)再次鞏固了用法,可以用來表內鏈接各列骂澄。在后兩個問題中需要鏈接3個列吓蘑,其中一個列用[]表示鏈接,其余列可以通過query先鏈接坟冲。
(2)使用過程中注意query后面用()磨镶,并且內部必須是字符串格式。
(3)false和ture作為表格中默認的內容健提,不能作為字符串格式出現(xiàn)在query中琳猫。
(4)判斷列中數(shù)字取值范圍時,不能用>=這樣的表達方式私痹,但是可以用<脐嫂。用>會數(shù)據(jù)溢出∥勺瘢可以用账千!='<21'這樣的方式表達。
2.數(shù)列迭代
變量名.append()
這是Udacity數(shù)據(jù)分析(入門)課程的統(tǒng)計學lesson11的學習筆記二
轉載請注明出處