量化交易平臺Quantopian講座(12)—置信區(qū)間

在本文開始前,大家應該清楚一點产镐,樣本均值與總體均值是不同的隘庄。一般情況下,我們都希望得到總體均值癣亚,但是往往只能計算出樣本均值丑掺,進而使用樣本均值去估計總體均值,這就引入了置信區(qū)間的概念述雾,置信區(qū)間是用來衡量使用樣本均值估計總體均值的精確程度街州。

置信區(qū)間

如果想要評估美國女性的平均身高蓬豁,你會怎么做?你可以能隨機測量10名女性的身高菇肃,以此來估計整體的平均身高地粪,下面我們使用代碼來模擬下這個過程:

計算樣本平均身高

很輕松我們就可以計算出樣本的平均身高,但是它對于我們卻沒有太大用處琐谤,因為我們無法確定它與總體平均間的關系蟆技。
可以通過計算方差來嘗試得到樣本的離散度,方差越高斗忌,則不穩(wěn)定性與不確定性越高质礼。
計算標準差

但這依舊是不夠的,這就需要我們計算標準誤织阳,標準誤是用來衡量樣本均值的方差眶蕉。
**注:在計算標準誤之前,你首先需要確保你的樣本具有無偏性唧躲,并且數(shù)據(jù)是服從正態(tài)分布且獨立的造挽。如果沒有滿足這些條件,那么所計算出得標準誤就沒法使用弄痹,但對于這種情況饭入,也有許多檢驗與矯正的方式,下文中會提到肛真。
**
標準誤的計算公式:
標準誤計算公式

由此公式谐丢,寫出對應的Python代碼:
標準誤計算示例代碼

繼續(xù)我們的旅程,假設我們的數(shù)據(jù)是服從正態(tài)分布的蚓让,那么我們可以使用標準誤來計算置信區(qū)間乾忱。首先,設定期望的置信區(qū)間历极,比如95%窄瘟,然后就可以確定在多大的偏差范圍內可以包含95%的數(shù)據(jù),對于標準正態(tài)分布來說执解,是介于-1.96與1.96之間寞肖。當樣本足夠大時(通常>30即可認為足夠大),根據(jù)中心極限法則衰腌,可以認定分布服從正態(tài)分布新蟆;如果樣本不夠大時,使用指定自由度的t分布則更為安全右蕊。
注意:在使用中心極限法則時要十分小心琼稻,因為許多金融數(shù)據(jù)都是非正態(tài)的
下面使用matplotlib繪制一下標準正態(tài)分布的95%的置信區(qū)間:
繪制置信區(qū)間示例代碼

繪制圖形如下:
95%置信區(qū)間

到這里,我們除了孤零零的樣本均值之外饶囚,還計算出了置信區(qū)間帕翻,總體均值更有可能落在此區(qū)間內鸠补。假設我們的樣本均值為μ,那么置信區(qū)間則為:
置信區(qū)間

必讀
在任何給定數(shù)據(jù)的情況下嘀掸,估計的真值與置信區(qū)間都是固定的紫岩。但需要注意的是,“美國女性平均身高在63英尺與65英尺之間的概率為95%”這種常見的理解是不對的睬塌,正確的解讀應該為泉蝌,“在多次試驗中,有95%的試驗中揩晴,真值會落在計算出得置信區(qū)間內”勋陪。所以當僅存在一個樣本,并計算出了置信區(qū)間的情況下硫兰,我們是沒法評估區(qū)間包含總體均值的概率的诅愚,下面會通過繪圖方式演示給大家。
例子中有100個樣本劫映,對于每個樣本分別計算其樣本均值與置信區(qū)間


示例代碼

結果圖:


結果圖

進一小步

回到本文最初的身高案例违孝,因為樣本很小,所以我們使用t檢驗苏研。使用之前提到的標準誤公式等浊,可算出該樣本的置信區(qū)間

身高案例置信區(qū)間

使用scipy.stats的內建函數(shù),可以更為便捷地完成計算摹蘑,但這里需要注意參數(shù)中需要傳入自由度。
scipy內置函數(shù)計算

注:可以看到轧飞,伴隨著置信水平的提高衅鹿,置信區(qū)間范圍也更廣
如果假設總體服從正態(tài)分布,也可以使用更為簡化的方法進行計算过咬,這里就不再需要傳入自由度
正態(tài)假設下計算

現(xiàn)在再來回顧一下大渤,我們設定了一個期望的置信水平,并由此得到了可能包含真值的一個區(qū)間掸绞,要求的置信水平越高泵三,則區(qū)間范圍越大。通常情況下都不會使用一個點進行估計衔掸,因為其為真值的概率實在太小烫幕。值得注意的是,伴隨著樣本數(shù)量的增加敞映,我們得到的置信區(qū)間范圍會更加精確(薪下)。
樣本數(shù)量增加時置信區(qū)間縮小

示例

接下來振愿,我們使用一個包含100個數(shù)據(jù)的樣本(正態(tài)分布)捷犹,同時繪制頻度柱狀圖及其均值的置信區(qū)間弛饭。


100個樣本圖例
示例圖

假設違背導致的估計錯誤

標準差、標準誤與置信區(qū)間的計算均依賴于特定的假設萍歉,如果這些假設不滿足侣颂,那么就很有可能導致在你期望的95%的置信水平下,最終得到置信區(qū)間達不到你的期望枪孩,這就被稱作估計錯誤憔晒。
下面就舉一個例子,也是非常常見的一種情況——自相關销凑。自相關會導致更多極值丛晌,這是因為新值會依賴于之前的值,則已經偏離均值的數(shù)據(jù)序列則更有可能繼續(xù)偏離斗幼,下面以如下形式的自相關數(shù)據(jù)來解釋一下:


自相關

下面我們產生一個自相關的數(shù)據(jù)序列澎蛛,并將其繪制出來


產生自相關數(shù)據(jù)代碼

示例圖形

從圖形學也可以大致看出,隨著樣本數(shù)量的增加蜕窿,樣本均值會逐漸收斂于0的谋逻,下面我們來驗證下,200組樣本桐经,樣本大小逐步增大
示例代碼

示例圖

再計算所有樣本均值的均值毁兆。


計算所有樣本均值的均值

可以看到結果是非常接近于0的,那么我們先基于經驗阴挣,認為其總體均值確實為0气堕,接下來再基于正態(tài)分布的假設,來驗證下得到的置信區(qū)間是否準確畔咧,首先先引入兩個輔助函數(shù)茎芭,分別用于計算置信區(qū)間與檢查覆蓋范圍
輔助函數(shù)

接下來進行500次試驗,對每次試驗見過進行范圍檢查誓沸,看其得到的置信區(qū)間是否包含真值0梅桩,
經驗覆蓋率vs期望覆蓋率

由結果,實際的覆蓋率只有73.2%拜隧,達不到期望的95%宿百。針對自相關的情況,一般需要對其進行Newey-West矯正洪添。
因此垦页,在實際使用中,對于假設的檢驗是非常重要的薇组,檢查數(shù)據(jù)自相關性有很快速便捷的檢查方法外臂。Jarque Bera檢驗則可以幫助我們檢驗數(shù)據(jù)是否服從正態(tài)分布。
本文就到這里,感謝閱讀宋光,歡迎訂閱貌矿!
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市罪佳,隨后出現(xiàn)的幾起案子逛漫,更是在濱河造成了極大的恐慌,老刑警劉巖赘艳,帶你破解...
    沈念sama閱讀 216,496評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件酌毡,死亡現(xiàn)場離奇詭異,居然都是意外死亡蕾管,警方通過查閱死者的電腦和手機枷踏,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,407評論 3 392
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來掰曾,“玉大人旭蠕,你說我怎么就攤上這事】跆梗” “怎么了掏熬?”我有些...
    開封第一講書人閱讀 162,632評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長秒梅。 經常有香客問我旗芬,道長,這世上最難降的妖魔是什么捆蜀? 我笑而不...
    開封第一講書人閱讀 58,180評論 1 292
  • 正文 為了忘掉前任疮丛,我火速辦了婚禮,結果婚禮上辆它,老公的妹妹穿的比我還像新娘这刷。我一直安慰自己,他們只是感情好娩井,可當我...
    茶點故事閱讀 67,198評論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著似袁,像睡著了一般洞辣。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上昙衅,一...
    開封第一講書人閱讀 51,165評論 1 299
  • 那天扬霜,我揣著相機與錄音,去河邊找鬼而涉。 笑死著瓶,一個胖子當著我的面吹牛,可吹牛的內容都是我干的啼县。 我是一名探鬼主播材原,決...
    沈念sama閱讀 40,052評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼沸久,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了余蟹?” 一聲冷哼從身側響起卷胯,我...
    開封第一講書人閱讀 38,910評論 0 274
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎威酒,沒想到半個月后窑睁,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經...
    沈念sama閱讀 45,324評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡葵孤,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,542評論 2 332
  • 正文 我和宋清朗相戀三年担钮,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片尤仍。...
    茶點故事閱讀 39,711評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡箫津,死狀恐怖,靈堂內的尸體忽然破棺而出吓著,到底是詐尸還是另有隱情鲤嫡,我是刑警寧澤,帶...
    沈念sama閱讀 35,424評論 5 343
  • 正文 年R本政府宣布绑莺,位于F島的核電站暖眼,受9級特大地震影響,放射性物質發(fā)生泄漏纺裁。R本人自食惡果不足惜诫肠,卻給世界環(huán)境...
    茶點故事閱讀 41,017評論 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望欺缘。 院中可真熱鬧栋豫,春花似錦、人聲如沸谚殊。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,668評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽嫩絮。三九已至丛肢,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間剿干,已是汗流浹背蜂怎。 一陣腳步聲響...
    開封第一講書人閱讀 32,823評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留置尔,地道東北人杠步。 一個月前我還...
    沈念sama閱讀 47,722評論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親幽歼。 傳聞我的和親對象是個殘疾皇子朵锣,可洞房花燭夜當晚...
    茶點故事閱讀 44,611評論 2 353

推薦閱讀更多精彩內容