以多因子選股模型為例诉探,先介紹峰度系數和偏度系數的含義日熬。
峰度(Kurtosis)是衡量離群數據離群度的指標,與隨機分布的四階中心距對應肾胯,是數據序列的四階中心距與標準差的四次冪之比竖席。正態(tài)分布的峰度值為 3 ,稱作常峰態(tài)敬肚,對應 I (beta=0)毕荐;峰度值大于 3 被稱作尖峰態(tài),對應 II (beta>0)艳馒;峰度值小于 3 被稱作低峰態(tài)憎亚,對應 III (beta<0)员寇。峰度系數越大,數據越集中第美。
一般來說蝶锋,不希望峰度過大或過小,主要考慮因子的區(qū)分度和穩(wěn)定性什往。峰度過大扳缕,觀察值很集中,尾部短且薄别威,兩端股票波動大躯舔,不穩(wěn)定;峰度過小省古,類似均勻分布粥庄,缺少區(qū)分度。
偏度(skewness)是衡量數據偏斜方向和程度的度量豺妓,即非對稱程度飒赃,是三階中心距與標準差的三次冪之比。偏度為 0 時科侈,概率密度函數左右對稱载佳;偏度為正,對應分布正偏/左偏臀栈;偏度為負蔫慧,對應分布負偏/右偏。偏度系數的絕對值越大权薯,數據偏離度越大姑躲,中位數和平均值顯著偏離。
可以借助偏度去理解一個因子的一些特性盟蚣。比如新聞類的情緒因子黍析,可能會發(fā)現該類因子會往正向偏離,它隱含的信息是屎开,新聞的主要作用是傳播正能量阐枣。理解好因子的特性后,在相應地構建投資信號的時候奄抽,也需要做適當的調整蔼两,比如給正負向權重配比的時候就不適合等權分配。
目前用到的 -skew+反轉因子 構建量價數據alpha的方法除了可以通過非線性的手段顯著降低alpha的correlation逞度,其背后應該還有深層次的內在邏輯额划。
參考
《金融工程主題報告:偏度和峰度對未來收益率的預測性》—安信證券