引言:
上一篇文章《多因子選股之有效因子》悯辙,我們講到有效因子的檢驗(yàn)琳省。在選擇了有效因子之后,我們還需要進(jìn)行一步去除冗余因子躲撰。
不同的選股因子可能由于內(nèi)在的驅(qū)動(dòng)因素大致相同等原因针贬,所選出的組合在個(gè)股構(gòu)成和收益等方面具有較高的一致性,因此其中的一些因子需要作為冗余因子剔除拢蛋, 而只保留同類(lèi)因子中收益最好桦他,區(qū)分度最高的一個(gè)因子。例如成交量指標(biāo)和流通量指標(biāo)之間具有比較明顯的相關(guān)性谆棱。流通盤(pán)越大的快压,成交量一般也會(huì)比較大圆仔,因此在選股模型中,這兩個(gè)因子只選擇其中一個(gè)嗓节。
主要步驟:
我參考了網(wǎng)絡(luò)上不同的剔除方法荧缘,但都僅僅淺嘗輒止,沒(méi)有進(jìn)行深入的代碼探究拦宣。我們先說(shuō)剔除冗余因子的主要步驟:
假設(shè)現(xiàn)有k個(gè)因子截粗,回測(cè)周期可分為m個(gè)月,股票可均分為n個(gè)組合鸵隧,
1绸罗、分別按不同因子的大小進(jìn)行排序,講股票分為n個(gè)組合進(jìn)行打分豆瘫,分值與該組合在整個(gè)模型形成期的收益相關(guān)珊蟀,收益越大,分值越高外驱。分值賦給每月該組合內(nèi)的所有個(gè)股育灸。
如果組合10的收益大于組合1,那么就將組合 i 各個(gè)股票的各個(gè)股票分值設(shè)置為 i 昵宇,各個(gè)組合的分值從低到高進(jìn)行排列分別是
1,2,3,4,5,6,7,8,9,10磅崭。如果組合1的收益大于組合10,那么正好是反過(guò)來(lái) 10,9,8,7,6,5,4,3,2,1瓦哎。
2砸喻、按月計(jì)算個(gè)股的不同因子得分間的相關(guān)性矩陣。
3蒋譬、在計(jì)算完每月因子得分相關(guān)性矩陣后割岛,計(jì)算整個(gè)樣本期內(nèi)相關(guān)性矩陣的平均值。
4犯助、設(shè)定一個(gè)得分相關(guān)性閥值癣漆,將得分相關(guān)性平均值矩陣中大于該閥值的元素所對(duì)應(yīng)的因子只保留與其他因子相關(guān)性較小、有效性更強(qiáng)的因子剂买,而其它因子則作為冗余因子剔除扑媚。
測(cè)試參數(shù):
我們根據(jù)步驟,在掘金平臺(tái)上實(shí)現(xiàn)
測(cè)試參數(shù)聲明:
測(cè)試平臺(tái):掘金量化
測(cè)試時(shí)間:2016-01-01——2018-01-01
測(cè)試股票池:“上證50”成分股
測(cè)試因子:
測(cè)試步驟:
1雷恃、獲取每個(gè)月的首個(gè)交易日疆股,月初獲取每只股票的因子數(shù)據(jù)及當(dāng)月收益率,根據(jù)因子數(shù)值排序倒槐,將股票分為10組旬痹,根據(jù)平均收益為股票組合打分,分值賦予對(duì)應(yīng)組合中所有股票。
2两残、分別測(cè)試股票關(guān)于四種因子的分值永毅,根據(jù)每月結(jié)果,計(jì)算相關(guān)性系數(shù)矩陣人弓。
3沼死、計(jì)算整個(gè)測(cè)試周期的相關(guān)性系數(shù)平均值。
4崔赌、設(shè)定閾值意蛀,剔除冗余因子。
結(jié)果:
我們看幾個(gè)月份的相關(guān)性系數(shù)矩陣
2016年3月
2016年4月
2016年6月
2016年10月
2016年12月
2017年6月
再來(lái)看各個(gè)月的統(tǒng)計(jì)表格
我們經(jīng)過(guò)統(tǒng)計(jì)健芭,得出平均相關(guān)性系數(shù)矩陣
結(jié)論:
我們選取的四個(gè)有效因子县钥,平均相關(guān)性系數(shù)均小于0.25,也就是我們選取的因子相關(guān)性很低慈迈,我們可以放心的進(jìn)行因子間的組合若贮,構(gòu)建新的因子。
冗余因子剔除的思想:計(jì)算股票根據(jù)每個(gè)因子的所獲得的分值痒留,通過(guò)比較該分值谴麦,從而得到因子間的相關(guān)性,相關(guān)性高的伸头,剔除其中一個(gè)匾效,留下有效性高并與其他因子相關(guān)性低的因子。
關(guān)聯(lián)閱讀:
2.多因子選股之策略的實(shí)現(xiàn)? ? ? ?
來(lái)源:掘金量化? ? ? ? 作者:經(jīng)緯量化? 宋瑞迪??