原文鏈接:商業(yè)分析python實戰(zhàn)(一):企業(yè)所得稅預(yù)測
企業(yè)所得稅是企業(yè)經(jīng)營過程中的一項重點關(guān)注內(nèi)容妻往,分析企業(yè)所得稅的影響因素草冈,預(yù)測未來兩年有效的企業(yè)所得稅,為未來企業(yè)發(fā)展提供指導(dǎo)依據(jù)勇劣,在企業(yè)經(jīng)營過程中有重大意義随夸。現(xiàn)有某企業(yè)2004年至2015年相關(guān)的數(shù)據(jù)九默,希望以此為基礎(chǔ),預(yù)測2016年及2017年的企業(yè)所得稅逃魄。
步驟
1荤西、獲取數(shù)據(jù);
2、相關(guān)性分析邪锌;
3勉躺、Lasso特征選擇;
4觅丰、單個特征灰色預(yù)測饵溅;
5、SVR預(yù)測2016年及2017年企業(yè)所得稅妇萄,并對模型進行評價蜕企。
NO.1 獲取數(shù)據(jù)
考慮數(shù)據(jù)的可得性和與實際情況的關(guān)聯(lián)性,選取2004年-2015年某企業(yè)相關(guān)維度的數(shù)據(jù)冠句,具體字段名及說明如下表:
NO.2 分析企業(yè)所得稅數(shù)據(jù)的相關(guān)性
從已有數(shù)據(jù)轻掩,可知道共有10個因素會影響企業(yè)所得稅,需要計算各影響因素與目標(biāo)特征之間的相關(guān)系數(shù)懦底,進而判斷企業(yè)所得稅與選取特征之間的相關(guān)性唇牧。這里,我們計算10個特征間的Pearson相關(guān)系數(shù)聚唐,結(jié)果如下:
由上可知丐重,x6與企業(yè)所得稅(y)呈負相關(guān)關(guān)系蠢箩,其余特征均與y呈正相關(guān)關(guān)系诱咏,且各個特征間存在嚴(yán)重的多重共線性,如x1尿扯,x2亲桦,x3崖蜜,x4,x7烙肺,x8纳猪,x10。因此桃笙,需要對這些特征進行進一步篩選,避免信息重復(fù)沙绝。
NO.3 用Lasso回歸選取關(guān)鍵特征
Lasso回歸方法屬于正則化方法的一種搏明,是一種收縮估計方法,它可以將特征的系數(shù)進行壓縮并使某些回歸系數(shù)變?yōu)?闪檬,從而達到特征選擇的目的星著。Lasso對數(shù)據(jù)類型沒有太多限制,一般不需要對數(shù)據(jù)進行標(biāo)準(zhǔn)化處理粗悯,可以有效的解決多重共線性問題虚循,但它傾向于選擇多個特征中的一個特征,會導(dǎo)致結(jié)果的不穩(wěn)定性。本例中横缔,多重共線性的問題較為嚴(yán)重铺遂,因此使用Lasso進行特征選擇是一個恰當(dāng)?shù)姆椒ā?/p>
根據(jù)上圖的結(jié)果茎刚,Lasso識別的影響企業(yè)所得稅因素為x1襟锐,x9,x2膛锭。
NO.4 用灰色預(yù)測得到單特征預(yù)測值
因為各因素沒有2016年粮坞、2017年的數(shù)據(jù),因此我們需要先通過灰色預(yù)測得到單個特征在2016年初狰、2017年的值莫杈。灰色預(yù)測是一種對含有不確定因素的系統(tǒng)進行預(yù)測的方法奢入,具有預(yù)測精度高筝闹、模型可檢驗、參數(shù)估計方法簡單的特點俊马,但對序列的光滑度要求較高丁存。灰色預(yù)測通過后驗差檢驗判別模型精度柴我,結(jié)果參照表如下:
通過GM方法進行灰色預(yù)測解寝,x1、x2艘儒、x3的后驗差檢驗結(jié)果及在2016年聋伦、2017年的預(yù)測值如下:
NO.5 用SVR構(gòu)建預(yù)測模型
SVR(支持向量回歸)不僅適用于線性模型,也能很好的抓住數(shù)據(jù)和特征之間的非線性關(guān)系界睁,可避免局部最小問題,但計算復(fù)雜度較高翻斟,數(shù)據(jù)量大時逾礁,耗時較長。模型預(yù)測后,可通過R2值來判斷模型效果窒篱,R2越接近1,表示模型擬合效果越好。
實現(xiàn)代碼
點擊原文(商業(yè)分析python實戰(zhàn)(一):企業(yè)所得稅預(yù)測)后臺回復(fù)“企業(yè)”可得本例數(shù)據(jù)及代碼鲸阔。
參考內(nèi)容:
1褐筛、《R語言商務(wù)數(shù)據(jù)分析實戰(zhàn)》