對(duì)汽車(chē)銷(xiāo)售行業(yè)納稅人的各個(gè)屬性指標(biāo)進(jìn)行分析彪笼,總結(jié)衡量納稅人的經(jīng)營(yíng)特征拷获,建立偷漏稅行為識(shí)別模型待榔,識(shí)別偷漏稅納稅人。
數(shù)據(jù)來(lái)源于網(wǎng)絡(luò)猎莲,該數(shù)據(jù)集提供了汽車(chē)銷(xiāo)售行業(yè)納稅人的各個(gè)屬性與是否判斷為偷漏稅標(biāo)識(shí)绍弟,該數(shù)據(jù)不存在缺失值。
原始數(shù)據(jù)的汽車(chē)銷(xiāo)售平均毛利著洼、維修毛利晌柬、企業(yè)維修收入占銷(xiāo)售收入比重、增值稅稅負(fù)郭脂、存貨周轉(zhuǎn)率年碘、成本費(fèi)用利潤(rùn)率、整體理論稅負(fù)展鸡、整體稅負(fù)控制數(shù)屿衅、辦牌率、單臺(tái)辦牌手續(xù)費(fèi)收入莹弊、代辦保險(xiǎn)率涤久、保費(fèi)返還率均列為解釋性變量。銷(xiāo)售類(lèi)型與銷(xiāo)售模式對(duì)偷漏稅行為不存在直接或間接的影響關(guān)系忍弛。故該兩變量不列為解釋性變量响迂。
1、對(duì)于該數(shù)據(jù)指標(biāo)的局限性以及實(shí)際中偷漏稅行為及方式的多樣性细疚≌嵬可采用主成份分析法對(duì)解釋性變量進(jìn)行降維分析,檢查是否適合因子分析法疯兼,看是否能分析出縮合指標(biāo)然遏。
4、采用神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)分析吧彪,對(duì)于神經(jīng)網(wǎng)絡(luò)模型分為學(xué)習(xí)集與測(cè)試集待侵,比例分配采用隨機(jī)方式或訓(xùn)練集為30%,測(cè)試集為70%姨裸,具體數(shù)據(jù)在實(shí)際應(yīng)用可以根據(jù)情況調(diào)整秧倾,本案例采用的是訓(xùn)練集為30%,測(cè)試集為70%方式傀缩。
在“描述”中選擇“KMO和Bartlett的球形度檢驗(yàn)”那先。“旋轉(zhuǎn)”中的方法選擇“最大方差法”扑毡。最后點(diǎn)擊“確定”輸出分析結(jié)果胃榕。
雖然在特征根大于1的前提下提取出了5個(gè)主成份盛险。但是KMO指數(shù)只有0.5瞄摊,說(shuō)明該數(shù)據(jù)集“勉強(qiáng)適中主成份分析法”勋又,再結(jié)合實(shí)際表格數(shù)據(jù)變量綜合可能,主成份分析法不適用該案例换帜。
在“回歸”菜中單選擇“二元logistic”楔壤,將“輸出”放入因變量中,解釋性變量放入“協(xié)變”惯驼,點(diǎn)擊確定輸出結(jié)果蹲嚣,從結(jié)果中可以看出模型分析預(yù)測(cè)結(jié)果比較理想,整體擬合為91.1%祟牲。
在“分類(lèi)”菜單中選擇“樹(shù)”隙畜,將“輸出”選入因變量,將解釋性變量放入“自變量”中说贝,點(diǎn)擊確定议惰,模型預(yù)測(cè)結(jié)果達(dá)87.9%,擬合效果也是非常理想的乡恕。通過(guò)后期的多次參數(shù)修正言询,預(yù)測(cè)效果會(huì)比二項(xiàng)logistic回歸的效果更理想。
在“神經(jīng)網(wǎng)絡(luò)”菜單中選擇“多層感知器”傲宜。設(shè)置好因變量與協(xié)變量运杭,并將訓(xùn)練集與測(cè)試集分配為30%與70%,從輸出結(jié)果可以看出函卒。神經(jīng)網(wǎng)絡(luò)模型的分析效果遠(yuǎn)好于決策樹(shù)及二項(xiàng)logistic回歸分析辆憔,神經(jīng)網(wǎng)絡(luò)在后期的不斷訓(xùn)練學(xué)習(xí)中,預(yù)測(cè)效果會(huì)更大幅度的可以得到提升报嵌。