這周本該有兩篇文章字旭,上半周沒有完成Kaggle案例然想,花了一些時間學(xué)習(xí)了sklearn庫莺奔。周日了,先早點(diǎn)將下半周的文章發(fā)出來变泄,mark一下~
上周說好這周是汽車行業(yè)的案例令哟,奈何目前沒有找到相似的案例,所以妨蛹,依舊來自kaggle案例屏富,關(guān)于二手房的預(yù)測。
(1)定義問題
根據(jù)房屋的屬性(臥室數(shù)量蛙卤,是否沿街等信息)狠半,以及房屋的售價信息,對房屋的價格進(jìn)行評估颤难。模型可用于二手房神年,二手車的估價。
初步判定這是一個有監(jiān)督學(xué)習(xí)行嗤,可選用線性模型已日。
(2)準(zhǔn)備數(shù)據(jù)
- 原始數(shù)據(jù)包含79條房屋屬性信息,1條售價信息(SalePrice),1條數(shù)據(jù)id信息(不具備 參考意義栅屏,剔除)
-
將79條屬性信息作為特征數(shù)據(jù)飘千,售價信息作為因變量/研究目標(biāo)堂鲜。
3.處理因變量SalePrice,
觀察發(fā)現(xiàn)护奈,原始數(shù)據(jù)中因變量是一個數(shù)字量且數(shù)值較大缔莲,存在多個不同的自變量/相同的自變量,對應(yīng)一個因變量的情況霉旗,需要尋找一種數(shù)據(jù)標(biāo)準(zhǔn)化的處理方法酌予,這里選擇將數(shù)據(jù)做平滑處理——log1p():
log1p()函數(shù)用于偏度較大的數(shù)據(jù)進(jìn)行轉(zhuǎn)化,使其更加符合高斯分布奖慌;同時,還可以避免復(fù)值問題(一個自變量對應(yīng)多個因變量)松靡〖蛏總之,該操作是將數(shù)據(jù)壓縮到一個區(qū)間雕欺,可以看作是數(shù)據(jù)的標(biāo)準(zhǔn)化岛马。
4.處理特征數(shù)據(jù)/自變量
特征數(shù)據(jù)的類型比較復(fù)雜,有數(shù)字類型變量屠列,有離散變量啦逆,此外,存在缺失值的情況
(3)建模
關(guān)于模型的選擇:
通過觀察訓(xùn)練數(shù)據(jù)矩陣笛洛,稀疏夏志,嘗試采用套索回歸,結(jié)果對比模型可選用脊回歸(最小二乘添加懲罰項(xiàng))
(4)優(yōu)化
采用xgboost優(yōu)化
5)總結(jié)分析
通過對數(shù)據(jù)的清洗苛让,以及模型的選擇和優(yōu)化沟蔑,我們可以實(shí)現(xiàn)對一組新的測試數(shù)據(jù)的輸出。分析過程中確定研究的目標(biāo)狱杰,將目標(biāo)可視化瘦材,關(guān)聯(lián)性處理,有助于分析目標(biāo)仿畸。