kaggle入門(mén)之 房?jī)r(jià)預(yù)測(cè)

背景介紹:
這個(gè)比賽總的情況就是給你79個(gè)特征然后根據(jù)這些預(yù)測(cè)房?jī)r(jià)(SalePrice),難點(diǎn)在于特征很多教翩,且存在大量的缺失值。kaggle提供的data_description.txt這個(gè)文件稿辙,里面對(duì)各個(gè)特征的含義進(jìn)行了描述授嘀,對(duì)處理缺失值有很大的幫助

一、認(rèn)識(shí)數(shù)據(jù)


House Price 數(shù)據(jù)集分為train和test數(shù)據(jù)诫钓。訓(xùn)練集含有1460個(gè)樣本浓冒,80個(gè)屬性,一個(gè)標(biāo)簽(SalePrice)尖坤。測(cè)試集很有1459個(gè)樣本,80個(gè)屬性闲擦。sample_submission則是最終上傳到kaggle的預(yù)測(cè)結(jié)果慢味。

二、EDA

首先導(dǎo)入包墅冷,探索一下測(cè)試集的情況纯路。


屬性的意義

* MSSubClass:建筑類(lèi)              
* mszoning:一般的分區(qū)分類(lèi)
* LotFrontage:街道連接屬性線性英尺
* LotArea:平方英尺批量
* 街道:道路通行方式
* 小巷:通道入口的類(lèi)型
* LotShape:財(cái)產(chǎn)的形狀
* LandContour:財(cái)產(chǎn)的平整度
* 實(shí)用程序:可用的實(shí)用程序類(lèi)型
* LotConfig:很多配置
* LandSlope:坡的財(cái)產(chǎn)
* 鄰近:Ames市區(qū)范圍內(nèi)的物理位置
* 狀態(tài):鄰近主要道路或鐵路
* 條件:靠近主要道路或鐵路(如果第二存在)
* BldgType:住宅類(lèi)型
* housestyle:風(fēng)格的住宅
* overallqual:整體材料和完成質(zhì)量
* overallcond:總體狀況評(píng)價(jià)
* yearbuilt:原施工日期
* yearremodadd:重塑日期
* RoofStyle:屋頂類(lèi)型
* RoofMatl:屋面材料
* exterior1st:外部覆蓋的房子
* exterior2nd:外部覆蓋的房子(如果有一個(gè)以上的材料)
* MasVnrType:砌體飾面型
* masvnrarea:砌體飾面面積平方英尺
* exterqual:外部材料質(zhì)量
* extercond:在外部的物質(zhì)條件
* 基金會(huì):基金會(huì)的類(lèi)型
* BsmtQual:地下室的高度
* bsmtcond:地下室的一般條件
* BsmtExposure:罷工或花園層地下室墻
* bsmtfintype1:質(zhì)量基底成品區(qū)
* bsmtfinsf1:型完成1平方英尺
* bsmtfintype2:質(zhì)量第二成品區(qū)(如果有的話)
* bsmtfinsf2:型完成2平方英尺
* BsmtUnfSF:未完成的平方英尺的地下室
* totalbsmtsf:地下室面積總平方英尺
* 加熱:加熱類(lèi)型
* heatingqc:加熱質(zhì)量和條件
* 中央:中央空調(diào)
* 電氣:電氣系統(tǒng)
* 1stflrsf:一樓平方英尺
* 2ndflrsf:二樓平方英尺
* lowqualfinsf:完成平方英尺Low質(zhì)量(各樓層)
* grlivarea:以上等級(jí)(地)居住面積平方英尺
* BsmtFullBath: Basement full bathrooms
* BsmtHalfBath:地下室半浴室
* FullBath:完整的浴室級(jí)以上
* HalfBath:半浴室級(jí)以上
* 臥室:高于地下室的臥室數(shù)
* 廚房:廚房數(shù)量
* kitchenqual:廚房的品質(zhì)
* totrmsabvgrd:房間總級(jí)以上(不包括衛(wèi)生間)
* 功能:家庭功能評(píng)級(jí)
* 一些壁爐壁爐:
* fireplacequ:壁爐質(zhì)量
* GarageType:車(chē)庫(kù)位置
* GarageYrBlt:建立年車(chē)庫(kù)
* GarageFinish:車(chē)庫(kù)的室內(nèi)裝修
* GarageCars:在汽車(chē)車(chē)庫(kù)大小的能力
* GarageArea:在平方英尺的車(chē)庫(kù)規(guī)模
* GarageQual:車(chē)庫(kù)質(zhì)量
* garagecond:車(chē)庫(kù)條件
* paveddrive:鋪的車(chē)道
* WoodDeckSF:平方英尺的木甲板面積
* openporchsf:平方英尺打開(kāi)陽(yáng)臺(tái)的面積
* enclosedporch:封閉式陽(yáng)臺(tái)的面積以平方英尺
* 3ssnporch:平方英尺三季陽(yáng)臺(tái)的面積
* screenporch:平方英尺紗窗門(mén)廊區(qū)
* PoolArea:在平方英尺的游泳池
* poolqc:池質(zhì)量
* 柵欄:柵欄的質(zhì)量
* miscfeature:雜項(xiàng)功能在其他類(lèi)未包括
* miscval:$雜特征值
* MoSold:月銷(xiāo)售
* YrSold:年銷(xiāo)售
* SaleType:銷(xiāo)售類(lèi)型
* salecondition:銷(xiāo)售條件

目標(biāo)值Saleprice 房?jī)r(jià)的情況。

房?jī)r(jià)是否滿足正態(tài)分布

看起來(lái)有些右偏寞忿,右邊有長(zhǎng)尾驰唬,等下再做處理。

居住面積與房?jī)r(jià)的關(guān)系

地下室面積與房?jī)r(jià)的關(guān)系

材料飾面質(zhì)量與房?jī)r(jià)的關(guān)系

年份與房?jī)r(jià)關(guān)系

看看相關(guān)性腔彰,哪些和價(jià)格最相關(guān)


三叫编、數(shù)據(jù)清洗

首先把測(cè)試集和訓(xùn)練集讀進(jìn)來(lái)

首先來(lái)處理之前的離群點(diǎn)

現(xiàn)在分布看上去正常多了

首先觀察下saleprice的分布


觀察分布圖和qq圖明顯看出有些右偏,需要去處理霹抛。

我們選用對(duì)數(shù)變換來(lái)處理搓逾。log(1+x)


可以看出僅做了個(gè)對(duì)數(shù)變化,分布變得符合了正態(tài)分布杯拐。

去掉ID和目標(biāo)

觀察缺失值情況


處理缺失值


缺失值就大致被處理好了霞篡。

四世蔗、特征工程

有些特征并不是連續(xù)值,來(lái)把他做成類(lèi)別值

觀察發(fā)現(xiàn)utilities這個(gè)值基本沒(méi)用

接下里用labelencoder進(jìn)行標(biāo)簽映射

檢查特征的偏度


有些偏度還挺大的

用box-cox變換來(lái)處理朗兵,參考資料選取0.15為經(jīng)驗(yàn)值

最后進(jìn)行one-hot 編碼

五污淋、建模對(duì)比

評(píng)價(jià)指標(biāo)是均方根誤差(RMSE)


這里選用robustscaler來(lái)級(jí)聯(lián)起來(lái)先處理

中間用gridsearch測(cè)試出了參數(shù)取值


用stacking模型



選取ENet,Gboost余掖,KRR作為第一層模型寸爆,lasso作為第二層模型。

做成上交的格式

排名在前15%左右浊吏,后續(xù)再慢慢改進(jìn)而昨。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市找田,隨后出現(xiàn)的幾起案子歌憨,更是在濱河造成了極大的恐慌,老刑警劉巖墩衙,帶你破解...
    沈念sama閱讀 211,743評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件务嫡,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡漆改,警方通過(guò)查閱死者的電腦和手機(jī)心铃,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,296評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)挫剑,“玉大人去扣,你說(shuō)我怎么就攤上這事》疲” “怎么了愉棱?”我有些...
    開(kāi)封第一講書(shū)人閱讀 157,285評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)哲戚。 經(jīng)常有香客問(wèn)我奔滑,道長(zhǎng),這世上最難降的妖魔是什么顺少? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,485評(píng)論 1 283
  • 正文 為了忘掉前任朋其,我火速辦了婚禮,結(jié)果婚禮上脆炎,老公的妹妹穿的比我還像新娘梅猿。我一直安慰自己,他們只是感情好秒裕,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,581評(píng)論 6 386
  • 文/花漫 我一把揭開(kāi)白布粒没。 她就那樣靜靜地躺著,像睡著了一般簇爆。 火紅的嫁衣襯著肌膚如雪癞松。 梳的紋絲不亂的頭發(fā)上爽撒,一...
    開(kāi)封第一講書(shū)人閱讀 49,821評(píng)論 1 290
  • 那天,我揣著相機(jī)與錄音响蓉,去河邊找鬼硕勿。 笑死,一個(gè)胖子當(dāng)著我的面吹牛枫甲,可吹牛的內(nèi)容都是我干的源武。 我是一名探鬼主播,決...
    沈念sama閱讀 38,960評(píng)論 3 408
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼想幻,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼粱栖!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起脏毯,我...
    開(kāi)封第一講書(shū)人閱讀 37,719評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤闹究,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后食店,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體渣淤,經(jīng)...
    沈念sama閱讀 44,186評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,516評(píng)論 2 327
  • 正文 我和宋清朗相戀三年吉嫩,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了价认。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,650評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡自娩,死狀恐怖用踩,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情忙迁,我是刑警寧澤捶箱,帶...
    沈念sama閱讀 34,329評(píng)論 4 330
  • 正文 年R本政府宣布,位于F島的核電站动漾,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏荠锭。R本人自食惡果不足惜旱眯,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,936評(píng)論 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望证九。 院中可真熱鬧删豺,春花似錦、人聲如沸愧怜。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,757評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)拥坛。三九已至蓬蝶,卻和暖如春尘分,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背丸氛。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,991評(píng)論 1 266
  • 我被黑心中介騙來(lái)泰國(guó)打工培愁, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人缓窜。 一個(gè)月前我還...
    沈念sama閱讀 46,370評(píng)論 2 360
  • 正文 我出身青樓定续,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親禾锤。 傳聞我的和親對(duì)象是個(gè)殘疾皇子私股,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,527評(píng)論 2 349

推薦閱讀更多精彩內(nèi)容