房價預(yù)測

這周本該有兩篇文章字旭,上半周沒有完成Kaggle案例然想,花了一些時間學(xué)習(xí)了sklearn庫莺奔。周日了,先早點(diǎn)將下半周的文章發(fā)出來变泄,mark一下~
上周說好這周是汽車行業(yè)的案例令哟,奈何目前沒有找到相似的案例,所以妨蛹,依舊來自kaggle案例屏富,關(guān)于二手房的預(yù)測。


housesbanner.png

(1)定義問題
根據(jù)房屋的屬性(臥室數(shù)量蛙卤,是否沿街等信息)狠半,以及房屋的售價信息,對房屋的價格進(jìn)行評估颤难。模型可用于二手房神年,二手車的估價。
初步判定這是一個有監(jiān)督學(xué)習(xí)行嗤,可選用線性模型已日。
(2)準(zhǔn)備數(shù)據(jù)

  1. 原始數(shù)據(jù)包含79條房屋屬性信息,1條售價信息(SalePrice),1條數(shù)據(jù)id信息(不具備 參考意義栅屏,剔除)
  2. 將79條屬性信息作為特征數(shù)據(jù)飘千,售價信息作為因變量/研究目標(biāo)堂鲜。
    3.處理因變量SalePrice,
    觀察發(fā)現(xiàn)护奈,原始數(shù)據(jù)中因變量是一個數(shù)字量且數(shù)值較大缔莲,存在多個不同的自變量/相同的自變量,對應(yīng)一個因變量的情況霉旗,需要尋找一種數(shù)據(jù)標(biāo)準(zhǔn)化的處理方法酌予,這里選擇將數(shù)據(jù)做平滑處理——log1p():
    log1p()函數(shù)用于偏度較大的數(shù)據(jù)進(jìn)行轉(zhuǎn)化,使其更加符合高斯分布奖慌;同時,還可以避免復(fù)值問題(一個自變量對應(yīng)多個因變量)松靡〖蛏總之,該操作是將數(shù)據(jù)壓縮到一個區(qū)間雕欺,可以看作是數(shù)據(jù)的標(biāo)準(zhǔn)化岛马。
    4.處理特征數(shù)據(jù)/自變量
    特征數(shù)據(jù)的類型比較復(fù)雜,有數(shù)字類型變量屠列,有離散變量啦逆,此外,存在缺失值的情況


    [圖片上傳中...(Image 6.jpg-7b565f-1552791784449-0)]

(3)建模
關(guān)于模型的選擇:
通過觀察訓(xùn)練數(shù)據(jù)矩陣笛洛,稀疏夏志,嘗試采用套索回歸,結(jié)果對比模型可選用脊回歸(最小二乘添加懲罰項(xiàng))


Image 6.jpg

(4)優(yōu)化
采用xgboost優(yōu)化


Image 8.jpg

5)總結(jié)分析


Image 9.jpg

Figure_1.png

通過對數(shù)據(jù)的清洗苛让,以及模型的選擇和優(yōu)化沟蔑,我們可以實(shí)現(xiàn)對一組新的測試數(shù)據(jù)的輸出。分析過程中確定研究的目標(biāo)狱杰,將目標(biāo)可視化瘦材,關(guān)聯(lián)性處理,有助于分析目標(biāo)仿畸。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末食棕,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子错沽,更是在濱河造成了極大的恐慌簿晓,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,816評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件抢蚀,死亡現(xiàn)場離奇詭異,居然都是意外死亡镰禾,警方通過查閱死者的電腦和手機(jī)皿曲,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,729評論 3 385
  • 文/潘曉璐 我一進(jìn)店門唱逢,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人屋休,你說我怎么就攤上這事坞古。” “怎么了劫樟?”我有些...
    開封第一講書人閱讀 158,300評論 0 348
  • 文/不壞的土叔 我叫張陵痪枫,是天一觀的道長。 經(jīng)常有香客問我叠艳,道長奶陈,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,780評論 1 285
  • 正文 為了忘掉前任附较,我火速辦了婚禮吃粒,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘拒课。我一直安慰自己徐勃,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,890評論 6 385
  • 文/花漫 我一把揭開白布早像。 她就那樣靜靜地躺著僻肖,像睡著了一般。 火紅的嫁衣襯著肌膚如雪卢鹦。 梳的紋絲不亂的頭發(fā)上臀脏,一...
    開封第一講書人閱讀 50,084評論 1 291
  • 那天,我揣著相機(jī)與錄音冀自,去河邊找鬼谁榜。 笑死,一個胖子當(dāng)著我的面吹牛凡纳,可吹牛的內(nèi)容都是我干的窃植。 我是一名探鬼主播,決...
    沈念sama閱讀 39,151評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼荐糜,長吁一口氣:“原來是場噩夢啊……” “哼巷怜!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起暴氏,我...
    開封第一講書人閱讀 37,912評論 0 268
  • 序言:老撾萬榮一對情侶失蹤延塑,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后答渔,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體关带,經(jīng)...
    沈念sama閱讀 44,355評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,666評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了宋雏。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片芜飘。...
    茶點(diǎn)故事閱讀 38,809評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖磨总,靈堂內(nèi)的尸體忽然破棺而出嗦明,到底是詐尸還是另有隱情,我是刑警寧澤蚪燕,帶...
    沈念sama閱讀 34,504評論 4 334
  • 正文 年R本政府宣布娶牌,位于F島的核電站,受9級特大地震影響馆纳,放射性物質(zhì)發(fā)生泄漏诗良。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,150評論 3 317
  • 文/蒙蒙 一鲁驶、第九天 我趴在偏房一處隱蔽的房頂上張望累榜。 院中可真熱鬧,春花似錦灵嫌、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,882評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至赂蠢,卻和暖如春绪穆,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背虱岂。 一陣腳步聲響...
    開封第一講書人閱讀 32,121評論 1 267
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人簸喂。 一個月前我還...
    沈念sama閱讀 46,628評論 2 362
  • 正文 我出身青樓竞惋,卻偏偏與公主長得像,于是被迫代替她去往敵國和親蔑滓。 傳聞我的和親對象是個殘疾皇子郊酒,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,724評論 2 351

推薦閱讀更多精彩內(nèi)容

  • 在這里,希望喜歡它的人一起每日感悟人生哲理键袱,為你的生活多一點(diǎn)改變燎窘。(開心不開的時候讀讀,心情都會好很多蹄咖,何樂而不為...
    林窗鯨落閱讀 317評論 0 0
  • 在中國歷史上褐健,大大小小的皇帝有四百多位,但若說哪位皇帝最謙讓儉樸澜汤、最寬厚仁愛蚜迅,西漢時期的漢文帝無疑是其中最出色的一...
    至簡君閱讀 1,273評論 1 3
  • 《犬夜叉》終于看完了舵匾,167集+完結(jié)篇26集。桔梗的悲運(yùn)慢叨,愛的人喜歡了另一個自己纽匙。 奈落的愛的執(zhí)念,渴望得到的欲望...
    清姐看世界閱讀 561評論 0 0
  • 叮咚的雨聲 是勞動的號子 洗凈了天空 洗凈了花草樹木 洗凈了行人的每件衣裳 洗凈了城市中所有房屋建筑 又或者 只是...
    我是王小西閱讀 246評論 0 4
  • 那天拍谐,素言在草叢中撿到一頂帽子烛缔,她可以肯定這是被別人丟棄的,但她覺得這是一頂最漂亮的帽子轩拨。 她小心翼翼地?fù)炱鹈弊樱?..
    怡寶魚閱讀 397評論 0 0