房價預測Baseline
- 暴力填充
- 訓練模型
- 評估結(jié)果
制作訓練集、評測集
交叉驗證
- 數(shù)據(jù)有限律胀,發(fā)揮數(shù)據(jù)本來的效率
- 數(shù)據(jù)的訓練集合評測集的矛盾
a. 如果用更多的數(shù)據(jù)去訓練蜒车,那么就會有更少的數(shù)據(jù)來評測
b. 如果用更少的數(shù)據(jù)來訓練潭袱,很大可能造成欠擬合摇零,在評測集上表現(xiàn)一定不好
解決方法
- 將數(shù)據(jù)集拆成k份 -> (首先進行shuffle洗牌磨确,防止不均沽甥、局限性)
- 規(guī)定k-1份進行訓練,剩下1份進行評測乏奥,總共訓練k次安接,輪流每個子數(shù)據(jù)集作為評測集
a. 數(shù)據(jù)集被分成k份,1……k
b. 第一次訓練使用第1份數(shù)據(jù)集作為評測集,剩下的k-1份作為訓練集
c. 第i次訓練使用第i次數(shù)據(jù)集作為評測集盏檐,剩下的k-1份作為訓練集
d. 做k次訓練 - k次訓練之后歇式,評測的分值=k次評測的平均(k折)
- 不同的模型會提供不同的子模型的合并方法,會將所有的k個子模型進行合并
SVM 是否容忍控制NAV胡野?
基于數(shù)值計算/數(shù)值回歸→ 一定要將所有內(nèi)容數(shù)字化→ 不支持
DecisionTree 是否容忍控制NAV材失?
決策樹的學習,實際是對控件的劃分硫豆。
把空值當成空間的一部分龙巨,不要求連續(xù)
→ CART,ID3熊响,C4.5
水果忍者旨别,黎、水果汗茄,切成丁
超市找東西秸弛,容易找到相應的商品
的位置
DNN 是否容忍控制NAV?
不容忍洪碳,基于數(shù)值計算
參考資料
洛杉磯房價預測-代碼
洛杉磯房價預測-數(shù)據(jù)快查表
Some examples of using (LaTeX) in R Markdown documents