1.目標泄露:存在由y決定的x李茫,即先發(fā)生y,后發(fā)生x埃叭。
2.訓練測試污染:例如填補缺失值使用了全部的數(shù)據派任,在調用calling train_test_split()函數(shù)前對數(shù)據進行預處理(比如為缺失的值擬合一個估算值)砸逊,結果怎么樣?你的模型將會獲得一個較好的驗證分數(shù)掌逛,但用于部署決策時效果很差师逸。
1.目標泄露:存在由y決定的x李茫,即先發(fā)生y,后發(fā)生x埃叭。
2.訓練測試污染:例如填補缺失值使用了全部的數(shù)據派任,在調用calling train_test_split()函數(shù)前對數(shù)據進行預處理(比如為缺失的值擬合一個估算值)砸逊,結果怎么樣?你的模型將會獲得一個較好的驗證分數(shù)掌逛,但用于部署決策時效果很差师逸。