數(shù)據(jù)預處理時用pandas
做了一個科比的投籃預測硬贯,數(shù)據(jù)集在kaggle上可以找到,我們對flag(投中與否)進行預測的時候鸦采,選擇了一下的參數(shù):
改為onehot格式的時候出現(xiàn)了一個很大的bug浮还。
很顯然的倒堕,順序變了,第一列肯定不是combined_shot_type了丰包,而是變成了period禁熏。
why?
原因是處在了pd.get_dummies(data)上邑彪,下面是中間過程:
也就是說瞧毙,get_dummies在處理數(shù)據(jù)的時候,優(yōu)先處理了本身是數(shù)字的數(shù)據(jù)寄症,然后把文字描述類的改成了onehot格式宙彪。所以,我們在選擇最后的目標的時候有巧,得看著些了释漆。