本周主要在做項目Project: Finding Donors for?CharityML
一個完整的數(shù)據(jù)分析項目包括數(shù)據(jù)清洗最筒,探索和分析纺裁,但是由于主要側(cè)重點在于機(jī)器學(xué)習(xí)sklearn方法的掌握讹挎,所以只關(guān)注在選擇algorithm,還有預(yù)測,并且對模型的好壞進(jìn)行評估方面箩溃。這里不會貼出完整的項目代碼。課程完結(jié)之后會上傳到github上碌嘀。
1涣旨、對于高度傾斜的特征分布,使用對數(shù)變換明顯減少了異常值引起的值的范圍股冗。
2霹陡、標(biāo)準(zhǔn)化數(shù)值特征sklearn.preprocessing.MinMaxScaler
3、將數(shù)據(jù)集拆分成訓(xùn)練集和測試集from sklearn.model_selection import train_test_split
4止状、評估模型性能????=(1+??2)???????????????????????????????? / (??2???????????????????)+????????????
5烹棉、選用最優(yōu)模型參數(shù)from sklearn.model_selection import GridSearchCV