目標(biāo):給定某電信機(jī)構(gòu)實(shí)際業(yè)務(wù)中的相關(guān)客戶信息兼搏,包含69個(gè)與客戶相關(guān)的字段吓著,其中“是否流失”字段表明客戶會否會在觀察日期后的兩個(gè)月內(nèi)流失。任務(wù)目標(biāo)是通過訓(xùn)練集訓(xùn)練模型司澎,來預(yù)測客戶是否會流失蛤铜,以此為依據(jù)開展工作,提高用戶留存。
因隔離沒有身份證照片暫未實(shí)名認(rèn)證成功篮愉,所以先拿著題線下練習(xí)練習(xí)
深刻覺得一看就會颠蕴,一練就廢寡键,還是得多實(shí)踐哇藕畔!
進(jìn)入正題啦:
1.導(dǎo)庫
2. 導(dǎo)入數(shù)據(jù)
2.1基礎(chǔ)信息查看
df_train.head()
df_test.head()
2.2數(shù)據(jù)信息查看
通過 .info() 簡要可以看到對應(yīng)一些數(shù)據(jù)列名,以及NAN缺失信息
df_train.info()
df_train.isnull().sum() 查看缺失值
2.3通過 .describe() 可以查看數(shù)值特征列的一些統(tǒng)計(jì)信息
3.特征和標(biāo)簽構(gòu)建
3.1提取數(shù)值類型特征列名
做數(shù)據(jù)分析時(shí)袜茧,需要對特征進(jìn)行歸類–類別型還是數(shù)值型DataFrame.select_dtypes(include=None, exclude=None);include, exclude:包括/排除的dtypes或字符串的選擇裳凸。
數(shù)值型特征: 包括int64,float64;類別型特征object;布爾型特征(bool);
3.2構(gòu)建訓(xùn)練和測試樣本
4.模型訓(xùn)練和預(yù)測
訓(xùn)練結(jié)果: