數(shù)據(jù)集:
import pandas as pd
import numpy as np
data=pd.read_csv('C:\\PDM\\train__UnB.csv',encoding='utf8')
備注:這里對數(shù)據(jù)文件進(jìn)行轉(zhuǎn)格式,原本的xls編碼失敗祥楣,所以只能嘗試轉(zhuǎn)為utf8可以轉(zhuǎn)的csv检访。
- 對數(shù)據(jù)進(jìn)行清洗
data= data.dropna()
- 對數(shù)據(jù)列進(jìn)行自變量因變量分割
inputData=data[[list(data.columns)[0:-1]]]
outputData=data[[list(data.columns)[-1]]]
- 導(dǎo)入模型(用回歸-邏輯回歸)
from sklearn import linear_model
- 進(jìn)行監(jiān)督學(xué)習(xí)
IrModel = linear_model.LogisticRegression()
IrModel.fit(inputData, outputData)
IrModel.score(inputData, outputData)
- 導(dǎo)入測試數(shù)據(jù)集
newData=pd.read_csv('C:\\PDM\\test__UnB.csv',encoding='utf8')
newData=newData.dropna()
- 數(shù)據(jù)切片自變量
inputnewData = newData[[list(data.columns)[0:-1]]]
- 預(yù)測
IrModel.predict(inputnewData)
這里是二進(jìn)制數(shù)據(jù)列例隆,index與inputnewData相同弥搞。