1. 導(dǎo)入數(shù)據(jù)
加載數(shù)據(jù)集的方式有很多種斋陪,從數(shù)據(jù)庫中加載无虚,從文件中加載
names = ['preg','plas','pres','skin','test','mass','pedi','age','class']
df = pd.read_csv('data/pima-indians-diabetes.csv' , names=names)
這里涉及函數(shù):read_csv
加載數(shù)據(jù)集的時(shí)候骑科,我們需要知道,數(shù)據(jù)集的內(nèi)容构拳,分割符號等咆爽,如果是文件的話,可以先打開看一看置森。
2. 理解數(shù)據(jù)
-
查看下數(shù)據(jù)的具體內(nèi)容:
df.head()
-
查看數(shù)據(jù)集的概要描述:
df.describe()
-
查看數(shù)據(jù)集的大卸饭 :
df.shape
-
查看字段的類型:
df.dtypes
3. 數(shù)據(jù)屬性的相關(guān)性
數(shù)據(jù)屬性的相關(guān)性,是指數(shù)據(jù)的兩個(gè)屬性是否相互影響 凫海,以及這種影響是什么方式的等
判斷屬性的相關(guān)性呛凶,會用到皮爾遜相關(guān)系數(shù),相關(guān)系數(shù)行贪,介于-1和1之間漾稀,1表示完全正相關(guān),-1表示完全負(fù)相關(guān)建瘫。
在機(jī)器學(xué)習(xí)中殷蛇,當(dāng)數(shù)據(jù)的相關(guān)性比較高時(shí),有些算法的性能會降低(linear匀们、邏輯回歸算法)宴猾,當(dāng)相關(guān)性較高時(shí),可以考慮對特征進(jìn)行降維處理
df.corr()
4. 數(shù)據(jù)的分布
通過分析數(shù)據(jù)的分布,來確認(rèn)數(shù)據(jù)的偏離情況,這里有一個(gè)概念叫偏度
偏度(skewness)也稱為偏態(tài)由捎、偏態(tài)系數(shù),是統(tǒng)計(jì)數(shù)據(jù)分布偏斜方向和程度的度量,是統(tǒng)計(jì)數(shù)據(jù)分布非對稱程度的數(shù)字特征
正太分布的偏度為0;
偏度<0固该,則分布具有負(fù)偏離,即左偏(尾巴在左面)著淆;
偏度>0,則分布具有正偏離苔埋,即右偏(尾巴在右面)
pandas中,使用skew()
函數(shù)即可