2.1缺失值觀察與處理
2.1.1 任務(wù)一:缺失值觀察
pandas里邊查找NaN值的話,可以是.isna(),也可以是.isnull()
- isna的意思是判斷是不是 not a number臣咖,主要是數(shù)值字段隔节;
- isnull的意思是判斷是否為空值
- 1)
df.isna().sum() 查看空值信息
df.isnull().sum() 查看空值信息
df.info() 查看數(shù)據(jù)信息 - 2)
df[['Age','Cabin','Embarked']]
pd.DataFrame(df,columns=['Age','Cabin','Embarked'])
df.loc[:,['Age','Cabin','Embarked']]
df.iloc[:,[5,10,11]] - loc只能通過index和columns來取陷寝,不能用數(shù)字; iloc只能用數(shù)字索引京景,不能用索引名
2.1.2 任務(wù)二:對(duì)缺失值進(jìn)行處理
- 處理缺失值的思路一般是用dropna函數(shù)與fillna函數(shù)
- 請(qǐng)嘗試對(duì)Age列的數(shù)據(jù)的缺失值進(jìn)行處理
- age_nan=df[df['Age'].isnull()].index
df.loc[age_nan,'Age']=0
df
處理age列的缺失值賦值為0 - df[df['Age'].isnull()]=0
df[df['Age'] == np.nan] = 0
df[df['Age']==None]=0
處理age列的缺失值整行賦值為0
- 直接對(duì)整張表的缺失值進(jìn)行處理
df.dropna() 默認(rèn)axis=0,表示刪除包含缺失值的行
axis=0 行赵抢,axis=1列
how{‘a(chǎn)ny’, ‘a(chǎn)ll’}剧蹂,默認(rèn)‘a(chǎn)ny’; 當(dāng)我們至少有一個(gè) NA 或所有 NA 時(shí)烦却,確定是否從 DataFrame 中刪除了行或列宠叼。
‘a(chǎn)ny’:如果存在任何 NA 值,則刪除該行或列其爵。
‘a(chǎn)ll’:如果所有值都是 NA冒冬,則刪除該行或列。
thresh: axis中至少有thresh個(gè)非缺失值摩渺,否則刪除简烤。
subset:在某些列的子集中選擇出現(xiàn)了缺失值的列刪除,不在子集中的含有缺失值得列或行不會(huì)刪除
inplace:刷選過缺失值得新數(shù)據(jù)是存為副本還是直接在原數(shù)據(jù)上進(jìn)行修改摇幻。默認(rèn)是False横侦,即創(chuàng)建新的對(duì)象進(jìn)行修改挥萌;如果是true,執(zhí)行操作并返回 None枉侧。
指定刪除某個(gè)分組(可以理解成哪幾列或那幾個(gè)標(biāo)簽)中的含有缺失值的行或列 df.dropna(subset=['Pclass','Parch','Embarked'])-
df.fillna(0) 用數(shù)字0填充缺失值
df.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs) 表示填充缺失值
value: 需要用什么值去填充缺失值
axis: 確定填充維度引瀑,從行開始或是從列開始
method: 填充缺失值所用的方法。''ffill' 'backfill/bfil'
limit: 確定填充的個(gè)數(shù)榨馁,如果limit=2憨栽,則只填充兩個(gè)缺失值。 ffill:用缺失值前面的一個(gè)值代替缺失值
-
backfill/bfill:缺失值后面的一個(gè)值代替前面的缺失值
參考:
https://zhuanlan.zhihu.com/p/109366433
https://zhuanlan.zhihu.com/p/109434512
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.fillna.html
2.2 重復(fù)值觀察與處理
2.2.1 任務(wù)一:請(qǐng)查看數(shù)據(jù)中的重復(fù)值
df[df.duplicated()]
2.2.2 任務(wù)二:對(duì)重復(fù)值進(jìn)行處理
(1) 重復(fù)值有哪些處理方式呢翼虫?
- drop_duplicates函數(shù)用于刪除Series屑柔、DataFrame中重復(fù)記錄,并返回刪除重復(fù)后的結(jié)果
(2) 處理我們數(shù)據(jù)的重復(fù)值 - df.drop_duplicates()
2.2.3 任務(wù)三:將前面清洗的數(shù)據(jù)保存為csv格式
df.to_csv('./titanic/train_clear.csv')
2.3 特征觀察與處理
2.3.1 任務(wù)一:對(duì)年齡進(jìn)行分箱(離散化)處理
- 數(shù)據(jù)分箱是一種將多個(gè)連續(xù)值分組為較少數(shù)量的“分箱”的方法蛙讥,分箱的數(shù)據(jù)不一定必須是數(shù)字锯蛀,可以是文字,也可以是像素次慢;一般在建立分類模型時(shí),需要對(duì)連續(xù)變量離散化翔曲,特征離散化后迫像,模型會(huì)更穩(wěn)定,降低了模型過擬合的風(fēng)險(xiǎn);
對(duì)于精確的離散化瞳遍,相對(duì)類頻率在一個(gè)區(qū)間內(nèi)應(yīng)當(dāng)完全一致闻妓。因此,如果兩個(gè)相鄰的區(qū)間具有非常類似的類分布,則這兩個(gè)區(qū)間可以合并掠械;否則由缆,它們應(yīng)當(dāng)保持分開
- df['age_bin_1'] = pd.qcut(df['age'],3) #新增一列存儲(chǔ)等頻劃分的分箱特征(每個(gè)區(qū)間的樣本個(gè)數(shù)都是一樣)
df['age_bin_2'] = pd.cut(df['age'],3) #新增一列存儲(chǔ)等距劃分的分箱特征
將連續(xù)變量Age平均分箱成5個(gè)年齡段,并分別用類別變量12345表示
- df['Age_bin_1'] = pd.cut(df['Age'],5,labels=['1','2','3','4','5'])
將連續(xù)變量Age劃分為[0,5) [5,15) [15,30) [30,50) [50,80)五個(gè)年齡段猾蒂,并分別用類別變量12345表示
- df['Age_bin_2'] = pd.cut(df['Age'],[0,5,15,30,50,80],right = False, include_lowest = True,labels=['1','2','3','4','5'])
將連續(xù)變量Age按10% 30% 50 70% 90%五個(gè)年齡段均唉,并用分類變量12345表示
- df['Age_bin_3'] = pd.cut(df['Age'], [0.0,0.1,0.3,0.5,0.7,0.9], labels=['1','2','3','4','5'])
2.3.2 任務(wù)二:對(duì)文本變量進(jìn)行轉(zhuǎn)換
(1) 查看文本變量名及種類
- value_counts()
-
unique()
(2) 將文本變量Sex, Cabin 肚菠,Embarked用數(shù)值變量12345表示
- LabelEncoder是對(duì)不連續(xù)的數(shù)值或文本進(jìn)行編碼舔箭。
fit(y) :fit可看做一本空字典,y可看作要塞到字典中的詞蚊逢。
fit_transform(y):相當(dāng)于先進(jìn)行fit再進(jìn)行transform层扶,即把y塞到字典中去以后再進(jìn)行transform得到索引值。
inverse_transform(y):根據(jù)索引值y獲得原始數(shù)據(jù)烙荷。
transform(y) :將y轉(zhuǎn)變成索引值镜会。
(版權(quán)聲明:此處為CSDN博主「桂小林」的原創(chuàng)文章,遵循CC 4.0 BY-SA版權(quán)協(xié)議终抽,轉(zhuǎn)載請(qǐng)附上原文出處鏈接及本聲明戳表。 原文鏈接:https://blog.csdn.net/quintind/article/details/79850455)
參考:
https://blog.csdn.net/quintind/article/details/79850455
(3) 將文本變量Sex焰薄, Cabin, Embarked用one-hot編碼表示
One-Hot編碼是分類變量作為二進(jìn)制向量的表示扒袖。這首先要求將分類值映射到整數(shù)值塞茅。除了整數(shù)的索引之外,它都是零值季率,它被標(biāo)記為1野瘦。
one-hot編碼表示分類結(jié)果,表示1飒泻,那就是[1, 0, 0, 0, 0]鞭光,表示4,那就是[0, 0, 0, 1, 0]
參考:
https://zj-image-processing.readthedocs.io/zh_CN/latest/pytorch/one-hot%E7%BC%96%E7%A0%81/
2.3.3 任務(wù)三:從純文本Name特征里提取出Titles的特征(所謂的Titles就是Mr,Miss,Mrs等)
- 采用str.extract()函數(shù)可用正則從字符數(shù)據(jù)中抽取匹配的數(shù)據(jù)
- [A-Za-z]代表任一字母(大寫或小寫)
- 代表+號(hào)前的字符出現(xiàn)1次或多次
([A-Za-z]+). 是匹配 一個(gè)或多個(gè)字母并且以.結(jié)尾的所有字符串組合
- pat:具有捕獲組的正則表達(dá)式模式泞遗。
flags:int惰许,默認(rèn)值為0(無標(biāo)志)
expand:如果為True,則返回每個(gè)捕獲組只有一列的DataFrame
參考:https://www.cda.cn/discuss/post/details/5e848409e7f3136e853521bc
https://vimsky.com/examples/usage/python-pandas-series-str-extract.html