2021-06-17 第二章:數(shù)據(jù)清洗及特征處理

2.1缺失值觀察與處理

2.1.1 任務(wù)一:缺失值觀察
pandas里邊查找NaN值的話,可以是.isna(),也可以是.isnull()

  • isna的意思是判斷是不是 not a number臣咖,主要是數(shù)值字段隔节;
  • isnull的意思是判斷是否為空值
  • 1)
    df.isna().sum() 查看空值信息
    df.isnull().sum() 查看空值信息
    df.info() 查看數(shù)據(jù)信息
  • 2)
    df[['Age','Cabin','Embarked']]
    pd.DataFrame(df,columns=['Age','Cabin','Embarked'])
    df.loc[:,['Age','Cabin','Embarked']]
    df.iloc[:,[5,10,11]]
  • loc只能通過index和columns來取陷寝,不能用數(shù)字; iloc只能用數(shù)字索引京景,不能用索引名

2.1.2 任務(wù)二:對(duì)缺失值進(jìn)行處理

  1. 處理缺失值的思路一般是用dropna函數(shù)與fillna函數(shù)
  2. 請(qǐng)嘗試對(duì)Age列的數(shù)據(jù)的缺失值進(jìn)行處理
  • age_nan=df[df['Age'].isnull()].index
    df.loc[age_nan,'Age']=0
    df
    處理age列的缺失值賦值為0
  • df[df['Age'].isnull()]=0
    df[df['Age'] == np.nan] = 0
    df[df['Age']==None]=0
    處理age列的缺失值整行賦值為0
  1. 直接對(duì)整張表的缺失值進(jìn)行處理
  • df.dropna() 默認(rèn)axis=0,表示刪除包含缺失值的行
    axis=0 行赵抢,axis=1列
    how{‘a(chǎn)ny’, ‘a(chǎn)ll’}剧蹂,默認(rèn)‘a(chǎn)ny’; 當(dāng)我們至少有一個(gè) NA 或所有 NA 時(shí)烦却,確定是否從 DataFrame 中刪除了行或列宠叼。
    ‘a(chǎn)ny’:如果存在任何 NA 值,則刪除該行或列其爵。
    ‘a(chǎn)ll’:如果所有值都是 NA冒冬,則刪除該行或列。
    thresh: axis中至少有thresh個(gè)非缺失值摩渺,否則刪除简烤。
    subset:在某些列的子集中選擇出現(xiàn)了缺失值的列刪除,不在子集中的含有缺失值得列或行不會(huì)刪除
    inplace:刷選過缺失值得新數(shù)據(jù)是存為副本還是直接在原數(shù)據(jù)上進(jìn)行修改摇幻。默認(rèn)是False横侦,即創(chuàng)建新的對(duì)象進(jìn)行修改挥萌;如果是true,執(zhí)行操作并返回 None枉侧。
    指定刪除某個(gè)分組(可以理解成哪幾列或那幾個(gè)標(biāo)簽)中的含有缺失值的行或列 df.dropna(subset=['Pclass','Parch','Embarked'])

  • df.fillna(0) 用數(shù)字0填充缺失值

    截屏2021-06-16 11.49.17.png

    df.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs) 表示填充缺失值
    value: 需要用什么值去填充缺失值
    axis: 確定填充維度引瀑,從行開始或是從列開始
    method: 填充缺失值所用的方法。''ffill' 'backfill/bfil'
    limit: 確定填充的個(gè)數(shù)榨馁,如果limit=2憨栽,則只填充兩個(gè)缺失值。

  • ffill:用缺失值前面的一個(gè)值代替缺失值

  • backfill/bfill:缺失值后面的一個(gè)值代替前面的缺失值


    截屏2021-06-16 12.22.26.png

參考:
https://zhuanlan.zhihu.com/p/109366433
https://zhuanlan.zhihu.com/p/109434512
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.fillna.html

2.2 重復(fù)值觀察與處理

2.2.1 任務(wù)一:請(qǐng)查看數(shù)據(jù)中的重復(fù)值
df[df.duplicated()]

2.2.2 任務(wù)二:對(duì)重復(fù)值進(jìn)行處理
(1) 重復(fù)值有哪些處理方式呢翼虫?

  • drop_duplicates函數(shù)用于刪除Series屑柔、DataFrame中重復(fù)記錄,并返回刪除重復(fù)后的結(jié)果
    (2) 處理我們數(shù)據(jù)的重復(fù)值
  • df.drop_duplicates()

2.2.3 任務(wù)三:將前面清洗的數(shù)據(jù)保存為csv格式
df.to_csv('./titanic/train_clear.csv')

2.3 特征觀察與處理

2.3.1 任務(wù)一:對(duì)年齡進(jìn)行分箱(離散化)處理

  1. 數(shù)據(jù)分箱是一種將多個(gè)連續(xù)值分組為較少數(shù)量的“分箱”的方法蛙讥,分箱的數(shù)據(jù)不一定必須是數(shù)字锯蛀,可以是文字,也可以是像素次慢;一般在建立分類模型時(shí),需要對(duì)連續(xù)變量離散化翔曲,特征離散化后迫像,模型會(huì)更穩(wěn)定,降低了模型過擬合的風(fēng)險(xiǎn);
    對(duì)于精確的離散化瞳遍,相對(duì)類頻率在一個(gè)區(qū)間內(nèi)應(yīng)當(dāng)完全一致闻妓。因此,如果兩個(gè)相鄰的區(qū)間具有非常類似的類分布,則這兩個(gè)區(qū)間可以合并掠械;否則由缆,它們應(yīng)當(dāng)保持分開
  • df['age_bin_1'] = pd.qcut(df['age'],3) #新增一列存儲(chǔ)等頻劃分的分箱特征(每個(gè)區(qū)間的樣本個(gè)數(shù)都是一樣)
    df['age_bin_2'] = pd.cut(df['age'],3) #新增一列存儲(chǔ)等距劃分的分箱特征

將連續(xù)變量Age平均分箱成5個(gè)年齡段,并分別用類別變量12345表示

  • df['Age_bin_1'] = pd.cut(df['Age'],5,labels=['1','2','3','4','5'])

將連續(xù)變量Age劃分為[0,5) [5,15) [15,30) [30,50) [50,80)五個(gè)年齡段猾蒂,并分別用類別變量12345表示

  • df['Age_bin_2'] = pd.cut(df['Age'],[0,5,15,30,50,80],right = False, include_lowest = True,labels=['1','2','3','4','5'])

將連續(xù)變量Age按10% 30% 50 70% 90%五個(gè)年齡段均唉,并用分類變量12345表示

  • df['Age_bin_3'] = pd.cut(df['Age'], [0.0,0.1,0.3,0.5,0.7,0.9], labels=['1','2','3','4','5'])

2.3.2 任務(wù)二:對(duì)文本變量進(jìn)行轉(zhuǎn)換
(1) 查看文本變量名及種類

  • value_counts()
  • unique()


    截屏2021-06-16 21.21.13.png

(2) 將文本變量Sex, Cabin 肚菠,Embarked用數(shù)值變量12345表示

  • LabelEncoder是對(duì)不連續(xù)的數(shù)值或文本進(jìn)行編碼舔箭。
    fit(y) :fit可看做一本空字典,y可看作要塞到字典中的詞蚊逢。
    fit_transform(y):相當(dāng)于先進(jìn)行fit再進(jìn)行transform层扶,即把y塞到字典中去以后再進(jìn)行transform得到索引值。
    inverse_transform(y):根據(jù)索引值y獲得原始數(shù)據(jù)烙荷。
    transform(y) :將y轉(zhuǎn)變成索引值镜会。
    (版權(quán)聲明:此處為CSDN博主「桂小林」的原創(chuàng)文章,遵循CC 4.0 BY-SA版權(quán)協(xié)議终抽,轉(zhuǎn)載請(qǐng)附上原文出處鏈接及本聲明戳表。 原文鏈接:https://blog.csdn.net/quintind/article/details/79850455)

截屏2021-06-17 14.04.37.png

參考:
https://blog.csdn.net/quintind/article/details/79850455

(3) 將文本變量Sex焰薄, Cabin, Embarked用one-hot編碼表示
One-Hot編碼是分類變量作為二進(jìn)制向量的表示扒袖。這首先要求將分類值映射到整數(shù)值塞茅。除了整數(shù)的索引之外,它都是零值季率,它被標(biāo)記為1野瘦。
one-hot編碼表示分類結(jié)果,表示1飒泻,那就是[1, 0, 0, 0, 0]鞭光,表示4,那就是[0, 0, 0, 1, 0]
參考:
https://zj-image-processing.readthedocs.io/zh_CN/latest/pytorch/one-hot%E7%BC%96%E7%A0%81/

2.3.3 任務(wù)三:從純文本Name特征里提取出Titles的特征(所謂的Titles就是Mr,Miss,Mrs等)

  • 采用str.extract()函數(shù)可用正則從字符數(shù)據(jù)中抽取匹配的數(shù)據(jù)
  • [A-Za-z]代表任一字母(大寫或小寫)
  • 代表+號(hào)前的字符出現(xiàn)1次或多次
    ([A-Za-z]+). 是匹配 一個(gè)或多個(gè)字母并且以.結(jié)尾的所有字符串組合
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末史辙,一起剝皮案震驚了整個(gè)濱河市汹买,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌聊倔,老刑警劉巖晦毙,帶你破解...
    沈念sama閱讀 210,914評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異耙蔑,居然都是意外死亡见妒,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,935評(píng)論 2 383
  • 文/潘曉璐 我一進(jìn)店門甸陌,熙熙樓的掌柜王于貴愁眉苦臉地迎上來须揣,“玉大人,你說我怎么就攤上這事钱豁〕芸ǎ” “怎么了?”我有些...
    開封第一講書人閱讀 156,531評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵寥院,是天一觀的道長(zhǎng)劲赠。 經(jīng)常有香客問我,道長(zhǎng)秸谢,這世上最難降的妖魔是什么凛澎? 我笑而不...
    開封第一講書人閱讀 56,309評(píng)論 1 282
  • 正文 為了忘掉前任,我火速辦了婚禮估蹄,結(jié)果婚禮上塑煎,老公的妹妹穿的比我還像新娘。我一直安慰自己臭蚁,他們只是感情好最铁,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,381評(píng)論 5 384
  • 文/花漫 我一把揭開白布讯赏。 她就那樣靜靜地躺著,像睡著了一般冷尉。 火紅的嫁衣襯著肌膚如雪漱挎。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,730評(píng)論 1 289
  • 那天雀哨,我揣著相機(jī)與錄音磕谅,去河邊找鬼。 笑死雾棺,一個(gè)胖子當(dāng)著我的面吹牛膊夹,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播捌浩,決...
    沈念sama閱讀 38,882評(píng)論 3 404
  • 文/蒼蘭香墨 我猛地睜開眼放刨,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了尸饺?” 一聲冷哼從身側(cè)響起进统,我...
    開封第一講書人閱讀 37,643評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎侵佃,沒想到半個(gè)月后麻昼,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,095評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡馋辈,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,448評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了倍谜。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片迈螟。...
    茶點(diǎn)故事閱讀 38,566評(píng)論 1 339
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖尔崔,靈堂內(nèi)的尸體忽然破棺而出答毫,到底是詐尸還是另有隱情,我是刑警寧澤季春,帶...
    沈念sama閱讀 34,253評(píng)論 4 328
  • 正文 年R本政府宣布洗搂,位于F島的核電站,受9級(jí)特大地震影響载弄,放射性物質(zhì)發(fā)生泄漏耘拇。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,829評(píng)論 3 312
  • 文/蒙蒙 一宇攻、第九天 我趴在偏房一處隱蔽的房頂上張望惫叛。 院中可真熱鬧,春花似錦逞刷、人聲如沸嘉涌。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,715評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽仑最。三九已至扔役,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間警医,已是汗流浹背亿胸。 一陣腳步聲響...
    開封第一講書人閱讀 31,945評(píng)論 1 264
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留法严,地道東北人损敷。 一個(gè)月前我還...
    沈念sama閱讀 46,248評(píng)論 2 360
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像深啤,于是被迫代替她去往敵國(guó)和親拗馒。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,440評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容