1. duplicated() 和 drop_duplicated()
duplicated() 檢測(cè)重復(fù)值,drop_duplicated() 去掉重復(fù)值死嗦。
1.1 查看重復(fù)值的比
(1)所有列重復(fù)為重復(fù)
df.duplicated() 的結(jié)果為TRUEor False,進(jìn)行均值得到重復(fù)值的比。比例很大牡辽,說明共線性很大喳篇。
(2)指定列重復(fù)才作為重復(fù),參數(shù)subset
(3)指定第一個(gè)還是最后一個(gè)不為重復(fù)值
first,last, 為first, 第一個(gè)保留态辛,其他作為重復(fù)值麸澜。
通過df.loc 得到重復(fù)行的索引