背景
數(shù)據(jù)的合并與關(guān)聯(lián)是數(shù)據(jù)處理過程中經(jīng)常遇到的問題最岗,在SQL、HQL中大家可能都有用到 join、uion all 等 包雀,在 Pandas 中也有同樣的功能,來滿足數(shù)據(jù)處理需求亲铡,個(gè)人感覺Pandas 處理數(shù)據(jù)還是非常方便才写,數(shù)據(jù)處理效率比較高葡兑,能滿足不同的業(yè)務(wù)需求
本篇文章主要介紹 Pandas 中的數(shù)據(jù)拼接與關(guān)聯(lián)
數(shù)據(jù)拼接---pd.concat
concat 是pandas級的函數(shù),用來拼接或合并數(shù)據(jù)赞草,其根據(jù)不同的軸既可以橫向拼接讹堤,又可以縱向拼接
函數(shù)參數(shù)
pd.concat(
objs: 'Iterable[NDFrame] | Mapping[Hashable, NDFrame]',
axis=0,
join='outer',
ignore_index: 'bool' = False,
keys=None,
levels=None,
names=None,
verify_integrity: 'bool' = False,
sort: 'bool' = False,
copy: 'bool' = True,
) -> 'FrameOrSeriesUnion'
-
objs
:合并的數(shù)據(jù)集,一般用列表傳入房资,例如:[df1,df2,df3] -
axis
:指定數(shù)據(jù)拼接時(shí)的軸蜕劝,0是行,在行方向上拼接轰异;1是列岖沛,在列方向上拼接 -
join
:拼接的方式有 inner,或者outer搭独,與sql中的意思一樣
以上三個(gè)參數(shù)在實(shí)際工作中經(jīng)常使用婴削,其他參數(shù)不再做介紹
案例:
-
橫向拼接
字段相同的列進(jìn)行堆疊,字段不同的列分列存放牙肝,缺失值用NAN
來填充唉俗,下面對模擬數(shù)據(jù)進(jìn)行變換用相同的字段,進(jìn)行演示
-
縱向拼接
可以看出在縱向拼接的時(shí)候配椭,會(huì)按索引進(jìn)行關(guān)聯(lián)虫溜,使相同名字的成績放在一起,而不是簡單的堆疊
數(shù)據(jù)關(guān)聯(lián)---pd.merge
數(shù)據(jù)聯(lián)接股缸,與SQL中的join基本一樣衡楞,用來關(guān)聯(lián)不同的數(shù)據(jù)表,有左表敦姻、右表的區(qū)分瘾境,可以指定關(guān)聯(lián)的字段
函數(shù)參數(shù)
pd.merge(
left: 'DataFrame | Series',
right: 'DataFrame | Series',
how: 'str' = 'inner',
on: 'IndexLabel | None' = None,
left_on: 'IndexLabel | None' = None,
right_on: 'IndexLabel | None' = None,
left_index: 'bool' = False,
right_index: 'bool' = False,
sort: 'bool' = False,
suffixes: 'Suffixes' = ('_x', '_y'),
copy: 'bool' = True,
indicator: 'bool' = False,
validate: 'str | None' = None,
) -> 'DataFrame'
-
left
:左表 -
right
:右表 -
how
:關(guān)聯(lián)的方式,{'left', 'right', 'outer', 'inner', 'cross'}, 默認(rèn)關(guān)聯(lián)方式為 'inner' -
on
:關(guān)聯(lián)時(shí)指定的字段镰惦,兩個(gè)表共有的 -
left_on
:關(guān)聯(lián)時(shí)用到左表中的字段迷守,在兩個(gè)表不共有關(guān)聯(lián)字段時(shí)使用 -
right_on
:關(guān)聯(lián)時(shí)用到右表中的字段,在兩個(gè)表不共有關(guān)聯(lián)字段時(shí)使用
以上參數(shù)在實(shí)際工作中經(jīng)常使用旺入,其他參數(shù)不再做介紹
案例:
merge 的使用與SQL中的 join 很像兑凿,使用方式基本一致,既有內(nèi)連接茵瘾,也有外連接急膀,用起來基本沒有什么難度
兩者區(qū)別
- concat 只是 pandas 下的方法,而 merge 即是 pandas 下的方法龄捡,又是DataFrame 下的方法
- concat 可以橫向卓嫂、縱向拼接,又起到關(guān)聯(lián)的作用
- merge 只能進(jìn)行關(guān)聯(lián)聘殖,也就是縱向拼接
- concat 可以同時(shí)處理多個(gè)數(shù)據(jù)框DataFrame晨雳,而 merge 只能同時(shí)處理 2 個(gè)數(shù)據(jù)框
歷史相關(guān)文章
- 像excel透視表一樣使用pandas透視函數(shù)
- Python pandas 數(shù)據(jù)篩選與賦值升級版詳解
- Python pandas數(shù)據(jù)分列行瑞,分割符號(hào)&固定寬度
以上是自己實(shí)踐中遇到的一些問題,分享出來供大家參考學(xué)習(xí)餐禁,歡迎關(guān)注微信公眾號(hào):DataShare 血久,不定期分享干貨