Pandas的Merge實現(xiàn)

Pandas怎樣實現(xiàn)DataFrame的Merge

Pandas的Merge狐粱，相當(dāng)于Sql的Join施禾，將不同的表按key關(guān)聯(lián)到一個表

merge的語法：

pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None,
left_index=False, right_index=False, sort=True,
suffixes=('_x', '_y'), copy=True, indicator=False,
validate=None)

left，right：要merge的dataframe或者有name的Series
how：join類型车海，'left', 'right', 'outer', 'inner'
on：join的key赶么，left和right都需要有這個key
left_on：left的df或者series的key
right_on：right的df或者seires的key
left_index，right_index：使用index而不是普通的column做join
suffixes：兩個元素的后綴替久，如果列有重名凉泄，自動添加后綴，默認(rèn)是('_x', '_y')

文檔地址：https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html

本章終點

電影數(shù)據(jù)集的join實例
理解merge時一對一蚯根、一對多后众、多對多的數(shù)量對齊關(guān)系
理解left join、right join颅拦、inner join蒂誉、outer join的區(qū)別
如果出現(xiàn)非Key的字段重名怎么辦

一、電影數(shù)據(jù)集的join實例

import pandas as pd
df_ratings = pd.read_csv(
    r"D:\node\nd\Pandas_study\pandas_test\ratings.dat",
    sep="::",
    engine='python',
    names="UserID::MovieID::Rating::Timestamp".split("::")
)

ratings = df_ratings.head()
print(ratings)

df_users = pd.read_csv(
    r"D:\node\nd\Pandas_study\pandas_test\users.dat",
    sep="::",
    engine='python',
    names="UserID::Gender::Age::Occupation::Zip-code".split("::")
)

users = df_users.head()
print(users)
df_movies = pd.read_csv(
    r"D:\node\nd\Pandas_study\pandas_test\movies.dat",
    sep="::",
    engine='python',
    names="MovieID::Title::Genres".split("::")
)

movies = df_movies.head()
print(movies)

運行結(jié)果

1.評分?jǐn)?shù)據(jù)和用戶數(shù)據(jù)進(jìn)行關(guān)聯(lián)

df_ratings_user = pd.merge(
    df_ratings,df_users,left_on="UserID",right_on="UserID",how = "inner"
)
print(df_ratings_user.head())

image.png

2距帅、df_ratings_user形成的新表和電影表關(guān)聯(lián)

df_ratings_user_movie = pd.merge(
    df_ratings_user,df_movies,left_on="MovieID",right_on="MovieID",how="inner"
)

image.png

二右锨、解merge時一對一、一對多碌秸、多對多的數(shù)量對齊關(guān)系

以下關(guān)系要正確理解：

one-to-one：一對一關(guān)系绍移，關(guān)聯(lián)的key都是唯一的
- 比如(學(xué)號，姓名) merge (學(xué)號讥电，年齡)
- 結(jié)果條數(shù)為：1*1
  
  image.png

left = pd.DataFrame({'sno': [11, 12, 13, 14],
                      'name': ['name_a', 'name_b', 'name_c', 'name_d']
                    })
print(left)
right = pd.DataFrame({'sno': [11, 12, 13, 14],
                      'age': ['21', '22', '23', '24']
                    })
print(right)
a = pd.merge(
    left,right,on="sno"
)

print(a)

image.png

one-to-many：一對多關(guān)系蹂窖，左邊唯一key，右邊不唯一key
- 比如(學(xué)號恩敌，姓名) merge (學(xué)號瞬测，[語文成績、數(shù)學(xué)成績、英語成績])
- 結(jié)果條數(shù)為：1*N
  
  image.png

left = pd.DataFrame({'sno': [11, 12, 13, 14],
                      'name': ['name_a', 'name_b', 'name_c', 'name_d']
                    })
print(left)

right = pd.DataFrame({'sno': [11, 11, 11, 12, 12, 13],
                       'grade': ['語文88', '數(shù)學(xué)90', '英語75','語文66', '數(shù)學(xué)55', '英語29']
                     })
print(right)
a = pd.merge(
    left,right,on="sno"
)
print(a)

數(shù)量以多的一邊為準(zhǔn)

many-to-many：多對多關(guān)系月趟，左邊右邊都不是唯一的
- 比如（學(xué)號灯蝴，[語文成績、數(shù)學(xué)成績孝宗、英語成績]） merge (學(xué)號绽乔，[籃球、足球碳褒、乒乓球])
- 結(jié)果條數(shù)為：M*N
  
  image.png

left = pd.DataFrame({'sno': [11, 11, 12, 12,12],
                      '愛好': ['籃球', '羽毛球', '乒乓球', '籃球', "足球"]
                    })
print(left)
right = pd.DataFrame({'sno': [11, 11, 11, 12, 12, 13],
                       'grade': ['語文88', '數(shù)學(xué)90', '英語75','語文66', '數(shù)學(xué)55', '英語29']
                     })
print(right)
a = pd.merge(
    left,right,on="sno"
)
print(a)

image.png

三、理解left join看疗、right join沙峻、inner join、outer join的區(qū)別

圖解

3-1 inner join 默認(rèn)

left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                      'A': ['A0', 'A1', 'A2', 'A3'],
                      'B': ['B0', 'B1', 'B2', 'B3']})
print(left)
right = pd.DataFrame({'key': ['K0', 'K1', 'K4', 'K5'],
                      'C': ['C0', 'C1', 'C4', 'C5'],
                      'D': ['D0', 'D1', 'D4', 'D5']})

print(right)
a = pd.merge(
    left,right,how="inner"
)
print(a)

inner join

3-2 left join 左邊都會出現(xiàn)在結(jié)果里两芳，右邊的如果無法匹配則為null

b = pd.merge(
    left,right,how="left"
)
print(b)

left join

3-3 right join右邊都會出現(xiàn)在結(jié)果里摔寨，左邊的如果無法匹配則為null

c = pd.merge(
    left,right,how="right"
)
print(c)

right join

3-5 outer join 左邊、右邊都會出現(xiàn)在結(jié)果里怖辆，如果無法匹配則為null

d = pd.merge(
    left,right,how="outer"
)
print(d)

outer join

四是复、如果出現(xiàn)非Key的字段重名怎么辦

left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                      'A': ['A0', 'A1', 'A2', 'A3'],
                      'B': ['B0', 'B1', 'B2', 'B3']})

right = pd.DataFrame({'key': ['K0', 'K1', 'K4', 'K5'],
                      'A': ['A10', 'A11', 'A12', 'A13'],
                      'D': ['D0', 'D1', 'D4', 'D5']})
print(left)
print(right)
a = pd.merge(
    left,right,on="key"
)
print(a)

b = pd.merge(
    #suffixes指定相同參數(shù)的后綴
    left,right,on="key",suffixes=("_left","_right")
)
print(b)

運行結(jié)果

最后編輯于：2021.07.20 23:07:31

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市竖螃，隨后出現(xiàn)的幾起案子淑廊，更是在濱河造成了極大的恐慌，老刑警劉巖特咆，帶你破解...
沈念sama閱讀 216,692評論 6贊 501
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件季惩，死亡現(xiàn)場離奇詭異，居然都是意外死亡腻格，警方通過查閱死者的電腦和手機画拾，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,482評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來菜职，“玉大人青抛，你說我怎么就攤上這事〕旰耍” “怎么了蜜另？”我有些...
開封第一講書人閱讀 162,995評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長愁茁。經(jīng)常有香客問我蚕钦，道長，這世上最難降的妖魔是什么鹅很？我笑而不...
開封第一講書人閱讀 58,223評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任嘶居，我火速辦了婚禮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘邮屁。我一直安慰自己整袁，他們只是感情好，可當(dāng)我...
茶點故事閱讀 67,245評論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布佑吝。她就那樣靜靜地躺著坐昙，像睡著了一般。火紅的嫁衣襯著肌膚如雪芋忿。梳的紋絲不亂的頭發(fā)上炸客，一...
開封第一講書人閱讀 51,208評論 1贊 299
城市分裂傳說
那天，我揣著相機與錄音戈钢，去河邊找鬼痹仙。笑死，一個胖子當(dāng)著我的面吹牛殉了，可吹牛的內(nèi)容都是我干的开仰。我是一名探鬼主播，決...
沈念sama閱讀 40,091評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼薪铜，長吁一口氣：“原來是場噩夢啊……” “哼众弓！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起隔箍，我...
開封第一講書人閱讀 38,929評論 0贊 274
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤谓娃，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后蜒滩，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體傻粘，經(jīng)...
沈念sama閱讀 45,346評論 1贊 311
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,570評論 2贊 333
?白月光啟示錄
正文我和宋清朗相戀三年帮掉，在試婚紗的時候發(fā)現(xiàn)自己被綠了弦悉。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 39,739評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡蟆炊，死狀恐怖稽莉，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情涩搓，我是刑警寧澤污秆，帶...
沈念sama閱讀 35,437評論 5贊 344
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站昧甘，受9級特大地震影響良拼，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜充边，卻給世界環(huán)境...
茶點故事閱讀 41,037評論 3贊 326
男人毒藥：我在死后第九天來索命
文/蒙蒙一庸推、第九天我趴在偏房一處隱蔽的房頂上張望常侦。院中可真熱鬧，春花似錦贬媒、人聲如沸聋亡。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,677評論 0贊 22
一樁弒父案际乘，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽坡倔。三九已至，卻和暖如春脖含，著一層夾襖步出監(jiān)牢的瞬間罪塔，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,833評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工养葵，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留垢袱，地道東北人。一個月前我還...
沈念sama閱讀 47,760評論 2贊 369
代替公主和親
正文我出身青樓港柜，卻偏偏與公主長得像，于是被迫代替她去往敵國和親咳榜。傳聞我的和親對象是個殘疾皇子夏醉，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 44,647評論 2贊 354

Pandas的Merge實現(xiàn)

Pandas怎樣實現(xiàn)DataFrame的Merge

merge的語法：

本章終點

一、電影數(shù)據(jù)集的join實例

1.評分?jǐn)?shù)據(jù)和用戶數(shù)據(jù)進(jìn)行關(guān)聯(lián)

2距帅、df_ratings_user形成的新表和電影表關(guān)聯(lián)

二右锨、解merge時一對一、一對多碌秸、多對多的數(shù)量對齊關(guān)系

三、理解left join看疗、right join沙峻、inner join、outer join的區(qū)別

3-1 inner join 默認(rèn)

3-2 left join 左邊都會出現(xiàn)在結(jié)果里两芳，右邊的如果無法匹配則為null

3-3 right join右邊都會出現(xiàn)在結(jié)果里摔寨，左邊的如果無法匹配則為null

3-5 outer join 左邊、右邊都會出現(xiàn)在結(jié)果里怖辆，如果無法匹配則為null

四是复、如果出現(xiàn)非Key的字段重名怎么辦

推薦閱讀更多精彩內(nèi)容