在使用Excel時艾凯,我用的最多函數(shù)就是vlookup;在使用SQL查詢的時候懂傀,我用的最多應(yīng)該是join趾诗;這兩個都有相同的功能,將多表匹配蹬蚁、合并恃泪,然后達(dá)到對比、查漏等等效果犀斋。在pandas里面也有類似的功能函數(shù)就是pd.merge()(pd是指 導(dǎo)入的pandas庫)贝乎。merge的用法跟SQL中join很像。
使用merge進(jìn)行合并:
基本的結(jié)構(gòu)為:pd.merge(df1叽粹,df2览效,合并方式,df1合并用的鍵虫几,df2合并用的鍵)锤灿。
后面兩個參數(shù)在合并的時候兩個表格使用的鍵的列名是一樣的時候可以改成on='title':
結(jié)果和第一種方式是一樣的。
使用合并的時候pandas會默認(rèn)只選取一個相同的鍵列名持钉,然后其它的數(shù)據(jù)進(jìn)行合并衡招。
注意到兩張表格中有一個location_road是共同具有的一個列,因此合并之后兩個表格的location_road列分別加上了_x和_y的后綴以便區(qū)分每强,這兩個后綴也可以修改的(使用suffixes函數(shù)進(jìn)行修改):
merge函數(shù)還可以只取其中的某幾列數(shù)據(jù)進(jìn)行合并:
選擇某幾列的時候需要注意的是如果使用on參數(shù)始腾,那么此參數(shù)指定的值兩個表格都要有州刽;還有一個非常重要的就是選擇多列的時候使用的是兩個中括號。
使用merge合并方式有left, inner, right浪箭,outer穗椅,通過how參數(shù)來指定。
how = 'inner'表示的是只合并兩個表格都具有的行奶栖;
how = 'left'表示的是合并之后顯示的是第一個表格里的所有行匹表;
how = 'right'表示的是合并之后顯示的是第二個表格里所有的行;
細(xì)心的人肯定會發(fā)現(xiàn)了宣鄙,為什么使用how = 'right'合并之后的行數(shù)不是等于第二個表的行數(shù)呢袍镀?這是因為在第一個表的title列中有一個重復(fù)值被計算進(jìn)去了,所有多了一行(關(guān)于重復(fù)值的去除方法可以參考duplicated那篇的內(nèi)容)冻晤。
how = 'outer'表示的是兩個表格里所有的行都進(jìn)行合并苇羡。
在使用left,right鼻弧,outer的時候會產(chǎn)生空值设江,只要在語句的后面加.fillna(o)就可以填充空值了。
這也是pandas很方便的一個特點(diǎn):多個函數(shù)可以連在一起使用攘轩,只要用點(diǎn)連接起來就可以了叉存。
如果合并的時候要用索引作為鍵的話就不能用on,left_on和right_on了度帮,而是要使用left_index=True, right_index=True(也就是以索引為標(biāo)準(zhǔn)來進(jìn)行表聯(lián)結(jié)歼捏,而不是兩個表共同擁有的列)。
因為是以索引作為聯(lián)結(jié)的笨篷,所以title不是對應(yīng)的甫菠,這個暫時還不清楚有什么比較好的應(yīng)用場景。
還有這個方法合并的時候是安裝鍵的順序進(jìn)行排列的冕屯,如果兩個表都很大的話合并時就會很慢寂诱,如果不需要排序就需要添加參數(shù)sort=False。
merge還有一個參數(shù)安聘,indicator=True痰洒,這個參數(shù)會添加一列用來注明每一行是來自于哪個表的:
以上所說的都是橫向合并,那么如果要進(jìn)行縱向合并要怎么操作呢浴韭?
merge()里并沒有axis=0這個參數(shù)丘喻,如果需要縱向匹配合并的話可以先將表格轉(zhuǎn)置(.T)之后再進(jìn)行合并。