R語言的排序函數(shù)(order, sort, rank)及匹配函數(shù)(match,%in%)用法詳解

一具被,排序函數(shù)

R語言中,和排序相關(guān)的常用函數(shù)有:order()只损,sort()一姿,rank(),一般是對(duì)向量進(jìn)行操作跃惫,也可以對(duì)數(shù)據(jù)框的列進(jìn)行操作叮叹。
1. order(..., decreasing = FALSE)
“...” 中可以是一個(gè)向量(數(shù)值型,字符型爆存,邏輯型蛉顽,因子型均可),也可以是多個(gè)向量(長(zhǎng)度必須相同
它返回的是排列后(默認(rèn)是升序)的元素在該向量中所處的位置先较,即索引携冤,所以返回的不是原來向量的那些數(shù)值,而是排序后那些數(shù)值所對(duì)應(yīng)的位置闲勺。它在常在數(shù)據(jù)框中運(yùn)用曾棕,可以根據(jù)某一列和某幾列來調(diào)整數(shù)據(jù)框。
1.1 單個(gè)向量

> vec1 <- c(94,83,72,25,100,98,57,69,29,45)
> vec1
 [1]  94  83  72  25 100  98  57  69  29  45
> order(vec1) #生成的是索引
 [1]  4  9 10  7  8  3  2  1  6  5
> vec1[order(vec1)] #根據(jù) order 函數(shù)生成的索引提取后就是排列后的元素菜循,等同于 sort(vec1)
 [1]  25  29  45  57  69  72  83  94  98 100

1.2 多個(gè)向量(數(shù)據(jù)框的多列)

#創(chuàng)建一個(gè)向量
> df <- data.frame(var1 = c(1,1,3:1,1:4,3),
+                  var2 = c(9,9:1)翘地,
+                  var3 = c(2,1:9))
> df
   var1 var2 var3
1     1    9    2
2     1    9    1
3     3    8    2
4     2    7    3
5     1    6    4
6     1    5    5
7     2    4    6
8     3    3    7
9     4    2    8
10    3    1    9
#按列var1將排序
##先用order函數(shù)處理列var1
> order(df$var1)
 [1]  1  2  5  6  4  7  3  8 10  9
##然后用上面生成的索引來調(diào)整數(shù)據(jù)框 df
> df[order(df$var1),]   #注意是將生成的索引放在行的位置,另外注意的是此時(shí)的 df 只是調(diào)整后輸出到console而已债朵,要使得調(diào)整生效必須將調(diào)整后的df賦值給原來的 df 
   var1 var2 var3
1     1    9    2
2     1    9    1
5     1    6    4
6     1    5    5
4     2    7    3
7     2    4    6
3     3    8    2
8     3    3    7
10    3    1    9
9     4    2    8

上面最左邊的一列數(shù)值(不是var1這一列)就是 order(df$var1) 生成的子眶,列var1的順序就是order后的,注意和前面df 的列var1進(jìn)行比較序芦,還有一點(diǎn)要牢記的就是這種在數(shù)據(jù)框里的調(diào)整臭杰,是整行變動(dòng)(都按列var1來)。故而本質(zhì)上谚中,對(duì)于數(shù)據(jù)框而言渴杆,order函數(shù)出來的是原始數(shù)據(jù)框中的行號(hào),行號(hào)順序一變宪塔,意味著行號(hào)代表的整行跟著變磁奖。
接著再按列var2排序(注意是在列var1已經(jīng)排好的基礎(chǔ)上再按列var2重新排序,即此時(shí)列var1里的非重復(fù)值的行順序不會(huì)再變了某筐,只有列var1里有重復(fù)值(數(shù)值相同的)的行才會(huì)變換比搭,而且是按照列var2來變換,南誊。如還要按其它列再排身诺,以此類推):

> order(df$var1,df$var2)
 [1]  6  5  1  2  7  4 10  8  3  9
> df[order(df$var1,df$var2),]
   var1 var2 var3
6     1    5    5
5     1    6    4
1     1    9    2
2     1    9    1
7     2    4    6
4     2    7    3
10    3    1    9
8     3    3    7
3     3    8    2
9     4    2    8

最后再按列var3排序蜜托,此時(shí)只有列var2中有重復(fù)值的行(當(dāng)然這時(shí)var1肯定也是重復(fù)的)才會(huì)變換------這里是含有9的那兩行,并且是按照這些重復(fù)值對(duì)應(yīng)到列var3的那些行的數(shù)值(數(shù)值1和2)來變的

> order(df$var1,df$var2,df$var3)
 [1]  6  5  2  1  7  4 10  8  3  9
> df[order(df$var1,df$var2,df$var3), ]   #order后的結(jié)果放在中括號(hào)內(nèi)行的位置
   var1 var2 var3
6     1    5    5
5     1    6    4
2     1    9    1
1     1    9    2
7     2    4    6
4     2    7    3
10    3    1    9
8     3    3    7
3     3    8    2
9     4    2    8

總結(jié)提升霉赡,order()函數(shù)中橄务,如果第一個(gè)向量(或者說是數(shù)據(jù)框里你想要根據(jù)它來調(diào)整的那一列)里沒有重復(fù)值,那么按照后面的所有向量(不管有多少個(gè))的重排都不會(huì)進(jìn)行(或者說重排的結(jié)果不會(huì)變)穴亏,order(vec1,vec2,vec3,...) 返回的行號(hào)及其順序和 order(vec1) 的是一樣蜂挪。

> df <- data.frame(var1 = c(2,4,3,1,5,7,9,10,6,8),
+                  var2 = c(9,9:1),
+                  var3 = c(2,1:9))
> order(df$var1)
 [1]  4  1  3  2  5  9  6 10  7  8
> order(df$var1,df$var2)
 [1]  4  1  3  2  5  9  6 10  7  8
> order(df$var1,df$var2,df$var3)
 [1]  4  1  3  2  5  9  6 10  7  8

同理嗓化,也可以處理對(duì)應(yīng)的行(比如矩陣或是數(shù)據(jù)框的行)

> ob1 <- c(1,1,3:1,1:4,3)
> ob1
 [1] 1 1 3 2 1 1 2 3 4 3
> ob2 <- c(9,9:1)
> ob2
 [1] 9 9 8 7 6 5 4 3 2 1
> ob3 <- c(2,1:9)
> ob3
 [1] 2 1 2 3 4 5 6 7 8 9
> rbind(ob1,ob2,ob3)
    [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
ob1    1    1    3    2    1    1    2    3    4     3
ob2    9    9    8    7    6    5    4    3    2     1
ob3    2    1    2    3    4    5    6    7    8     9
> class(rbind(ob1,ob2,ob3))
[1] "matrix" "array" 
> order(ob1,ob2,ob3)  #注意這里ob1,ob2,ob3對(duì)應(yīng)的是三個(gè)向量
 [1]  6  5  2  1  7  4 10  8  3  9
> rbind(ob1,ob2,ob3)[ ,order(ob1,ob2,ob3)]  #order后的結(jié)果放在中括號(hào)內(nèi)列的位置
    [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
ob1    1    1    1    1    2    2    3    3    3     4
ob2    5    6    9    9    4    7    1    3    8     2
ob3    5    4    1    2    6    3    9    7    2     8

1.3 factor(因子型向量)

> vec2 <- factor(x=c("B","A","A","C","B","A","C"),levels = c("A","B","C"),ordered = T)
> vec3 <- c(94,83,72,25,100,98,57)
> df1 <- data.frame(var1 = vec2,
+                   var2 = vec3)
> df1
  var1 var2
1    B   94
2    A   83
3    A   72
4    C   25
5    B  100
6    A   98
7    C   57
> order(df1$var1)
[1] 2 3 6 1 5 4 7
> df1[order(df1$var1),]
  var1 var2
2    A   83
3    A   72
6    A   98
1    B   94
5    B  100
4    C   25
7    C   57
> order(df1$var1,df1$var2)
[1] 3 2 6 1 5 4 7
> df1[order(df1$var1,df1$var2),]
  var1 var2
3    A   72
2    A   83
6    A   98
1    B   94
5    B  100
4    C   25
7    C   57

2. sort(x, decreasing = FALSE)
x 只能是一個(gè)向量(數(shù)值型棠涮,字符型,邏輯型蟆湖,因子型均可)
返回的是排序后(默認(rèn)是升序)的那個(gè)數(shù)值向量(還是那些數(shù)值故爵,只不過是排序過了的

> vec1 <- c(94,83,72,25,100,98,57,69,29,45)
> vec1
 [1]  94  83  72  25 100  98  57  69  29  45
> sort(vec1)
 [1]  25  29  45  57  69  72  83  94  98 100
> df1
  var1 var2
1    B   94
2    A   83
3    A   72
4    C   25
5    B  100
6    A   98
7    C   57
> sort(df1$var1)
[1] A A A B B C C
Levels: A < B < C
> sort(df1$var1,df1$var2)   #只能是按照一個(gè)向量
Error in sort(df1$var1, df1$var2) : 
  'decreasing' must be a length-1 logical vector.
Did you intend to set 'partial'?

3. rank(x, na.last = TRUE)
求秩的函數(shù),x 只能是
一個(gè)**向量(數(shù)值型隅津,字符型诬垂,邏輯型), 該向量一般不會(huì)有重復(fù)值伦仍,返回的是該向量中對(duì)應(yīng)元素的“排名”结窘,即元素順序它不會(huì)改變,只是告訴你每個(gè)元素在整個(gè)向量中的名次(如果要排序(默認(rèn)是升序)的話)充蓝。

> vec1 <- c(94,83,72,25,100,98,57,69,29,45)
> vec1
 [1]  94  83  72  25 100  98  57  69  29  45
> rank(vec1)
 [1]  8  7  6  1 10  9  4  5  2  3

如果向量有重復(fù)值隧枫,出現(xiàn)的結(jié)果會(huì)有些不太好處理

> df <- data.frame(var1 = c(1,1,3:1,1:4,3),
+                  var2 = c(9,9:1),
+                  var3 = c(2,1:9))
> df
   var1 var2 var3
1     1    9    2
2     1    9    1
3     3    8    2
4     2    7    3
5     1    6    4
6     1    5    5
7     2    4    6
8     3    3    7
9     4    2    8
10    3    1    9
> rank(df$var1)   # var1有重復(fù)值
 [1]  2.5  2.5  8.0  5.5  2.5  2.5  5.5  8.0 10.0  8.0
> rank(df$var2)   # var2有重復(fù)值
 [1] 9.5 9.5 8.0 7.0 6.0 5.0 4.0 3.0 2.0 1.0
> vec <- c(94,83,72,25,72,98,57,69,29,45)
> vec
 [1] 94 83 72 25 72 98 57 69 29 45  # 有重復(fù)值
> rank(vec)
 [1]  9.0  8.0  6.5  1.0  6.5 10.0  4.0  5.0  2.0  3.0

二谓苟,match(x官脓,y)函數(shù)

匹配兩個(gè)向量,返回的是第一個(gè)向量 x中的各個(gè)元素在第二個(gè)向量 y中所匹配的元素的位置值(索引涝焙,下標(biāo)值)卑笨,即返回的是第二個(gè)向量的下標(biāo)值組成的向量
注意事項(xiàng):
1. 返回的下標(biāo)值向量的長(zhǎng)度與第一個(gè)向量相等仑撞,即 length(x) == length(match(x,y)) 為 TRUE赤兴。
2. 第一個(gè)向量可以是只有一個(gè)元素的向量。
3. 兩個(gè)向量的長(zhǎng)度不一定要相等隧哮。
4. 返回的是 x中每個(gè)元素在y中的位置桶良,可用來提取y中的元素,沒有匹配上的會(huì)返回 NA沮翔。
拓展用法:
y [match(x, y)]: x中 和y 相同的元素都是哪些陨帆,前提是x中的元素在y中都有(即x是y的子集),否則會(huì)返回 NA。(最好是用x[ x %in y]
y[-match(x, y)]: 找出 y里面有 x里面沒有的數(shù)值歧譬,前提是x中的元素在y中都有(即x是y的子集)岸浑,否則會(huì)報(bào)錯(cuò)搏存。

> tmp <- LETTERS[1:26]
> tmp
 [1] "A" "B" "C" "D" "E" "F" "G" "H" "I" "J" "K" "L" "M" "N" "O" "P" "Q" "R" "S"
[20] "T" "U" "V" "W" "X" "Y" "Z"
> match("O",tmp)    # 第一個(gè)向量只有一個(gè)元素
[1] 15
> match(c("Z","D"),tmp)
[1] 26  4
> x <- c("TRUE","Z","D")
> x
[1] "TRUE" "Z"    "D"   
> y <- tmp
> y
 [1] "A" "B" "C" "D" "E" "F" "G" "H" "I" "J" "K" "L" "M" "N" "O" "P" "Q" "R" "S"
[20] "T" "U" "V" "W" "X" "Y" "Z"
> match(x,y)  #沒有匹配上的會(huì)返回 NA
[1] NA 26  4
> y[match(x,y)]   #沒有匹配上的會(huì)返回 NA
[1] NA  "Z" "D"
> y[-match(x,y)]  #會(huì)報(bào)錯(cuò)
Error in y[-match(x, y)] : only 0's may be mixed with negative subscripts

當(dāng)兩個(gè)向量類型不一樣時(shí), match函數(shù)會(huì)進(jìn)行類型轉(zhuǎn)換瑰步,然后再匹配。

> a <- c(1,TRUE,0)   # 邏輯值可以當(dāng)成1或0璧眠,優(yōu)先級(jí):字符型>數(shù)值型>邏輯型
> a
[1] 1 1 0
> class(a)
[1] "numeric"
> b <- c(T,0,"1")  #字符型數(shù)據(jù)優(yōu)先級(jí)最高
> b
[1] "TRUE" "0"    "1"   
> class(b)
[1] "character"
> match(a,b) 
[1] 3 3 2
> b[match(a,b)]
[1] "1" "1" "0"
> a1 <- c(F,TRUE)
> a1
[1] FALSE  TRUE
> class(a1)
[1] "logical"
> match(a,a1)
[1] 2 2 1
> a1[match(a,a1)]
[1]  TRUE  TRUE FALSE
> match(a1,a)
[1] 3 1
> a[match(a1,a)]
[1] 0 1

x %in% y
判斷x中的元素是否都在y中缩焦,返回的是個(gè)長(zhǎng)度和 x 一樣的邏輯值向量,存在的話返回TRUE责静,否則返回FALSE袁滥。
sum(x %in% y): 統(tǒng)計(jì) x 中有多少個(gè)元素在y中,或者說 x 和 y 有幾個(gè)相同元素
x[x %in% y]: x中 和y 相同的元素都是哪些

> x <- c("A","Z","D","ZD")
> y <- LETTERS[1:26]
> x %in% y
[1]  TRUE  TRUE  TRUE FALSE
> sum(x %in% y)   # 統(tǒng)計(jì) x 中有多少個(gè)元素在y中灾螃,或者說 x 和 y 有幾個(gè)相同元素
[1] 3    
> x[x %in% y]  # x 和 y中有幾個(gè)相同元素题翻,都是哪些元素。
[1] "A" "Z" "D" 

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末腰鬼,一起剝皮案震驚了整個(gè)濱河市嵌赠,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌熄赡,老刑警劉巖姜挺,帶你破解...
    沈念sama閱讀 211,817評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異彼硫,居然都是意外死亡炊豪,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,329評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門拧篮,熙熙樓的掌柜王于貴愁眉苦臉地迎上來词渤,“玉大人,你說我怎么就攤上這事串绩∪迸埃” “怎么了?”我有些...
    開封第一講書人閱讀 157,354評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵赏参,是天一觀的道長(zhǎng)志笼。 經(jīng)常有香客問我,道長(zhǎng)把篓,這世上最難降的妖魔是什么纫溃? 我笑而不...
    開封第一講書人閱讀 56,498評(píng)論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮韧掩,結(jié)果婚禮上紊浩,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好坊谁,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,600評(píng)論 6 386
  • 文/花漫 我一把揭開白布费彼。 她就那樣靜靜地躺著汛骂,像睡著了一般橡庞。 火紅的嫁衣襯著肌膚如雪梯啤。 梳的紋絲不亂的頭發(fā)上儿子,一...
    開封第一講書人閱讀 49,829評(píng)論 1 290
  • 那天担敌,我揣著相機(jī)與錄音跪者,去河邊找鬼洛巢。 笑死坡贺,一個(gè)胖子當(dāng)著我的面吹牛小染,可吹牛的內(nèi)容都是我干的翘瓮。 我是一名探鬼主播,決...
    沈念sama閱讀 38,979評(píng)論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼裤翩,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼资盅!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起踊赠,我...
    開封第一講書人閱讀 37,722評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤呵扛,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后臼疫,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體择份,經(jīng)...
    沈念sama閱讀 44,189評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,519評(píng)論 2 327
  • 正文 我和宋清朗相戀三年烫堤,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了荣赶。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,654評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡鸽斟,死狀恐怖拔创,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情富蓄,我是刑警寧澤剩燥,帶...
    沈念sama閱讀 34,329評(píng)論 4 330
  • 正文 年R本政府宣布,位于F島的核電站立倍,受9級(jí)特大地震影響灭红,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜口注,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,940評(píng)論 3 313
  • 文/蒙蒙 一变擒、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧寝志,春花似錦娇斑、人聲如沸策添。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,762評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)唯竹。三九已至,卻和暖如春苦丁,著一層夾襖步出監(jiān)牢的瞬間浸颓,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,993評(píng)論 1 266
  • 我被黑心中介騙來泰國(guó)打工芬骄, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留猾愿,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,382評(píng)論 2 360
  • 正文 我出身青樓账阻,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親泽本。 傳聞我的和親對(duì)象是個(gè)殘疾皇子淘太,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,543評(píng)論 2 349

推薦閱讀更多精彩內(nèi)容