數(shù)據(jù)篩選是在分析中最常用的步驟,如數(shù)據(jù)挖掘分析中紊浩,從TCGA或GEO得到的表達(dá)矩陣要不斷篩選,來(lái)進(jìn)行數(shù)據(jù)整理万伤。
match函數(shù)是生信技能樹(shù)生信爆款入門(mén)課程R語(yǔ)言部分的講到的一個(gè)重要知識(shí)點(diǎn)呜袁。
為加深理解,現(xiàn)在找一個(gè)數(shù)據(jù)集做下練習(xí)鞏固虹钮。
官方說(shuō)明文檔:
match
match:匹配兩個(gè)向量芙粱,返回第二個(gè)向量在第一個(gè)向量匹配位置的下標(biāo)值氧映。
match函數(shù)使用格式有如下兩種:
第一種方便設(shè)置參數(shù),返回x中元素在table中的位置
match(x, table, nomatch = NA_integer_, incomparables = NULL)
第二種簡(jiǎn)潔律姨,返回x中每個(gè)元素在table中是否存在
x %in% table
參數(shù)詳解
x: 向量, 要匹配的值;
table: 向量, 被匹配的值;
nomatch: 沒(méi)匹配上的返回值, 必須是整數(shù);
incomparables: 指定不能用來(lái)匹配的值.
match函數(shù)是一個(gè)完全匹配函數(shù), 當(dāng)兩個(gè)元素類(lèi)型不一樣時(shí), 如果進(jìn)行類(lèi)型轉(zhuǎn)換后匹配得上的話(huà), 則仍可匹配, 可看下例.
match(c(1, "TRUE"), c(T, 0, "1"))
返回3 1择份,
即1位于表中的3號(hào)位烫堤,TRUE位于1號(hào)位,且T和TRUE可匹配成功
c(1, "TRUE", F) %in% c(T, 0, "1")
返回TRUE TRUE FALSE拔创,
表示每個(gè)元素在table中是否存在
舉例練習(xí)如下:
生成測(cè)試數(shù)據(jù):
library(tidyverse)
diamonds
> x <- colnames(diamonds)[1:5]
> x
[1] "carat" "cut" "color" "clarity" "depth"
> y <- colnames(diamonds)[1:10]
> y
[1] "carat" "cut" "color" "clarity" "depth" "table" "price" "x" "y"
[10] "z"
> z <- colnames(diamonds)[seq(1,10,2)]
> z
[1] "carat" "color" "depth" "price" "y"
1.使用match函數(shù)找出x中每個(gè)元素在y中的位置
> match(x,y)
[1] 1 2 3 4 5
2.使用match函數(shù)找出y中每個(gè)元素在x中的位置
> match(y,x)
[1] 1 2 3 4 5 NA NA NA NA NA
3.判斷z中的元素是否都在x中
> z %in% x
[1] TRUE TRUE TRUE FALSE FALSE
4.z中元素都在y的什么位置伏蚊?
> match(z,y)
[1] 1 3 5 7 9
5.z中有多少個(gè)元素在y中躏吊?
sum(z %in% y)
[1] 5
6.挑出y里面有z中沒(méi)有的數(shù)值。
y[-match(z,y)]
[1] "cut" "clarity" "table" "x" "z"
7.x和z中有幾個(gè)相同元素比伏?,都是哪些元素?
> sum(x %in% z)
[1] 3
> z[x %in% z]
[1] "carat" "depth" "y"
8.z中和y相同的元素都有哪些葛躏?
> y[match(z,y)]
[1] "carat" "color" "depth" "price" "y"
9.x和z中相同的元素都有哪些舰攒?
> x[x %in% z]
[1] "carat" "color" "depth"
10.使用match刪除y中與z重復(fù)的值
> y[-match(z,y)]
[1] "cut" "clarity" "table" "x" "z"