圖床放在 github, 有時候看不到圖沒關(guān)系,運行一遍就行了沫浆。(好吧我兩個都放,簡書自己的也放一個滚秩。)
前幾天師兄問我一個小問題专执,說有一堆基因,每個基因上又不同的位點郁油,想看下每個基因?qū)?yīng)的后一個位點與前面位點的距離本股。聽起來有點 斐波那契數(shù)列
的味道,只是這里是求位點間的距離桐腌。按照基因分組拄显,對位置排序,然后后面的位置減去前面的位置案站,說這么多好像沒有一個圖來的實際躬审。
image
簡書圖床。蟆盐。
emm, 既然需求說清楚了承边,那就搞起來。
數(shù)據(jù)長這樣
Proteinaccession Position
A0A0N7KCG8 92
A0A0N7KCG8 97
A0A0N7KCG8 138
A0A0N7KCG8 261
A0A0N7KD63 16
A0A0N7KD71 191
A0A0N7KDI2 14
A0A0N7KEK0 86
A0A0N7KEL2 112
A0A0N7KEN1 498
A0A0N7KEN1 513
A0A0N7KFI2 241
A0A0N7KFL5 11
A0A0N7KG02 356
A0A0N7KGS3 137
A0A0N7KH16 81
A0A0N7KH54 148
A0A0N7KH54 184
A0A0N7KI17 359
A0A0N7KI20 77
A0A0N7KI20 224
A0A0N7KI20 282
A0A0N7KIR0 18
A0A0N7KIR1 104
A0A0N7KIR1 285
A0A0N7KJ67 81
A0A0N7KJB1 342
A0A0N7KJF4 78
A0A0N7KK10 235
A0A0N7KK10 256
A0A0N7KK10 279
A0A0N7KK90 387
A0A0N7KKI3 21
A0A0N7KKT9 50
A0A0N7KLH2 307
A0A0N7KLN6 9
A0A0N7KLY1 1033
A0A0N7KMN9 220
R 中進行操作
- 這里我們只采用兩種方法石挂,當然方法是無窮無盡的博助。分別是利用
lag()
函數(shù)和diff()
函數(shù) - 只有一個位點的基因這里不做考慮,所以在分析前就用
n() > 1
過濾
# copy 上面的示例數(shù)據(jù)痹愚,然后直接從剪切面板導(dǎo)入數(shù)據(jù)富岳,不知道啥操作,自行百度一下就知道了拯腮。
data <- read.table(file = "clipboard", header = T, sep = "\t")
library(tidyverse)
# 第一種方法使用 lag() 函數(shù)窖式,簡單明了
data1 <- data %>%
group_by(Proteinaccession) %>%
filter(n() > 1) %>% # 過濾掉只有一個位點的基因
mutate(end = lag(Position),
distance = Position - lag(Position)) %>%
ungroup()
# 第二種方法與 lag() 函數(shù)類似
data2 <- data %>%
group_by(Proteinaccession) %>%
filter(n() > 1) %>% # 過濾掉只有一個位點的基因
mutate(end = c(NA, Position[-n()]),
distance = c(NA, diff(Position))) %>%
ungroup()
最后得到的結(jié)果就是這樣的。
image
簡書圖床疾瓮。脖镀。
最后安利一些函數(shù)大家了解一下:
-
R 語言中的偏移窗口函數(shù):
R 語言中有 5 個偏移窗口函數(shù): lead ()、lag ()狼电、first ()蜒灰、last () 和 nth () 函數(shù)
-
R 語言中的排名窗口函數(shù):
row_number ()、rank ()肩碟、dense_rank ()强窖、ntile ()
-
R 語言中的聚合窗口函數(shù):
sum()、cumsum()削祈、min()翅溺、cummin()脑漫、max()、cummax()咙崎、mean()优幸、cummean()、n()