RNAvelocity系列教程4:velocyto.R的使用教程

RNA注釋

這里以inDrop 實驗數(shù)據(jù)舉例殊鞭,spliced/unspliced的RNA可以通過:

1.使用dropEst 輸出管道生成 類似10X的 bam 文件:

~/dropEst/build/dropest -m -F -L eiEIBA -o run1 -g cellranger/refdata-cellranger-mm10-1.2.0/genes/genes.gtf -c ~/dropEst/configs/indrop_v3.xml *.bam

2.使用velocyto.py來注釋spliced/unspliced的reads,寫出標準loom文件:

velocyto run -u Gene -o out -e SCG71 -m mm10_rmsk_srt.gtf -v SCG_71_tophat.filtered.sorted.bam UCSC/mm10/Annotation/Genes/genes.gtf

(注意登馒,也可以使用-V參數(shù)直接通過 DropEst 注釋spliced/unspliced的reads:)

~/dropEst/dropest -V -C 6000 -m -g ucsc_mm10_exons.gtf.gz -c ~/dropEst/configs/indrop_v3.xml *.aligned.bam)

下面的例子從 velocyto.py 生成的loom文件開始,使用 pagoda2 獲取細胞clusters/embedding笨篷,然后估計/可視化RNA速率怀喉。

加載R包:

library(velocyto.R)

Loading required package: Matrix

數(shù)據(jù)下載

下載預(yù)先計算的loom矩陣

wget http://pklab.med.harvard.edu/velocyto/mouseBM/SCG71.loom

讀取矩陣

ldat <-read.loom.matrices(url("http://pklab.med.harvard.edu/velocyto/mouseBM/SCG71.loom"))
#Error: is.character(name) is not TRUE

使用pagoda2標準化和聚類細胞

使用spliced 表達矩陣作為pagoda2的輸入,并查看分布脓恕。

emat <- ldat$spliced
hist(log10(colSums(emat)),col='wheat',xlab='cell size')
1625582623444
# this dataset has already been pre-filtered, but this is where one woudl do some filtering

emat <- emat[,colSums(emat)>=1e3]

pagoda2處理
pagoda2用于生成細胞嵌入、細胞聚類以及更精確的細胞距離矩陣窿侈。您也可以使用其他工具生成這些工具炼幔,如 Seurat等。

創(chuàng)建pagoda2對象史简,調(diào)整方差:

library(pagoda2)
r <- Pagoda2$new(emat,modelType='plain',trim=10,log.scale=T)
#2600 cells, 7301 genes; normalizing ... using plain model winsorizing ... log scale ... done.
r$adjustVariance(plot=T,do.par=T,gam.k=10)
#calculating variance fit ... using gam 137 overdispersed genes ... 137 persisting ... done.
1625582643118

運行基本分析步驟以生成細胞嵌入和聚類乃秀,并可視化:

r$calculatePcaReduction(nPcs=100,n.odgenes=3e3,maxit=300)

running PCA using 3000 OD genes ..
Loading required package: irlba
.. done

r$makeKnnGraph(k=30,type='PCA',center=T,distance='cosine');

Loading required package: igraph

Attaching package: ‘igraph’

The following objects are masked from ‘package:stats’:decompose, spectrum

The following object is masked from ‘package:base’:union

creating space of type angular done
adding data ... done
building index ... done
querying ... done

r$getKnnClusters(method=multilevel.community,type='PCA',name='multilevel')r$getEmbedding(type='PCA',embeddingType='tSNE',perplexity=50,verbose=T)

calculating distance ... pearson ...running tSNE using 16 cores:
Read the 2600 x 2600 data matrix successfully!
OpenMP is working...
Using no_dims = 2, perplexity = 50.000000, and theta = 0.500000
Computing input similarities...
Building tree...
Done in 9.36 seconds (sparsity = 0.084143)!
Learning embedding...
Iteration 50: error is 73.294295 (50 iterations in 3.70 seconds)
Iteration 100: error is 65.648297 (50 iterations in 3.19 seconds)
Iteration 150: error is 65.151406 (50 iterations in 3.17 seconds)
Iteration 200: error is 65.090414 (50 iterations in 3.24 seconds)
Iteration 250: error is 65.075571 (50 iterations in 3.27 seconds)
Iteration 300: error is 1.814009 (50 iterations in 3.11 seconds)
Iteration 350: error is 1.699950 (50 iterations in 3.08 seconds)
Iteration 400: error is 1.660607 (50 iterations in 3.01 seconds)
Iteration 450: error is 1.644676 (50 iterations in 2.98 seconds)
Iteration 500: error is 1.638744 (50 iterations in 2.96 seconds)
Iteration 550: error is 1.633982 (50 iterations in 3.00 seconds)
Iteration 600: error is 1.629732 (50 iterations in 2.99 seconds)
Iteration 650: error is 1.628101 (50 iterations in 3.12 seconds)
Iteration 700: error is 1.625991 (50 iterations in 3.27 seconds)
Iteration 750: error is 1.624012 (50 iterations in 3.15 seconds)
Iteration 800: error is 1.622847 (50 iterations in 3.27 seconds)
Iteration 850: error is 1.621847 (50 iterations in 3.31 seconds)
Iteration 900: error is 1.620831 (50 iterations in 3.34 seconds)
Iteration 950: error is 1.619936 (50 iterations in 3.21 seconds)
Iteration 1000: error is 1.618511 (50 iterations in 3.16 seconds)
Fitting performed in 63.52 seconds.

繪制嵌入、集群標記(左)和"Xist"表達圖(將男性和女性分開展示)

par(mfrow=c(1,2))r$plotEmbedding(type='PCA',embeddingType='tSNE',show.legend=F,mark.clusters=T,min.group.size=10,shuffle.colors=F,mark.cluster.cex=1,alpha=0.3,main='cell clusters')r$plotEmbedding(type='PCA',embeddingType='tSNE',colors=r$depth,main='depth')  

treating colors as a gradient with zlim: 1000.9 2939

1625582662042

速率估計

準備矩陣和聚類數(shù)據(jù):

emat <- ldat$spliced; nmat <- ldat$unspliced; # disregarding spanning reads, as there are too few of thememat <- emat[,rownames(r$counts)]; nmat <- nmat[,rownames(r$counts)]; # restrict to cells that passed p2 filter# take cluster labelscluster.label <- r$clusters$PCA$multilevel # take the cluster factor that was calculated by p2cell.colors <- pagoda2:::fac2col(cluster.label)# take embedding form p2emb <- r$embeddings$PCA$tSNE

除了聚類和 t-SNE 嵌入圆兵,從 p2 處理跺讯,我們將采取細胞距離,優(yōu)于默認的R 通常會使用全轉(zhuǎn)錄體相關(guān)距離殉农。

cell.dist <- as.dist(1-armaCor(t(r$reductions$PCA)))

基于最低平均表達量(至少在其中一個cluster中)篩選基因刀脏,輸出生成的有效基因總數(shù):

emat <- filter.genes.by.cluster.expression(emat,cluster.label,min.max.cluster.average = 0.2)nmat <- filter.genes.by.cluster.expression(nmat,cluster.label,min.max.cluster.average = 0.05)length(intersect(rownames(emat),rownames(nmat)))

[1] 2541
估計RNA速率:

fit.quantile <- 0.02rvel.cd <- gene.relative.velocity.estimates(emat,nmat,deltaT=1,kCells=25,cell.dist=cell.dist,fit.quantile=fit.quantile)

calculating cell knn ... done
calculating convolved matrices ... done
fitting gamma coefficients ... done. succesfful fit for 743 genes
filtered out 149 out of 743 genes due to low nmat-emat correlation
filtered out 27 out of 594 genes due to low nmat-emat slope
calculating RNA velocity shift ... done
calculating extrapolated cell state ... done
可視化 t-SNE 嵌入上的速率:

show.velocity.on.embedding.cor(emb,rvel.cd,n=200,scale='sqrt',cell.colors=ac(cell.colors,alpha=0.5),cex=0.8,arrow.scale=3,show.grid.flow=TRUE,min.grid.cell.mass=0.5,grid.n=40,arrow.lwd=1,do.par=F,cell.border.alpha = 0.1)

delta projections ... sqrt knn ... transition probs ... done
calculating arrows ... done
grid estimates ... grid.sd= 0.6580196 min.arrow.size= 0.01316039 max.grid.arrow.length= 0.05887327 done

1625583871396

特定基因可視化:

gene <- "Camp"gene.relative.velocity.estimates(emat,nmat,deltaT=1,kCells = 25,kGenes=1,fit.quantile=fit.quantile,cell.emb=emb,cell.colors=cell.colors,cell.dist=cell.dist,show.gene=gene,old.fit=rvel.cd,do.par=T)

calculating convolved matrices ... done
[1] 1

1625583896763

調(diào)整視圖

調(diào)整kCells,這會給我們一個更理想化的圖像視圖超凳,差異肉眼可見:

gene <- "Camp"gene.relative.velocity.estimates(emat,nmat,deltaT=1,kCells = 100,kGenes=1,fit.quantile=fit.quantile,cell.emb=emb,cell.colors=cell.colors,cell.dist=cell.dist,show.gene=gene,do.par=T)

calculating cell knn ... done
calculating convolved matrices ... done
[1] 1

1625583909931
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末愈污,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子轮傍,更是在濱河造成了極大的恐慌钙畔,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件金麸,死亡現(xiàn)場離奇詭異,居然都是意外死亡簿盅,警方通過查閱死者的電腦和手機挥下,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來桨醋,“玉大人棚瘟,你說我怎么就攤上這事∠沧睿” “怎么了偎蘸?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我迷雪,道長限书,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任章咧,我火速辦了婚禮倦西,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘赁严。我一直安慰自己扰柠,他們只是感情好,可當我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布疼约。 她就那樣靜靜地躺著卤档,像睡著了一般。 火紅的嫁衣襯著肌膚如雪程剥。 梳的紋絲不亂的頭發(fā)上劝枣,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天,我揣著相機與錄音倡缠,去河邊找鬼哨免。 笑死,一個胖子當著我的面吹牛昙沦,可吹牛的內(nèi)容都是我干的琢唾。 我是一名探鬼主播,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼盾饮,長吁一口氣:“原來是場噩夢啊……” “哼采桃!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起丘损,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤普办,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后徘钥,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體衔蹲,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年呈础,在試婚紗的時候發(fā)現(xiàn)自己被綠了舆驶。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡而钞,死狀恐怖沙廉,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情臼节,我是刑警寧澤撬陵,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布珊皿,位于F島的核電站,受9級特大地震影響巨税,放射性物質(zhì)發(fā)生泄漏蟋定。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一垢夹、第九天 我趴在偏房一處隱蔽的房頂上張望溢吻。 院中可真熱鬧,春花似錦果元、人聲如沸促王。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽蝇狼。三九已至,卻和暖如春倡怎,著一層夾襖步出監(jiān)牢的瞬間迅耘,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工监署, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留颤专,地道東北人。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓钠乏,卻偏偏與公主長得像栖秕,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子晓避,可洞房花燭夜當晚...
    茶點故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容