scVelo 的使用: 從bam和Seurat獲取輸入數(shù)據(jù)到畫圖

1.數(shù)據(jù)準(zhǔn)備

用10x數(shù)據(jù)做scVelo弥鹦,輸入數(shù)據(jù)分2部分:

  • Seurat 分析后的數(shù)據(jù): 聚類向抢、基因迄本、細(xì)胞信息硕淑。
  • velocyto run 輸出的loom文件,記錄 spliced/unspliced 的RNA嘉赎;

(1) Seurat 分析

假設(shè)你已經(jīng)做好 Seurat 降維置媳、分群、注釋了公条。
velocyto 需要輸入細(xì)胞的id拇囊。
一般多樣本合并后的Seurat,需要按bam來源取子集靶橱,然后去掉cell id后綴再保存寂拆。參考一下幾個(gè)文件:

> head(Cells(scObj_neu))
[1] "AAACCCAAGCCTCCAG-1_1" "AAACCCATCGGCATAT-1_1" "AAACGAATCCTGGGAC-1_1" "AAAGAACTCTTTACAC-1_1"
[5] "AAAGGATAGCGCAATG-1_1" "AAAGGATGTAGCTTTG-1_1"

tmp1=sapply(Cells(scObj_neu), function(x){
  (strsplit(x, "_")[[1]])[1]
}, USE.NAMES = F, simplify = T)
head(tmp1)
# [1] "AAACCCAAGCCTCCAG-1" "AAACCCATCGGCATAT-1"

writeLines(tmp1, paste0("scVelo/velocyto/WT2_barcodes.tsv") )

在 shell 中查看:

$ head ../scVelo/velocyto/WT2_barcodes.tsv
AAACCCACACACAGCC-1
AAACCCACAGACCAGA-1
AAACGAAGTCTTCGAA-1

包裝好的函數(shù)如下: 半成品,因?yàn)楹瘮?shù)第一行需要獲取的是細(xì)胞和bam文件的編號(hào)抓韩,這兩個(gè)信息每個(gè)人估計(jì)有自己的命名,根據(jù)自己情況改吧鬓长。

#' get cell barcode from sce, split by sample0
#'
#' @param sce 
#'
#' @return
#' @export
#'
#' @examples
getCid_list=function(sce){
  a1=FetchData(sce, vars=c("cell", "sample0"))
  #head(a1)
  strsplit(a1$cell, "_")[[1]]
  a1$cid=sapply(a1$cell, function(x){
    (strsplit(x, "_")[[1]])[1]
  }, USE.NAMES = F, simplify = T)
  #head(a1)
  #
  sapply(
    unique(a1$sample0),
    function(x){
      a1[which(a1$sample0==x),]$cid
    }, USE.NAMES = T
  )
}

# 測(cè)試1: 最終效果谒拴,就是一個(gè)cell id文件對(duì)應(yīng)一個(gè)bam文件。
# APC是樣本類型一樣涉波,但是來自不同的bam文件
sc_APC=subset(scObj_nue, origin=="APC")
sc_APC

# 默認(rèn)按照 sample0 一列英上,也就是bam來源生成cell id 的list炭序。
cid_APC=getCid_list(sc_APC)
str(cid_APC)
# 保存
lapply(names(cid_APC), function(x){
  message(x, "\t", length(cid_APC[[x]]), "\t", head(cid_APC[[x]]) )
  writeLines(cid_APC[[x]], paste0("./scVelo/velocyto/",x,"_barcodes.tsv") )
})


# 測(cè)試 2:最終效果,就是一個(gè)cell id文件對(duì)應(yīng)一個(gè)bam文件苍日。
writeLines(cid_WT[["WT1"]], "./202202newTag/scVelo/WT/WT1_barcodes.tsv")
writeLines(cid_WT[["WT2"]], "./202202newTag/scVelo/WT/WT2_barcodes.tsv")

(2) velocyto run 由bam輸出loom文件(耗時(shí))

http://velocyto.org/velocyto.py/tutorial/cli.html

Step 0: Constructing spliced and unspliced counts matrices
默認(rèn)的 velocyto run10x 命令是使用的 filtered文件夾中的cell id惭聂,結(jié)果不理想。我還是喜歡原生的 velocyto run相恃,更靈活辜纲,可控性更強(qiáng)。

需要準(zhǔn)備幾個(gè)輸入文件

  • cell id 文件拦耐,格式和可用代碼見上文耕腾。
  • 輸出文件夾
  • [可選] mask gtf 文件,一般從 UCSC 下載: expressed repeats annotation 猜測(cè)是染色體上過濾掉的區(qū)域杀糯。
  • cell ranger 輸出的bam文件
  • 最后是 gtf 文件扫俺,和 cell range 用的gtf 基因組版本號(hào)要一致。
$ cd /home/wangjl/data/xx/scVelo/

$ velocyto run \
    -@ 100 --samtools-memory 1000 \
    -b WT/WT2_barcodes.tsv \
    -o WT/WT2 \
    -m ref/mouse_M25/mm10_rmsk.gtf \
    cellranger/WT2/outs/possorted_genome_bam.bam \
    ref/mouse_M25/gencode.vM25.annotation.gtf

#0:39-->02:01, 1.5h 只有600個(gè)細(xì)胞
WT/WT2/possorted_genome_bam_X3HXW.loom #22M

(3) 從 Seurat 輸出數(shù)據(jù)

從Seurat對(duì)象導(dǎo)出細(xì)胞固翰、基因狼纬、表達(dá)信息,供 scVelo 使用骂际。

這是一個(gè)可用的函數(shù)疗琉,不用修改。

#' output Seurat obj info to a out dir/
#' 
#' V0.1
#'
#' @param sce Seurat obj
#' @param outputRoot a dir
#'
#' @return nothing
#' @export
#'
#' @examples
Seurat2scVelo=function(sce, outputRoot){
  message("output to:", outputRoot)
  # save metadata table:
  sce$barcode <- colnames(sce)
  sce$UMAP_1 <- sce@reductions$umap@cell.embeddings[,1]
  sce$UMAP_2 <- sce@reductions$umap@cell.embeddings[,2]
  #write.csv(data.frame(sce@meta.data)[,c("barcode","seurat_clusters", "UMAP_1","UMAP_2")], 
  write.csv(sce@meta.data, 
            file=paste0(outputRoot, 'metadata.csv'), quote=F, row.names=F)
  
  # write expression counts matrix
  library(Matrix)
  counts_matrix <- GetAssayData(sce, assay='RNA', slot='counts')
  writeMM(counts_matrix, file=paste0(outputRoot, 'counts.mtx'))
  
  # write dimesnionality reduction matrix, in this example case pca matrix
  write.csv(sce@reductions$pca@cell.embeddings, 
            file=paste0(outputRoot, 'pca.csv'), quote=F, row.names=F)
  
  # write gene names
  write.table(
    data.frame('gene'=rownames(counts_matrix)),
    file=paste0(outputRoot, 'gene_names.csv'),
    quote=F,row.names=F,col.names=F
  )
  return(invisible(NULL))
}

# 測(cè)試:
Seurat2scVelo(sc_WT, "202202newTag/scVelo/Seurat_dataset/WT/")

2. 使用 Python 預(yù)處理數(shù)據(jù)

使用 Jupyter notebook.

(1) 讀取 Seurat 導(dǎo)出的數(shù)據(jù)

import os
os.chdir("/home/wangjl/data/neu/scRNA/202202newTag/scVelo/")
os.getcwd()


import scanpy as sc
import anndata 
from scipy import io
from scipy.sparse import coo_matrix, csr_matrix
import numpy as np
import os
import pandas as pd

type="mergedWT"

# pip install anndata --force-reinstall
#anndata  0.7.8

#(1) load sparse matrix:
X = io.mmread(f"Seurat_dataset/{type}/counts.mtx")

# create anndata object
adata = anndata.AnnData(
    X=X.transpose().tocsr()
)


#(2) load cell metadata:
cell_meta = pd.read_csv(f"Seurat_dataset/{type}/metadata.csv")

# load gene names:
with open(f"Seurat_dataset/{type}/gene_names.csv", 'r') as f:
    gene_names = f.read().splitlines()

# set anndata observations and index obs by barcodes, var by gene names
adata.obs = cell_meta
adata.obs.index = adata.obs['barcode']

adata.var.index = gene_names

#(3) load dimensional reduction:
pca = pd.read_csv(f"Seurat_dataset/{type}/pca.csv")
pca.index = adata.obs.index

# set pca and umap
adata.obsm['X_pca'] = pca.to_numpy()
adata.obsm['X_umap'] = np.vstack((adata.obs['UMAP_1'].to_numpy(), adata.obs['UMAP_2'].to_numpy())).T

# plot a UMAP colored by sampleID to test:
sc.pl.umap(adata, color='seurat_clusters', frameon=False, save=True)

(2) 讀取 loom 數(shù)據(jù)(unsplied/spliced data)

import scvelo as scv
import scanpy as sc
#import cellrank as cr
import numpy as np
import pandas as pd
import anndata as ad

import matplotlib.pyplot as plt

scv.settings.verbosity = 3
scv.settings.set_figure_params('scvelo', facecolor='white', dpi=100, 
                               fontsize=6, color_map='viridis',
                               frameon=False)

#cr.settings.verbosity = 2
#adata = sc.read_h5ad('my_data.h5ad')
#adata=sc.read_loom(f'out/{type}.my_data.loom')

#adata.obsm['X_pca'] = pca.to_numpy()
#adata.obsm['X_umap'] = np.vstack((adata.obs['UMAP_1'].to_numpy(), adata.obs['UMAP_2'].to_numpy())).T

#adata
# 這里展示了多個(gè)樣本的處理方式方援。

# load loom files for spliced/unspliced matrices for each sample:
sample_loom_1="./velocyto/WT1/possorted_genome_bam_HA9DP.loom"
ldata1 = scv.read( sample_loom_1, cache=True)
ldata1
sample_loom_2="./velocyto/WT2/possorted_genome_bam_SOJRI.loom"
ldata2 = scv.read( sample_loom_2, cache=True)
ldata2

(3) merge loom data

ldata1.obs.index[0:2]

加上cell id后綴没炒,和Seurat 中的一致。

# WT_1 -1_1
barcodes = [bc.split(':')[1] for bc in ldata1.obs.index.tolist()]
barcodes = [bc[0:len(bc)-1] + '-1_1' for bc in barcodes]
ldata1.obs.index = barcodes
ldata1.obs.index[0:5]
# WT2 -1_2
barcodes = [bc.split(':')[1] for bc in ldata2.obs.index.tolist()]
barcodes = [bc[0:len(bc)-1] + '-1_2' for bc in barcodes]
ldata2.obs.index = barcodes
ldata2.obs.index[0:5]
ldata1.var.head()
ldata1.var_names_make_unique()
ldata2.var_names_make_unique()

合并2個(gè)loom文件

# merge
ldata = ldata1.concatenate([ldata2])
ldata

和Seurat數(shù)據(jù)合并

# merge matrices into the original adata object
adata = scv.utils.merge(adata, ldata)
adata

保存數(shù)據(jù)

adata.write_h5ad(f'data/{type}.adata_ldata.h5ad')

(4) scVelo 預(yù)處理

adata = sc.read(f'data/{type}.adata_ldata.h5ad')
adata
#scv.pp.filter_and_normalize(adata, min_shared_counts=5, min_shared_cells=3, log=True)
scv.pp.filter_and_normalize(adata)

可選步驟:

## clean some genes
import re
flag = [not bool(re.match('^Rp[ls]', i)) for i in adata.var_names]
adata = adata[:,flag]
#
adata = adata[:,adata.var_names != "Malat1"]
adata

3.scVelo

scv.pp.moments(adata, n_neighbors=30, n_pcs=30)
# this step will take a long while
import gc
gc.collect()
#
temp_pre= f"{type}_nue.in_process2"
if False==os.path.exists(f"{temp_pre}.velo.gz.h5ad"):
    scv.tl.recover_dynamics(adata, var_names='all', n_jobs=64)
    scv.tl.velocity(adata, mode='dynamical')
    adata.write(f"{temp_pre}.velo.gz.h5ad", compression='gzip')
    print(">>Write to file")
else:
    adata = sc.read(f"{temp_pre}.velo.gz.h5ad", compression='gzip', ext="h5ad")
    print(">>read from file")
scv.tl.velocity_graph(adata)
scv.tl.velocity_embedding(adata, basis="umap")

(2) 可視化

add color

## add colSet
adata.obs["cluster_names"] = adata.obs["cluster_names"].astype('category')

color = pd.read_csv(f"../merge/data/mergeR3.neutrophil.color.txt", #compression="gzip", 
            sep=" ", header=0, index_col=0)
#color.index=color.index.astype("str")
color.index=color["cluster_names"]

# 對(duì)數(shù)據(jù) 按分類因子 排序
adata.obs["cluster_names"].cat.reorder_categories(color["cluster_names"], inplace=True)

# 獲取顏色列
color_used = list(color.loc[adata.obs["cluster_names"].cat.categories,"color"])
adata.uns['cluster_names_colors'] = color_used
adata

embedding

scv.pl.velocity_embedding(adata, basis = 'umap', title="WT",
                          save=f"{type}.embedding.pdf",
                          color="seurat_clusters")

grid

scv.settings.set_figure_params('scvelo', dpi=300, dpi_save=300)
fig, ax = plt.subplots()
ax.set_aspect(1)

scv.pl.velocity_embedding_grid(adata, basis='umap',color='cluster_names', title='WT',
                               arrow_size=1, arrow_length=2, arrow_color="#D2691E",
                               alpha=0.1,
                               #density=0.9,
                               legend_loc='right margin',legend_fontsize=5,
                               show=True,
                               save=f"{type}.grid.pdf", #figsize=(10,10),
                               xlim=[-10,10],ylim=[-10,10], ax=ax)
# 默認(rèn)
scv.settings.set_figure_params('scvelo', dpi=300, dpi_save=300)
fig, ax = plt.subplots()
ax.set_aspect(1)
scv.pl.velocity_embedding_grid(adata, basis='umap',color='cluster_names', title='WT',
                               arrow_size=1, arrow_length=2, arrow_color="#D2691E",
                               alpha=0.1,
                               #density=0.9,
                               legend_loc='right margin',legend_fontsize=5,
                               show=True,
                               save=f"{type}.grid.pdf", #figsize=(10,10),
                               xlim=[-10,10],ylim=[-10,10], ax=ax)

stream

%matplotlib inline
import matplotlib.pyplot as plt
scv.settings.set_figure_params('scvelo', dpi=300, dpi_save=300)
#fig, ax = plt.subplots()
#ax.set_aspect(1)
scv.pl.velocity_embedding_stream(adata, basis='umap',color='cluster_names', title='WT',
                               #arrow_size=1, ##arrow_length=2, 
                               #arrow_color="#D2691E",
                               #alpha=0.01, density=0.9,
                               legend_loc='right margin',legend_fontsize=5,
                               show=True,
                               save=f"{type}.stream.pdf")
                                #, #figsize=(10,10),
                               #xlim=[-10,10],ylim=[-10,10], 
                               #  ax=ax)
scv.pl.velocity_embedding_stream(adata, basis="umap", title='WT',
                                 save=f"{type}.stream2.pdf",
                                 color="cluster_names")

for each sample

# for each cancerType (only T)
for i in ['WT1','WT2']:
    flag = [j == i for j in adata.obs.loc[:,'sample0']]
    adata_sub = adata[flag,]
    #flag2 = [j == "T" for j in adata_sub.obs.loc[:,'loc']]
    #adata_sub = adata_sub[flag2,]
    #
    scv.settings.set_figure_params('scvelo', dpi=300, dpi_save=300)
    fig, ax = plt.subplots()
    ax.set_aspect(1)
    scv.pl.velocity_embedding_grid(adata_sub, basis='umap',color='cluster_names', title=i,
                               arrow_size=1, arrow_length=2, arrow_color="#D2691E", alpha=0.1,
                               legend_loc='right margin',legend_fontsize=5,
                               density=0.8,
                               save=f"{type}_Sup.{i}.grid.pdf",# figsize=(10,9),
                               xlim=[-10,10],ylim=[-10,10], ax=ax)

latent time

scv.tl.latent_time(adata)
scv.pl.scatter(adata, color='latent_time', 
               save=f"{type}.latent_time.pdf",# figsize=(10,9),
               color_map='gnuplot', size=80)

heatmap

top_genes = adata.var['fit_likelihood'].sort_values(ascending=False).index[:300] 
scv.pl.heatmap(adata, var_names=top_genes, sortby='latent_time', col_color='cluster_names', 
               save=f"{type}.heatmap.pdf",# figsize=(10,9),
               n_convolve=100)

Top-likelihood genes

# 查看top15的基因 
#top_genes = adata.var['fit_likelihood'].sort_values(ascending=False).index 
scv.pl.scatter(adata, basis=top_genes[:15], ncols=5, 
               save=f"{type}.Driver_genes.pdf",# figsize=(10,9),
               frameon=False)

更多可視化犯戏,參考

ref

http://www.reibang.com/p/fb1cf5806912
http://www.reibang.com/p/bfff8a4cf611

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末送火,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子先匪,更是在濱河造成了極大的恐慌种吸,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件呀非,死亡現(xiàn)場(chǎng)離奇詭異坚俗,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)岸裙,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門猖败,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人降允,你說我怎么就攤上這事恩闻。” “怎么了剧董?”我有些...
    開封第一講書人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵幢尚,是天一觀的道長(zhǎng)破停。 經(jīng)常有香客問我,道長(zhǎng)尉剩,這世上最難降的妖魔是什么真慢? 我笑而不...
    開封第一講書人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮理茎,結(jié)果婚禮上黑界,老公的妹妹穿的比我還像新娘。我一直安慰自己功蜓,他們只是感情好园爷,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著式撼,像睡著了一般童社。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上著隆,一...
    開封第一講書人閱讀 48,970評(píng)論 1 284
  • 那天扰楼,我揣著相機(jī)與錄音,去河邊找鬼美浦。 笑死弦赖,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的浦辨。 我是一名探鬼主播蹬竖,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼流酬!你這毒婦竟也來了币厕?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤芽腾,失蹤者是張志新(化名)和其女友劉穎旦装,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體摊滔,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡阴绢,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了艰躺。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片呻袭。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖腺兴,靈堂內(nèi)的尸體忽然破棺而出棒妨,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布券腔,位于F島的核電站,受9級(jí)特大地震影響拘泞,放射性物質(zhì)發(fā)生泄漏纷纫。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一陪腌、第九天 我趴在偏房一處隱蔽的房頂上張望辱魁。 院中可真熱鬧,春花似錦诗鸭、人聲如沸染簇。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)锻弓。三九已至,卻和暖如春蝌箍,著一層夾襖步出監(jiān)牢的瞬間青灼,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來泰國(guó)打工妓盲, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留杂拨,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓悯衬,卻偏偏與公主長(zhǎng)得像弹沽,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子筋粗,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容