RNA velocity分析練習(xí)(三)生成loom文件

系列回顧:
1.RNA velocity分析練習(xí)(一)文件下載以及預(yù)處理
2.RNA velocity分析練習(xí)(二)軟件安裝

Velocyto軟件針對不同測序平臺随抠,有不同的方法進(jìn)行l(wèi)oom文件的提取设预,你可以參考官網(wǎng):here來進(jìn)行操作。

我練習(xí)的數(shù)據(jù)是Smartseq2平臺測序結(jié)果舌胶,所以這里只介紹這一種。

velocyto includes a shortcut to perform the read counting for UMI-less, not stranded, full-length techniques such as SmartSeq2.

根據(jù)我之前寫的筆記,你需要準(zhǔn)備好基因組的annotation文件,和repeat_msk.gtf文件请垛。這一步所需時間取決于你數(shù)據(jù)的測序深度和電腦配置,但一般不會超過6小時洽议。(實際上我的破電腦真的跑了6個小時宗收。。绞铃。)

已經(jīng)準(zhǔn)備好的bam文件:

下載好的基因組注釋文件(小鼠):

我這是去年下載的镜雨,現(xiàn)在已經(jīng)更新到v25了

下載并解壓好的repeat_msk.gtf文件:

(一)生成loom文件

進(jìn)入bam文件所在的文件夾:

$ velocyto run_smartseq2 -o /media/yanfang/FYWD/scRNA_seq/RNA_relocity/loom_files/ -m /media/yanfang/FYWD/RNA_seq/ref_genome/mm10_repeat_msk.gtf -e MyTissue /media/yanfang/FYWD/scRNA_seq/RNA_relocity/GSE99933_bam/*.bam /media/yanfang/FYWD/RNA_seq/ref_genome/gencode.vM22.annotation.gtf

(代碼里的"MyTissue"這個名字是一會兒生成loom文件的前綴)
-o :輸出文件的文件夾
run_smartseq2:指定哪個平臺的測序結(jié)果

運(yùn)行過程會彈出很多信息,每讀取一個bam文件都會顯示幾行信息儿捧,例如說:

2020-05-19 17:13:10,863 - DEBUG - Reading /media/yanfang/FYWD/scRNA_seq/RNA_relocity/GSE99933_bam/E13.5_P9.bam
2020-05-19 17:13:11,197 - DEBUG - Read first 0 million reads
2020-05-19 17:13:22,762 - DEBUG - Counting for batch 768, containing 1 cells and 419294 reads
2020-05-19 17:13:37,676 - DEBUG - 42428 reads in repeat masked regions
2020-05-19 17:13:37,676 - DEBUG - 191333 reads overlapping with features on plus strand
2020-05-19 17:13:37,677 - DEBUG - 188152 reads overlapping with features on minus strand
2020-05-19 17:13:37,677 - DEBUG - 25321 reads overlapping with features on both strands
2020-05-19 17:13:41,095 - WARNING - The barcode selection mode is off, no cell events will be identified by <80 counts
2020-05-19 17:13:41,095 - WARNING - 0 of the barcodes where without cell

bam文件都讀取完成會顯示:

2020-05-19 17:13:41,161 - DEBUG - Counting done!
2020-05-19 17:13:41,161 - DEBUG - Example of barcode: E13.5_D9.bam and cell_id: MyTissue:E13.5_D9.bam
2020-05-19 17:13:41,161 - DEBUG - Generating output file /media/yanfang/FYWD/scRNA_seq/RNA_relocity/loom_files/MyTissue.loom
2020-05-19 17:13:41,161 - DEBUG - Collecting row attributes
2020-05-19 17:13:41,324 - DEBUG - Generating data table
2020-05-19 17:13:44,062 - DEBUG - Writing loom file
2020-05-19 17:13:53,902 - DEBUG - Terminated Succesfully!

得到的loom文件:

(二)讀取loom文件

參考文章:
https://www.cnblogs.com/raisok/p/12425258.html
http://pklab.med.harvard.edu/velocyto/notebooks/R/SCG71.nb.html
https://satijalab.org/loomR/loomR_tutorial.html
https://bustools.github.io/BUS_notebooks_R/velocity.html

這里用R來進(jìn)行舉例:

> library(devtools)
> install_github("velocyto-team/velocyto.R")
> library(velocyto.R)
#load data
> input_loom <- "MyTissue.loom"
> adata <- read.loom.matrices(input_loom)

可以來看一下adata這個對象里都有什么:

其中spliced和unspliced就是我們需要的成熟的mRNA和未成熟mRNA的數(shù)值荚坞;spanning的意思是落在intron+exon上的reads count
# Use the spliced data as the input data提取spliced數(shù)據(jù)
> spliced_adata <- adata$spliced
> dim(spliced_adata)
[1] 55487   768 #5萬多個基因菲盾,768個細(xì)胞

NOTE
你也可以用R直接讀取bam文件(針對smartseq2平臺的數(shù)據(jù))颓影,我沒有運(yùn)行過,僅僅是從文獻(xiàn)作者提供的代碼copy過來(源代碼:https://github.com/velocyto-team/velocyto-notebooks/blob/master/R/chromaffin.Rmd):

> path <- "data/e12.5.bams"
> files <- system(paste('find',path,'-name "*unique.bam" -print'),intern=T)
> names(files) <- gsub(".*\\/(.*)_unique.bam","\\1",files)
# parse gene annotation, annotate bam file reads
> dat <- read.smartseq2.bams(files,"data/genes.refFlat",n.cores=40)

到這一步懒鉴,我們所需要的count矩陣就有了诡挂。后面就是RNA velocity的分析過程了。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
禁止轉(zhuǎn)載临谱,如需轉(zhuǎn)載請通過簡信或評論聯(lián)系作者璃俗。
  • 序言:七十年代末悉默,一起剝皮案震驚了整個濱河市城豁,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌抄课,老刑警劉巖唱星,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件雳旅,死亡現(xiàn)場離奇詭異,居然都是意外死亡间聊,警方通過查閱死者的電腦和手機(jī)攒盈,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來哎榴,“玉大人型豁,你說我怎么就攤上這事√净埃” “怎么了偷遗?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長驼壶。 經(jīng)常有香客問我,道長喉酌,這世上最難降的妖魔是什么热凹? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮泪电,結(jié)果婚禮上般妙,老公的妹妹穿的比我還像新娘。我一直安慰自己相速,他們只是感情好碟渺,可當(dāng)我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著突诬,像睡著了一般苫拍。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上旺隙,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天绒极,我揣著相機(jī)與錄音,去河邊找鬼蔬捷。 笑死垄提,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的周拐。 我是一名探鬼主播铡俐,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼妥粟!你這毒婦竟也來了审丘?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤罕容,失蹤者是張志新(化名)和其女友劉穎备恤,沒想到半個月后稿饰,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡露泊,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年喉镰,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片惭笑。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡侣姆,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出沉噩,到底是詐尸還是另有隱情捺宗,我是刑警寧澤,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布川蒙,位于F島的核電站蚜厉,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏畜眨。R本人自食惡果不足惜昼牛,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望康聂。 院中可真熱鬧贰健,春花似錦、人聲如沸恬汁。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽氓侧。三九已至脊另,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間甘苍,已是汗流浹背尝蠕。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留载庭,地道東北人看彼。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像囚聚,于是被迫代替她去往敵國和親靖榕。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,722評論 2 345