RNA velocity分析練習(xí)(一)文件下載以及預(yù)處理

目前有多種方法可以進(jìn)行RNA velocity的分析:

  1. scVelo(參考文章:單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析|| scVelo 教程:RNA速率分析工具
  2. velocyto (官網(wǎng):Welcome to velocyto.py!
  3. Seurat (參考文章:用Seurat做RNA Velocity

在前一篇的文獻(xiàn)學(xué)習(xí)里(RNA velocity of single cells文獻(xiàn)學(xué)習(xí))刁赖,作者使用的是velocyto軟件蝶棋,也就是上面的第二個(gè)軟件進(jìn)行分析的理朋,所以我也主要學(xué)習(xí)這個(gè)軟件的使用。作者的詳細(xì)代碼見:here,里面有R和python兩種版本。

由于RNA velocity分析的前提,是要我們從單細(xì)胞RNA-seq的數(shù)據(jù)里區(qū)分出未成熟mRNA(unspliced)和成熟的mRNA(spliced)孤个,所以你需要從fastq文件開始,與基因組進(jìn)行對(duì)比后得到sam文件沛简,從sam文件轉(zhuǎn)成bam齐鲤,再從bam文件里提取這些信息,最后你會(huì)得到.loom為后綴的文件椒楣,這個(gè)文件才是我們需要的给郊。

你可以在這個(gè)網(wǎng)站(http://velocyto.org/velocyto.py/tutorial/cli.html)里學(xué)習(xí)如何從bam文件里提取我們需要的信息,你可以使用10X捧灰、SMART-seq2淆九、dropseq等平臺(tái)測(cè)序得到的fastq文件,每一種情況都有詳細(xì)的說明。

這次練習(xí)的原始數(shù)據(jù)是GSE99933炭庙,有768個(gè)文件饲窿,這個(gè)project是應(yīng)用SMART-Seq2平臺(tái)進(jìn)行測(cè)序的。

懶得從fastq文件走一遍完整流程的童鞋可以直接下載bam文件:
http://pklab.med.harvard.edu/velocyto/chromaffin/bams.tar
或者你可以直接下載loom文件進(jìn)行分析:
http://pklab.med.harvard.edu/velocyto/chromaffin/dat.rds

(一)fastq文件下載以及文件名的批量修改

關(guān)于如何批量下載fastq文件焕蹄,如何比對(duì)逾雄,如何從sam文件轉(zhuǎn)成bam文件,我在單細(xì)胞測(cè)序?qū)崙?zhàn)(第一部分)寫的非常詳細(xì)擦盾。這里一共768個(gè)fastq文件嘲驾,大約是12G左右淌哟。

(其實(shí)批量修改文件名不是必要的迹卢,完全可以跳過這一步,但是不知道為什么自己突發(fā)奇想要改名徒仓,可能是看著SRR文件名不舒服吧腐碱。。掉弛。想節(jié)約時(shí)間的童鞋可以直接跳到fastqc步驟)

下載fastq文件后症见,文件名都是SRR開頭的,那么我想把前綴改成細(xì)胞的編號(hào):E13.5_E之類的殃饿,應(yīng)該怎么弄谋作?首先你要先拿到細(xì)胞編號(hào)的list,在GEO頁面里:

點(diǎn)擊“Accession list truncated, click here to browse through all related public accessions”

在新頁面里乎芳,點(diǎn)擊“Export”:

選擇All search results

現(xiàn)在你下載了所有樣品的信息遵蚜,是一個(gè)csv表,用excel打開是這樣的:

用查找/替換功能把[single cell RNA-seq]替換成空白(注意是空白奈惑,不是空格):

從這個(gè)表里提取第二列的細(xì)胞編號(hào):

$ awk -F"," '{print $2}' sample.csv>> cell_name.txt
$ head cell_name.txt 
E12.5_A1
E12.5_A2
E12.5_A3
E12.5_A4
E12.5_A5
E12.5_A6
E12.5_A7
E12.5_A8
E12.5_A9
E12.5_A10

在win10系統(tǒng)下批量修改文件名吭净,看視頻:here或者windows如何批量修改文件名

修改后的fastq文件的名字就變成了:

(二)fastqc

隨便抽取幾個(gè)fastq文件看一下:

整體的測(cè)序質(zhì)量看起來都不錯(cuò)

(三)比對(duì)

進(jìn)入fastq文件夾里進(jìn)行比對(duì):

$ ls *.gz | while read i;do hisat2 -p 10 -x /media/yanfang/FYWD/RNA_seq/ref_genome/index/mm10/genome -U $i -S /media/yanfang/FYWD/scRNA_seq/RNA_relocity/GSE99933_sam/${i}.sam;done

這一步要過夜(大概10個(gè)小時(shí)多一點(diǎn)),因?yàn)槭怯米约旱碾娔X跑的肴甸,所以比較慢寂殉。生成的sam文件:

(四)生成bam文件

可以先看一下后續(xù)分析要去的bam文件是什么樣的:

需要的bam文件是要sort后的缠诅,所以一定要注意漆魔!
$ ls *.fastq.gz.sam | while read i ;do (samtools sort -O bam -@ 10 -o /media/yanfang/FYWD/scRNA_seq/RNA_relocity/GSE99933_bam/$(basename ${i} ".fastq.gz.sam").bam ${i});done

(五)下載mouse_repeat_msk.gtf

除了mm10_annotation.gtf以外(可在https://www.gencodegenes.org/下載),我們還需要一個(gè)文件進(jìn)行后續(xù)的分析赚爵,這個(gè)文件叫repeat_msk.gtf庶柿,你可以在這個(gè)網(wǎng)站:here下載到:

選項(xiàng)都填好村怪,點(diǎn)擊左下角“get output”。就行了澳泵。

這個(gè)gtf文件是幫助我們?nèi)コ磉_(dá)的重復(fù)元素(expressed repetitive elements)实愚,因?yàn)檫@些reads可能在下游分析中構(gòu)成一個(gè)混淆因素。

到此,生成loom文件的必需文件就都準(zhǔn)備齊全了腊敲。下一篇會(huì)介紹生成loom文件需要哪些軟件击喂。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
禁止轉(zhuǎn)載,如需轉(zhuǎn)載請(qǐng)通過簡信或評(píng)論聯(lián)系作者碰辅。
  • 序言:七十年代末懂昂,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子没宾,更是在濱河造成了極大的恐慌凌彬,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,013評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件循衰,死亡現(xiàn)場離奇詭異铲敛,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)会钝,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門伐蒋,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人迁酸,你說我怎么就攤上這事先鱼。” “怎么了奸鬓?”我有些...
    開封第一講書人閱讀 152,370評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵焙畔,是天一觀的道長。 經(jīng)常有香客問我串远,道長宏多,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,168評(píng)論 1 278
  • 正文 為了忘掉前任抑淫,我火速辦了婚禮绷落,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘始苇。我一直安慰自己砌烁,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,153評(píng)論 5 371
  • 文/花漫 我一把揭開白布催式。 她就那樣靜靜地躺著函喉,像睡著了一般。 火紅的嫁衣襯著肌膚如雪荣月。 梳的紋絲不亂的頭發(fā)上管呵,一...
    開封第一講書人閱讀 48,954評(píng)論 1 283
  • 那天,我揣著相機(jī)與錄音哺窄,去河邊找鬼捐下。 笑死账锹,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的坷襟。 我是一名探鬼主播奸柬,決...
    沈念sama閱讀 38,271評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼婴程!你這毒婦竟也來了廓奕?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,916評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤档叔,失蹤者是張志新(化名)和其女友劉穎桌粉,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體衙四,經(jīng)...
    沈念sama閱讀 43,382評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡铃肯,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,877評(píng)論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了届搁。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片缘薛。...
    茶點(diǎn)故事閱讀 37,989評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡窍育,死狀恐怖卡睦,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情漱抓,我是刑警寧澤表锻,帶...
    沈念sama閱讀 33,624評(píng)論 4 322
  • 正文 年R本政府宣布,位于F島的核電站乞娄,受9級(jí)特大地震影響瞬逊,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜仪或,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,209評(píng)論 3 307
  • 文/蒙蒙 一确镊、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧范删,春花似錦蕾域、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至添忘,卻和暖如春采呐,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背搁骑。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評(píng)論 1 260
  • 我被黑心中介騙來泰國打工斧吐, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留又固,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,401評(píng)論 2 352
  • 正文 我出身青樓煤率,卻偏偏與公主長得像口予,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子涕侈,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,700評(píng)論 2 345