來自SRA的轉(zhuǎn)錄組數(shù)據(jù)友驮,很多文章方法描述簡單,無法判斷是否為鏈特異性數(shù)據(jù)驾锰,導(dǎo)致在mapping和raw reads count時參數(shù)不知如何選擇卸留。所以在數(shù)據(jù)處理前明確其建庫方式尤為重要
什么是鏈特異性建庫
在RNA-Seq建庫的時候,第一步都是進行RNA到cDNA的反轉(zhuǎn)錄椭豫,在反轉(zhuǎn)錄以后耻瑟,普通的RNA-Seq就直接使用random primer進行第2條鏈合成,隨后加接頭捻悯。這樣構(gòu)建出來的RNA-Seq庫進行測序以后是分不清這個序列是來自于genome的那條鏈的匆赃,因為被測序的有可能是gene的foward strand也有可能是reverse strand。而鏈特異性的RNA-Seq建庫是通過一定的建庫策略今缚,讓RNA在反轉(zhuǎn)錄和加adapter的過程以后還能夠保存鏈的信息的建庫策略算柳。
那么鏈特異性RNA-Seq的優(yōu)勢在于哪里呢?是在于它能夠處理一些gene overlap比較復(fù)雜的情況姓言。我們都知道瞬项,幾乎所有高等生物的gene在genome中的分布都是非均勻的,而且一般都是沒有鏈的偏好性何荚。
如果是普通的RNA-Seq囱淋,是分不清這些overlap區(qū)域的reads到底來自于哪一個gene,這就給定表達量帶來了非常大的麻煩餐塘。但是鏈特異性的RNA-Seq就不會妥衣,如果只是foward strand的gene表達那么reads就只會mapping到對應(yīng)的鏈上。
所以戒傻,用鏈特異性的建庫方法税手,是能夠更加準(zhǔn)確進行g(shù)ene定量的。
至于鏈特異性建庫的劣勢需纳,大概有2點吧:1個是貴芦倒,1個是操作復(fù)雜對于珍貴樣品(比如人體組織樣品)一旦建庫不成功就game over了。
如何判斷數(shù)據(jù)的建庫方式
判斷轉(zhuǎn)錄組數(shù)據(jù)是否為鏈特異性不翩,可以用RSeQC的infer_experiment.py工具兵扬。
該軟件的輸入數(shù)據(jù)為bam文件及bed12文件,bam文件很好得到口蝠,但是對于bed12文件確實要下一些功夫了器钟。該文件可以應(yīng)用UCSC的gtfToGenePre工具獲取,具體代碼如下:
#安裝gtfToGenePre
conda install -c bioconda ucsc-gtftogenepred
#從gtf轉(zhuǎn)換為GenePred格式
gtfToGenePred -genePredExt -geneNameAsName2 ../../reference/homo/Homo_sapiens.GRCh38.104.gtf gene.tmp
#從GenePred文件提取信息得到bed12文件
awk '{print $2"\t"$4"\t"$5"\t"$1"\t0\t"$3"\t"$6"\t"$7"\t0\t"$8"\t"$9"\t"$10}' gene.tmp > genes_refseq.bed12
得到bed12文件即可使用infer_experiment.py判斷數(shù)據(jù)是否為鏈特異性亚皂。
#檢驗
infer_experiment.py -r genes_refseq.bed12 -i 2-mapping/SRR14760842.bam
##結(jié)果
This is PairEnd Data
Fraction of reads failed to determine: 0.1151
Fraction of reads explained by "1++,1--,2+-,2-+": 0.4451
Fraction of reads explained by "1+-,1-+,2++,2--": 0.4398
這個結(jié)果怎么看呢俱箱?
其實很簡單,就是要看這里灭必!
如果兩種的比例接近1:1則是非鏈特異性狞谱,如果兩者比例懸殊,則是鏈特異性禁漓。
舉個例子:
上圖這就是鏈特異性的單端數(shù)據(jù)
上圖這種就是非鏈特異性的單端數(shù)據(jù)
對于雙端測序則有些復(fù)雜:
上圖這種顯然是鏈特異性跟衅,而且是fr-secondstrand。意思就是read1在+鏈播歼,相對的gene也同樣在+鏈上伶跷,而read2在+鏈,相對的gene在-鏈上秘狞。這種就是kallisto中的--fr-stranded和stringtie中的--fr叭莫。
上圖這種雖是鏈特異性,但是是“fr-firststrand”烁试,也就是參數(shù)中的--rf雇初。
上圖這種兩種都在0.5附近且比例接近1:1,是非鏈特異性的雙端測序
結(jié)合上述例子减响,很顯然鑒定結(jié)果很明確靖诗,我的數(shù)據(jù)是一個雙端、非鏈特異性的數(shù)據(jù)支示,快檢驗一下你的數(shù)據(jù)吧刊橘!