如何判斷數(shù)據(jù)為鏈特異性轉(zhuǎn)錄組數(shù)據(jù)

從NCBI上下載轉(zhuǎn)錄組數(shù)據(jù),很多文章方法描述簡(jiǎn)單棍弄,無法判斷是否為鏈特異性數(shù)據(jù),導(dǎo)致在mapping和raw reads count時(shí)參數(shù)不知如何選擇。一直弄不懂鏈特異性和參數(shù)設(shè)置的同志們可以去看《鏈特異建庫那點(diǎn)事》披摄,講的非常清楚(雖然小白看完還是一知半解)。所以關(guān)于判斷轉(zhuǎn)錄組數(shù)據(jù)是否為鏈特異性勇凭,偷懶的小白找到了一個(gè)比較省事兒的方法疚膊,用RSeQC的infer_experiment.py工具。

官網(wǎng)鏈接:http://rseqc.sourceforge.net/#infer-experiment-py

官網(wǎng)用法如下:
infer_experiment.py的用法舉例

需要輸入自己數(shù)據(jù)的bam文件虾标,這個(gè)容易拿到寓盗。

但是另一個(gè)hg19.refseq.bed12文件,官網(wǎng)給出的參數(shù)解釋如下:
infer_experiment.py的參數(shù)

小白不知道Reference gene model in bed format是啥璧函,嗚嗚嗚~傀蚌,于是在官網(wǎng)開始找相關(guān)信息。目錄為Input format一欄顯示了bed12文件的舉例文件和推薦的使用工具:
input format內(nèi)容

但是Bedops(Bedopts)的gff2bed工具和RSeQC的舉例bed12格式卻大不一樣柳譬。

Bedops(Bedopts)的gff2bed轉(zhuǎn)化成bed文件的結(jié)果:
原鏈接:
https://bedops.readthedocs.io/en/latest/content/reference/file-management/conversion/gtf2bed.html

gff2bed結(jié)果

而RSeQC舉例的bed12格式的文件喳张,除了包含常用的chromosome, start, end, name, score, strand等信息外,最后一列包含了多個(gè)extron和intron等的位置美澳,用逗號(hào)隔開销部。
原鏈接:
http://dldcc-web.brc.bcm.edu/lilab/liguow/RSeQC/dat/sample.bed

RSeQC舉例的bed12文件

小白通過搜索終于找到了獲取bed12文件Reference gene model in bed format的方法摸航,就是使用UCSC的gtfToGenePre工具,小白在上一篇筆記《Reference gene model in bed format》中已經(jīng)詳細(xì)講述舅桩,這里只列代碼:

#安裝gtfToGenePre
conda install -c bioconda ucsc-gtftogenepred
#準(zhǔn)備好基因組gtf文件酱虎,從gtf轉(zhuǎn)換為GenePred格式
gtfToGenePred -genePredExt -geneNameAsName2 genes.gtf gene.tmp
#從GenePred文件提取信息得到bed文件
awk '{print $2"\t"$4"\t"$5"\t"$1"\t0\t"$3"\t"$6"\t"$7"\t0\t"$8"\t"$9"\t"$10}' gene.tmp >  genes_refseq.bed12 

拿到bed12文件后,開始試試用infer_experiment.py判斷數(shù)據(jù)是否為鏈特異性擂涛。

infer_experiment.py -r genes_refseq.bed12 -i col.bam

結(jié)果:

Reading reference gene model genes_refseq.bed12 ... Done
Loading SAM/BAM file ...  Total 200000 usable reads were sampled

This is SingleEnd Data
Fraction of reads failed to determine: 0.0050
Fraction of reads explained by "++,--": 0.4974
Fraction of reads explained by "+-,-+": 0.4976

這表明該數(shù)據(jù)為單端數(shù)據(jù)读串,以illumina standard建庫方式為代表的fr-unstranded的非鏈特異性轉(zhuǎn)錄組數(shù)據(jù)。

再來一個(gè)鏈特異性的雙端數(shù)據(jù)試試:

infer_experiment.py -r genes_refseq.bed12 -i m1_col_1_s.bam

結(jié)果:

Reading reference gene model genes_refseq.bed12 ... Done
Loading SAM/BAM file ...  Total 200000 usable reads were sampled

This is PairEnd Data
Fraction of reads failed to determine: 0.0057
Fraction of reads explained by "1++,1--,2+-,2-+": 0.0049
Fraction of reads explained by "1+-,1-+,2++,2--": 0.9894

這表明該數(shù)據(jù)為雙端數(shù)據(jù)撒妈,以dUTP建庫方式為代表的RF (fr-firststrand)的鏈特異性轉(zhuǎn)錄組數(shù)據(jù)恢暖。

結(jié)果的詳細(xì)解讀可以去官網(wǎng)或參考鏈接:
http://rseqc.sourceforge.net/#infer-experiment-py
http://www.reibang.com/p/4987dce4d165

歡迎關(guān)注和討論哦,小白們一起學(xué)習(xí)生信~

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末狰右,一起剝皮案震驚了整個(gè)濱河市杰捂,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌棋蚌,老刑警劉巖嫁佳,帶你破解...
    沈念sama閱讀 211,348評(píng)論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異谷暮,居然都是意外死亡蒿往,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,122評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門湿弦,熙熙樓的掌柜王于貴愁眉苦臉地迎上來瓤漏,“玉大人,你說我怎么就攤上這事省撑《拿铮” “怎么了?”我有些...
    開封第一講書人閱讀 156,936評(píng)論 0 347
  • 文/不壞的土叔 我叫張陵竟秫,是天一觀的道長(zhǎng)娃惯。 經(jīng)常有香客問我,道長(zhǎng)肥败,這世上最難降的妖魔是什么趾浅? 我笑而不...
    開封第一講書人閱讀 56,427評(píng)論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮馒稍,結(jié)果婚禮上皿哨,老公的妹妹穿的比我還像新娘。我一直安慰自己纽谒,他們只是感情好证膨,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,467評(píng)論 6 385
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著鼓黔,像睡著了一般央勒。 火紅的嫁衣襯著肌膚如雪不见。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,785評(píng)論 1 290
  • 那天崔步,我揣著相機(jī)與錄音稳吮,去河邊找鬼。 笑死井濒,一個(gè)胖子當(dāng)著我的面吹牛灶似,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播瑞你,決...
    沈念sama閱讀 38,931評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼酪惭,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了捏悬?” 一聲冷哼從身側(cè)響起撞蚕,我...
    開封第一講書人閱讀 37,696評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎过牙,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體纺铭,經(jīng)...
    沈念sama閱讀 44,141評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡寇钉,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,483評(píng)論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了舶赔。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片扫倡。...
    茶點(diǎn)故事閱讀 38,625評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖竟纳,靈堂內(nèi)的尸體忽然破棺而出撵溃,到底是詐尸還是另有隱情,我是刑警寧澤锥累,帶...
    沈念sama閱讀 34,291評(píng)論 4 329
  • 正文 年R本政府宣布缘挑,位于F島的核電站,受9級(jí)特大地震影響桶略,放射性物質(zhì)發(fā)生泄漏语淘。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,892評(píng)論 3 312
  • 文/蒙蒙 一际歼、第九天 我趴在偏房一處隱蔽的房頂上張望惶翻。 院中可真熱鬧,春花似錦鹅心、人聲如沸吕粗。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,741評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽颅筋。三九已至宙暇,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間垃沦,已是汗流浹背客给。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評(píng)論 1 265
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留肢簿,地道東北人靶剑。 一個(gè)月前我還...
    沈念sama閱讀 46,324評(píng)論 2 360
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像池充,于是被迫代替她去往敵國(guó)和親桩引。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,492評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容