簡單全面的 Keth-seq 數(shù)據(jù)分析教程

前言

??今天來跟大家分享一個比較少見的數(shù)據(jù)類型分析——Keth-seq擎颖。不知道大家第一眼看到這個類型是什么感受轻要,反正我的感受就是還有這種數(shù)據(jù)類型,看來還是在下知識淺薄孤陋寡聞了。不過,不知道沒有關(guān)系鹃共,咱可以學習啊初嘹!一頓搜索過后及汉,還是能找到一些資料的沮趣,經(jīng)過一番折騰數(shù)據(jù)分析流程終于走通了屯烦。下面來跟大家做一個分享。
??RNA分子具有折疊成復雜結(jié)構(gòu)的內(nèi)在能力,這些結(jié)構(gòu)對調(diào)節(jié)許多生物過程非常重要驻龟,包括轉(zhuǎn)錄温眉、翻譯、加工和降解翁狐。而對于RNA二級結(jié)構(gòu)的分析可使用icSHAPE(Selective 2′ Hydroxyl Acylation analyzed by Primer Extension)來流程分析类溢,該流程的原理是通過使用2-甲基煙酸咪唑在煙酸環(huán)(NAI-N3)上添加疊氮化物,來修飾未配對的RNA核苷酸序列露懒。然后闯冷,可以通過生物素來進一步來富集被修飾后的片段以便后續(xù)測序分析。Kethoxal (1,1-dihydroxy-3-ethoxy-2-butanone) 在溫和的條件下能夠與單鏈RNA (ssRNA)中的鳥嘌呤反應(yīng)懈词,并誘導逆轉(zhuǎn)錄(RT)的停止蛇耀。與icSHAPE方法類似,azido-kethoxal (N3-kethoxal, 1) 通過特異性地標記ssRNA鏈中鳥嘌呤鏈接處的N1和N2位置坎弯,然后結(jié)合深度測序的方法來探測RNA二級結(jié)構(gòu)纺涤,即Keth-seq。由于Keth-seq方法構(gòu)建的文庫與icSHAPE類似抠忘,因此撩炊,同樣可以使用icSHAPE流程的腳本來處理Keth-seq的測序數(shù)據(jù)。
??上面一段文字簡單描述了Keth-seq的原理以及該方法的分析目的崎脉。簡單來說就是Keth-seq能夠標記RNA鏈中沒有配對的G堿基拧咳,然后通過檢測這些G堿基的位置達到探測RNA二級結(jié)構(gòu)的目的。廢話就不多說了荧嵌,下面來說一下具體的數(shù)據(jù)分析過程呛踊。

分析流程

下圖是分析流程的示意圖:

數(shù)據(jù)處理

1、Collapsing the reads
使用流程的 readCollapse.pl 腳本來完成這一步驟啦撮,默認參數(shù)即可谭网。完全相同序列的讀碼被標記為PCR重復,并在后續(xù)分析前會被過濾掉赃春。這里強調(diào)一下愉择,輸入的fastq文件需要提前解壓好,不能是gz壓縮格式织中。代碼如下所示:

readCollapse.pl  -U sample.fastq -o sample_rmdup.fq -f sample_collapse.fa

2锥涕、去除接頭序列
使用流程的 trimming.pl 腳本來刪除序列中的 adapters 以及低質(zhì)量堿基。代碼如下所示:

trimming.pl -U sample_rmdup.fq -o sample_trimmed.fq -l 13 -t 0 -c phred33 -a adapter.fa -m 0

3狭吼、比對
首先层坠,將所有的reads比對到核糖體RNA上,保留未必對上的reads以達到去除rRNA的目的刁笙,然后將保留的reads比對參考基因組上破花。比對使用的軟件是 Bowtie谦趣。代碼如下所示:

bowtie --sam-nohead --quiet -p 5 -S --un sample_rmrrna.fq sample_trimmed.fq sample_rmrna.sam

bowtie --quiet -p 5 -S genome sample_rmrrna.fq sample.sam

4、計算RT信號
使用流程的 calcRT.pl 腳本來計算RT-stop信號座每。代碼如下所示:

calcRT.pl -i sample.sam -o sample.rt -r sample.rpkm -c 5

5前鹅、合并RT信號(可選步驟)
如果有重復的情況下,可使用流程的 combinertreplates .pl 腳本來合并重復間的RT信號峭梳。代碼如下所示:

combineRTreplicates.pl -i sample_rep1.rt:sample_rep2.rt -o sample_combine.rt

6舰绘、標準化RT信號
使用流程的 normalizeRTfile.pl 腳本來分別對處理組和對照組樣品進行RT信號的標準化。代碼如下所示:

normalizeRTfile.pl -i sample_combine.rt -o sample_normed.rt -m mean:vigintile2 -d 32 -l 32

7葱椭、計算 reactivity score
通過使用流程的 calcEnrich.pl 腳本比較處理樣品(前景)和對照樣品(背景)捂寿,然后計算每個轉(zhuǎn)錄本中每個核苷酸的 reactivity score 來作為RNA結(jié)構(gòu)的評估得分。代碼如下所示:

calcEnrich.pl -f sample_case_normed.rt -b sample_control_normed.rt -o sample_enrich.out -w factor5:scaling1 -x 0.25 -y 10

8孵运、過濾 reactivity score
最后者蠕,為了獲得高質(zhì)量的 reactivity score,使用流程的 filterrich .pl 腳本對低質(zhì)量的結(jié)果進行過濾掐松。代碼如下所示:

filterEnrich.pl -i sample_enrich.out -o sample_enrich_filter.out -t 200 -T 2 -s 5 -e 30

為了大家能有一個更為直觀的感受踱侣,我這里展示一下最終得到的文件內(nèi)容,如下所示:

ENSMUST00000117219.2    1545    2031.080251985  NULL    NULL    NULL    NULL    NULL    NULL    0.337   1.000   0.273   0.145   0.243   0.278   0.103   0.092   0.03
ENSMUST00000221295.2    556     187.220512465203        NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL
ENSMUST00000025271.17   1362    619.179886358961        NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL
ENSMUST00000133910.3    849     169.099803070766        NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL
ENSMUST00000119383.2    555     189.536742599081        NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL
ENSMUST00000153590.2    834     347.609558826383        NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL
ENSMUST00000031243.15   1410    107.555258591905        NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL
ENSMUST00000235468.2    593     84.462331623428 NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL
ENSMUST00000088336.3    294     667.237103151603        NULL    NULL    NULL    NULL    NULL    NULL    0.084   0.240   0.230   0.444   0.340   0.070   0.290   0.12
ENSMUST00000172132.10   1607    131.447561137884        NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL
ENSMUST00000119822.2    798     291.101195382799        NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL
ENSMUST00000077915.10   364     259.473892898157        NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL
ENSMUST00000117557.8    2019    162.738982819819        NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL
ENSMUST00000074353.6    495     179.75851041931 NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL
ENSMUST00000173844.8    382     276.731461610335        NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL
ENSMUST00000082402.1    1545    7076.29904084836        NULL    NULL    NULL    NULL    NULL    NULL    1.000   1.000   0.613   0.254   0.900   0.535   0.043   0.34
ENSMUST00000118499.2    750     213.193368235271        NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL
ENSMUST00000129380.2    845     1245.55315764876        NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL
ENSMUST00000117757.9    1273    134.028421025852        NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL
ENSMUST00000173253.2    979     180.173196018338        NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL
ENSMUST00000119790.2    793     172.560595436876        NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL
ENSMUST00000016463.4    1240    245.385465919021        NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL
ENSMUST00000099371.5    276     172.660742860779        NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL
ENSMUST00000136346.2    260     139.892599922161        NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL
ENSMUST00000106599.8    457     190.224308764774        NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL
ENSMUST00000082419.1    519     1088.91055899109        NULL    NULL    NULL    NULL    NULL    NULL    0.000   0.000   0.106   0.450   0.000   0.409   0.123   0.19

列說明:
第一列:轉(zhuǎn)錄本的Ensembl ID大磺;
第二列:轉(zhuǎn)錄本的長度抡句;
第三列:FPKM值;
第四-最后杠愧;每個堿基的 reactivity score待榔。

??其實前面的1-8步可以使用icSHAPE流程一步來完成,前面之所以展示分步式是想大家可以了解流程中都做了哪些數(shù)據(jù)處理流济,一鍵分析前需要在“icshape.conf”文件配置好流程需要的軟件和參考基因等信息锐锣,一鍵式分析代碼如下所示:

icSHAPE_pipeline.pl -i notreat1.fastq:notreat2.fastq -t kethrep1.fastq:kethrep2.fastq -o icshape_output -c icshape.conf

9、結(jié)果可視化
可利用 IGV 軟件來展示Keth-seq的結(jié)果以顯示RNA的結(jié)構(gòu)信號绳瘟。在此之前雕憔,需要得到可以用來展示的數(shù)據(jù)。處理數(shù)據(jù)的過程如下所示:

enrich2Bedgraph.pl -i sample.out -o sample.bdg -g gtf -a fasta

sort -k1,1 -k2,3n sample.bdg >sample_sorted.bdg

uniqueTrack.pl sample_sort.bdg sample_uniq.bdg

cut -f1-4 sample_uniq.bdg | grep -v NULL > sample_sim.bdg

bedGraphToBigWig sample_sim.bdg genome.chr.size sample_sim.bw

最后可用得到的bigwig文件在IGV中進行可視化展示糖声,這里展示一個效果圖斤彼,如下所示:

最后

??使用icSHAPE流程的腳本來處理 Keth-seq 的數(shù)據(jù)還是相當快捷方便的。今天就分享到這里蘸泻,后面附上了一些 Keth-seq 相關(guān)的參考文獻琉苇,需要的朋友可以看一看。

參考文獻

[1] X Weng, Gong J , Chen Y , et al. Keth-seq for transcriptome-wide RNA structure mapping[J]. Nature Chemical Biology, 2020, 16(5):1-4.
[2] Li P, Shi R, Zhang Q C. icSHAPE-pipe: A comprehensive toolkit for icSHAPE data analysis and evaluation[J]. Methods, 2019.
[3] Spitale, R. C. et al. Structural imprints in vivo decode RNA regulatory mechanisms. Nature 519, 486–490 (2015).
[4] R.C. Spitale, R.A. Flynn, Q.C. Zhang, P. Crisalli, B. Lee, J.W. Jung, H.Y. Kuchelmeister, P.J. Batista, E.A. Torre, E.T. Kool, H.Y. Chang, Structural imprints in vivo decode RNA regulatory mechanisms, Nature 519 (7544) (2015) 486–490.
[5] Xu, Z. & Culver, G.M. In Methods in Enzymology; Biophysical, Chemical, and Functional Probes of Rna Structure, Interactions and Folding, Pt A (ed. Herschalag, D.) Vol 468, 47–165 (Academic Press, 2009).
[6] Weng X , Gong J , Chen Y , et al. Keth-seq for transcriptome-wide RNA structure mapping[J]. Nature Chemical Biology, 2020, 16(5):1-4.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末悦施,一起剝皮案震驚了整個濱河市并扇,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌抡诞,老刑警劉巖穷蛹,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件渗勘,死亡現(xiàn)場離奇詭異,居然都是意外死亡俩莽,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進店門乔遮,熙熙樓的掌柜王于貴愁眉苦臉地迎上來扮超,“玉大人,你說我怎么就攤上這事蹋肮〕鏊ⅲ” “怎么了?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵坯辩,是天一觀的道長馁龟。 經(jīng)常有香客問我,道長漆魔,這世上最難降的妖魔是什么坷檩? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮改抡,結(jié)果婚禮上矢炼,老公的妹妹穿的比我還像新娘。我一直安慰自己阿纤,他們只是感情好句灌,可當我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著欠拾,像睡著了一般胰锌。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上藐窄,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天资昧,我揣著相機與錄音,去河邊找鬼荆忍。 笑死榛搔,一個胖子當著我的面吹牛伤锚,可吹牛的內(nèi)容都是我干的尸昧。 我是一名探鬼主播万矾,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼炸卑,長吁一口氣:“原來是場噩夢啊……” “哼拳芙!你這毒婦竟也來了会钝?” 一聲冷哼從身側(cè)響起环戈,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤傲宜,失蹤者是張志新(化名)和其女友劉穎芥吟,沒想到半個月后侦铜,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體专甩,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年钉稍,在試婚紗的時候發(fā)現(xiàn)自己被綠了涤躲。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡贡未,死狀恐怖种樱,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情俊卤,我是刑警寧澤嫩挤,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站消恍,受9級特大地震影響岂昭,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜狠怨,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一约啊、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧佣赖,春花似錦棍苹、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至蹂午,卻和暖如春栏豺,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背豆胸。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工奥洼, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人晚胡。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓灵奖,卻偏偏與公主長得像,于是被迫代替她去往敵國和親估盘。 傳聞我的和親對象是個殘疾皇子瓷患,可洞房花燭夜當晚...
    茶點故事閱讀 42,722評論 2 345