前言
??今天來跟大家分享一個比較少見的數(shù)據(jù)類型分析——Keth-seq擎颖。不知道大家第一眼看到這個類型是什么感受轻要,反正我的感受就是還有這種數(shù)據(jù)類型,看來還是在下知識淺薄孤陋寡聞了。不過,不知道沒有關(guān)系鹃共,咱可以學習啊初嘹!一頓搜索過后及汉,還是能找到一些資料的沮趣,經(jīng)過一番折騰數(shù)據(jù)分析流程終于走通了屯烦。下面來跟大家做一個分享。
??RNA分子具有折疊成復雜結(jié)構(gòu)的內(nèi)在能力,這些結(jié)構(gòu)對調(diào)節(jié)許多生物過程非常重要驻龟,包括轉(zhuǎn)錄温眉、翻譯、加工和降解翁狐。而對于RNA二級結(jié)構(gòu)的分析可使用icSHAPE(Selective 2′ Hydroxyl Acylation analyzed by Primer Extension)來流程分析类溢,該流程的原理是通過使用2-甲基煙酸咪唑在煙酸環(huán)(NAI-N3)上添加疊氮化物,來修飾未配對的RNA核苷酸序列露懒。然后闯冷,可以通過生物素來進一步來富集被修飾后的片段以便后續(xù)測序分析。Kethoxal (1,1-dihydroxy-3-ethoxy-2-butanone) 在溫和的條件下能夠與單鏈RNA (ssRNA)中的鳥嘌呤反應(yīng)懈词,并誘導逆轉(zhuǎn)錄(RT)的停止蛇耀。與icSHAPE方法類似,azido-kethoxal (N3-kethoxal, 1) 通過特異性地標記ssRNA鏈中鳥嘌呤鏈接處的N1和N2位置坎弯,然后結(jié)合深度測序的方法來探測RNA二級結(jié)構(gòu)纺涤,即Keth-seq。由于Keth-seq方法構(gòu)建的文庫與icSHAPE類似抠忘,因此撩炊,同樣可以使用icSHAPE流程的腳本來處理Keth-seq的測序數(shù)據(jù)。
??上面一段文字簡單描述了Keth-seq的原理以及該方法的分析目的崎脉。簡單來說就是Keth-seq能夠標記RNA鏈中沒有配對的G堿基拧咳,然后通過檢測這些G堿基的位置達到探測RNA二級結(jié)構(gòu)的目的。廢話就不多說了荧嵌,下面來說一下具體的數(shù)據(jù)分析過程呛踊。
分析流程
下圖是分析流程的示意圖:
數(shù)據(jù)處理
1、Collapsing the reads
使用流程的 readCollapse.pl 腳本來完成這一步驟啦撮,默認參數(shù)即可谭网。完全相同序列的讀碼被標記為PCR重復,并在后續(xù)分析前會被過濾掉赃春。這里強調(diào)一下愉择,輸入的fastq文件需要提前解壓好,不能是gz壓縮格式织中。代碼如下所示:
readCollapse.pl -U sample.fastq -o sample_rmdup.fq -f sample_collapse.fa
2锥涕、去除接頭序列
使用流程的 trimming.pl 腳本來刪除序列中的 adapters 以及低質(zhì)量堿基。代碼如下所示:
trimming.pl -U sample_rmdup.fq -o sample_trimmed.fq -l 13 -t 0 -c phred33 -a adapter.fa -m 0
3狭吼、比對
首先层坠,將所有的reads比對到核糖體RNA上,保留未必對上的reads以達到去除rRNA的目的刁笙,然后將保留的reads比對參考基因組上破花。比對使用的軟件是 Bowtie谦趣。代碼如下所示:
bowtie --sam-nohead --quiet -p 5 -S --un sample_rmrrna.fq sample_trimmed.fq sample_rmrna.sam
bowtie --quiet -p 5 -S genome sample_rmrrna.fq sample.sam
4、計算RT信號
使用流程的 calcRT.pl 腳本來計算RT-stop信號座每。代碼如下所示:
calcRT.pl -i sample.sam -o sample.rt -r sample.rpkm -c 5
5前鹅、合并RT信號(可選步驟)
如果有重復的情況下,可使用流程的 combinertreplates .pl 腳本來合并重復間的RT信號峭梳。代碼如下所示:
combineRTreplicates.pl -i sample_rep1.rt:sample_rep2.rt -o sample_combine.rt
6舰绘、標準化RT信號
使用流程的 normalizeRTfile.pl 腳本來分別對處理組和對照組樣品進行RT信號的標準化。代碼如下所示:
normalizeRTfile.pl -i sample_combine.rt -o sample_normed.rt -m mean:vigintile2 -d 32 -l 32
7葱椭、計算 reactivity score
通過使用流程的 calcEnrich.pl 腳本比較處理樣品(前景)和對照樣品(背景)捂寿,然后計算每個轉(zhuǎn)錄本中每個核苷酸的 reactivity score 來作為RNA結(jié)構(gòu)的評估得分。代碼如下所示:
calcEnrich.pl -f sample_case_normed.rt -b sample_control_normed.rt -o sample_enrich.out -w factor5:scaling1 -x 0.25 -y 10
8孵运、過濾 reactivity score
最后者蠕,為了獲得高質(zhì)量的 reactivity score,使用流程的 filterrich .pl 腳本對低質(zhì)量的結(jié)果進行過濾掐松。代碼如下所示:
filterEnrich.pl -i sample_enrich.out -o sample_enrich_filter.out -t 200 -T 2 -s 5 -e 30
為了大家能有一個更為直觀的感受踱侣,我這里展示一下最終得到的文件內(nèi)容,如下所示:
ENSMUST00000117219.2 1545 2031.080251985 NULL NULL NULL NULL NULL NULL 0.337 1.000 0.273 0.145 0.243 0.278 0.103 0.092 0.03
ENSMUST00000221295.2 556 187.220512465203 NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL
ENSMUST00000025271.17 1362 619.179886358961 NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL
ENSMUST00000133910.3 849 169.099803070766 NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL
ENSMUST00000119383.2 555 189.536742599081 NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL
ENSMUST00000153590.2 834 347.609558826383 NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL
ENSMUST00000031243.15 1410 107.555258591905 NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL
ENSMUST00000235468.2 593 84.462331623428 NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL
ENSMUST00000088336.3 294 667.237103151603 NULL NULL NULL NULL NULL NULL 0.084 0.240 0.230 0.444 0.340 0.070 0.290 0.12
ENSMUST00000172132.10 1607 131.447561137884 NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL
ENSMUST00000119822.2 798 291.101195382799 NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL
ENSMUST00000077915.10 364 259.473892898157 NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL
ENSMUST00000117557.8 2019 162.738982819819 NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL
ENSMUST00000074353.6 495 179.75851041931 NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL
ENSMUST00000173844.8 382 276.731461610335 NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL
ENSMUST00000082402.1 1545 7076.29904084836 NULL NULL NULL NULL NULL NULL 1.000 1.000 0.613 0.254 0.900 0.535 0.043 0.34
ENSMUST00000118499.2 750 213.193368235271 NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL
ENSMUST00000129380.2 845 1245.55315764876 NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL
ENSMUST00000117757.9 1273 134.028421025852 NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL
ENSMUST00000173253.2 979 180.173196018338 NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL
ENSMUST00000119790.2 793 172.560595436876 NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL
ENSMUST00000016463.4 1240 245.385465919021 NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL
ENSMUST00000099371.5 276 172.660742860779 NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL
ENSMUST00000136346.2 260 139.892599922161 NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL
ENSMUST00000106599.8 457 190.224308764774 NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL NULL
ENSMUST00000082419.1 519 1088.91055899109 NULL NULL NULL NULL NULL NULL 0.000 0.000 0.106 0.450 0.000 0.409 0.123 0.19
列說明:
第一列:轉(zhuǎn)錄本的Ensembl ID大磺;
第二列:轉(zhuǎn)錄本的長度抡句;
第三列:FPKM值;
第四-最后杠愧;每個堿基的 reactivity score待榔。
??其實前面的1-8步可以使用icSHAPE流程一步來完成,前面之所以展示分步式是想大家可以了解流程中都做了哪些數(shù)據(jù)處理流济,一鍵分析前需要在“icshape.conf”文件配置好流程需要的軟件和參考基因等信息锐锣,一鍵式分析代碼如下所示:
icSHAPE_pipeline.pl -i notreat1.fastq:notreat2.fastq -t kethrep1.fastq:kethrep2.fastq -o icshape_output -c icshape.conf
9、結(jié)果可視化
可利用 IGV 軟件來展示Keth-seq的結(jié)果以顯示RNA的結(jié)構(gòu)信號绳瘟。在此之前雕憔,需要得到可以用來展示的數(shù)據(jù)。處理數(shù)據(jù)的過程如下所示:
enrich2Bedgraph.pl -i sample.out -o sample.bdg -g gtf -a fasta
sort -k1,1 -k2,3n sample.bdg >sample_sorted.bdg
uniqueTrack.pl sample_sort.bdg sample_uniq.bdg
cut -f1-4 sample_uniq.bdg | grep -v NULL > sample_sim.bdg
bedGraphToBigWig sample_sim.bdg genome.chr.size sample_sim.bw
最后可用得到的bigwig文件在IGV中進行可視化展示糖声,這里展示一個效果圖斤彼,如下所示:
最后
??使用icSHAPE流程的腳本來處理 Keth-seq 的數(shù)據(jù)還是相當快捷方便的。今天就分享到這里蘸泻,后面附上了一些 Keth-seq 相關(guān)的參考文獻琉苇,需要的朋友可以看一看。
參考文獻
[1] X Weng, Gong J , Chen Y , et al. Keth-seq for transcriptome-wide RNA structure mapping[J]. Nature Chemical Biology, 2020, 16(5):1-4.
[2] Li P, Shi R, Zhang Q C. icSHAPE-pipe: A comprehensive toolkit for icSHAPE data analysis and evaluation[J]. Methods, 2019.
[3] Spitale, R. C. et al. Structural imprints in vivo decode RNA regulatory mechanisms. Nature 519, 486–490 (2015).
[4] R.C. Spitale, R.A. Flynn, Q.C. Zhang, P. Crisalli, B. Lee, J.W. Jung, H.Y. Kuchelmeister, P.J. Batista, E.A. Torre, E.T. Kool, H.Y. Chang, Structural imprints in vivo decode RNA regulatory mechanisms, Nature 519 (7544) (2015) 486–490.
[5] Xu, Z. & Culver, G.M. In Methods in Enzymology; Biophysical, Chemical, and Functional Probes of Rna Structure, Interactions and Folding, Pt A (ed. Herschalag, D.) Vol 468, 47–165 (Academic Press, 2009).
[6] Weng X , Gong J , Chen Y , et al. Keth-seq for transcriptome-wide RNA structure mapping[J]. Nature Chemical Biology, 2020, 16(5):1-4.