Find_circ工具是最早利用高通量測序數(shù)據(jù)預(yù)測環(huán)狀RNA的開山鼻祖。該工具是Memczak等人2013年在權(quán)威Nature雜志上發(fā)表題為“CircularRNAs are a large class of animal RNAs with regulatory potency”的文章時首次發(fā)布的喧兄,從而掀起了環(huán)狀RNA的研究熱潮乍构。
它的工作流程是:和參考基因組比對完之后西设,首先剔除和基因組完全比對的reads,保留沒比對上的reads, 這部分reads 直接比是比對不上基因組的,因為其來自不同的外顯子區(qū)域干签,直接比對的話不允許這么大片段的缺失,那么如何區(qū)分剪切的spliced read 和 來自環(huán)狀RNA的junction read呢拆撼,從上面的示意圖我們可以直接看出容劳,spliced read 的兩部分比對在基因組上的前后位置和轉(zhuǎn)錄本中的位置保持一致,而來自circRNA的junction read 其比對的位置是相反的闸度;具體操作的時候竭贩,首先從junction read的5'端和3'端取一部分序列,分別叫做5' anchor 和 3" anchor, 如果兩個序列比對的位置是相反的莺禁,這條reads 就是一個可能的junction read, 然后將anchor read 一直延伸留量,直到連接處為止,如果到連接處為止序列都能夠完全匹配哟冬,再看連接點處的剪切模式是否符合AG-GT的剪切模式楼熄,如果以上條件都滿足,就認定這是一個circRNA浩峡。(其實我在這里是疑惑的可岂,一定要AG-GT的剪切模式嗎,我看有的文章還有別的剪切模式翰灾,如果是這樣缕粹,感覺這個方法會預(yù)過濾掉一批circRNA數(shù)據(jù))
===下載和安裝====
下載:https://github.com/marvin-jens/find_circ
Find_circ需要運行在裝有python 2.7的64位系統(tǒng)上,同時需要安裝numpy和pysam這兩個python模塊预侯。其運行需要借助bowtie2和samtools來完成基因組mapping的過程致开。
====測試====
第一步:比對
bowtie2 -p 40 --very-sensitive--score-min=C,-15,0 --mm -x K326 -q -1 CK_0_1_1.fq.gz -2 CK_0_1_2.fq.gz -S CK_0_1.sam
samtools-1.9/samtools view -hbuS -o CK_0_1.bam CK_0_1.sam
samtools-1.9/samtools sort -@ 30 CK_0_1.bam -o CK_0_1.sort.bam
第二步:提取沒有比對上的序列
samtools-1.9/samtools view -hf 4 CK_0_1.sort.bam | samtools-1.9/samtools view -Sb - > CK_0_1.unmapped.bam
第三步:從序列兩端提取錨點序列(anchor)
source activate python27
python unmapped2anchors.py CK_0_1.unmapped.bam | gzip > CK_0_1.anchor.fq.gz
第四步:將錨點序列比對參考基因組
bowtie2 -p 40 --reorder --mm --score-min=C,-15,0 -q -x K326 -U CK_0_1.anchor.fq.gz -S CK_0_1.align.sam
第五步:預(yù)測circRNA
cat CK_0_1.align.sam | python find_circ.py -G Nitab-v4.5_genome_Scf_Edwards2017.fasta -p Nitab_? -n CK_0_1 -s CK_0_1_stats.txt -R CK_0_1_spliced_reads.fa > CK_0_1_splice_sites.bed
splice_sites結(jié)果如下圖所示:
-p參數(shù)指定的是第四列內(nèi)容的前綴,建議指定為物種對應(yīng)的三字母縮寫萎馅,需要注意的是双戳,在sites.bed中同時包含了環(huán)狀RNA和線性RNA,環(huán)狀RNA的名稱用circ標識,線性RNA的名稱用norm標識糜芳。
第六步:結(jié)果過濾與篩選
?
我看網(wǎng)上建議的過濾標注如下:
根據(jù)關(guān)鍵詞CIRCULAR篩選環(huán)狀RNA
去除線粒體上的環(huán)狀RNA
篩選unique junction reads數(shù)至少為2的環(huán)狀RNA
去除斷裂點不明確的環(huán)狀RNA
過濾掉長度大于100kb的circRNA,這里的100kb為基因組長度飒货,直接用環(huán)狀RNA的頭尾相減即可
grep CIRCULAR CK_0_1_splice_sites.bed | grep -v chrM | awk '$5>=2' | grep UNAMBIGUOUS_BP | grep ANCHOR_UNIQUE | python maxlength.py 100000 > CK_0_1_circ_candidates.bed
本文使用 文章同步助手 同步