用到的軟件是TargetFinder,軟件的具體安裝見(jiàn):https://github.com/carringtonlab/TargetFinder。它依賴于fasta-35蓖康。
The FASTA package - protein and DNA sequence similarity searching and alignment programs铐炫,下載鏈接:http://faculty.virginia.edu/wrpearson/fasta/fasta33-35/
。下載解壓之后蒜焊,fasta-35版本的安裝看README文件
To make the standard FASTA programs:
cd src
make -f ../make/Makefile.linux_sse2 all
The executable programs will then be found in ../bin
注意TargetFinder只能用fasta-35倒信,雖然github上面有fasta36: https://github.com/wrpearson/fasta36
如何使用?
舉個(gè)栗子
targetfinder_threads.pl -f sRNA.fa -d ~/ref/Aegilops_tauschii.Aet_v4.0.cds.all.fa -t 8 -p gff -o tmp.predicted_targets3.txt
#-f: fasta格式的小RNA序列文件
#-d: 候選序列泳梆,此處是cds序列
#-t: 設(shè)置線程
#-p: 設(shè)置輸出格式鳖悠,還有:classic、table等
#-o: 輸出結(jié)果文件
less tmp.predicted_targets3.txt | grep "^No" -v | sort -k1,1 | less > predicted_targets3.txt
rm -f tmp.predicted_targets3.txt
此外還有兩個(gè)參數(shù):-c和-r优妙。-c表示預(yù)測(cè)分值乘综,默認(rèn)是4,越小越好套硼。-r就比較糾結(jié)了卡辰。
我目前的認(rèn)識(shí)是這樣的:
如果候選序列為帶有正負(fù)鏈信息的cds序列,比如
#由bedtools提取邪意,且用到gff的第七列
>chr1D:206957121-206957331(+)
>chr1D:206957148-206957331(+)
再比如
>AET4Gv20696400.3 cds chromosome:Aet_v4.0:4D:462202382:462208036:-1 gene:AET4Gv20696400 gene_biotype:protein_coding transcript_biotype:protein_coding
關(guān)于-r參數(shù)九妈,加不加有很大區(qū)別:不加只在本鏈上查找結(jié)合位點(diǎn);加了后還會(huì)在本鏈的互補(bǔ)鏈上查找雾鬼。應(yīng)該是不加的萌朱!
然而,如果你的候選序列是從參考基因組上直接截下來(lái)的策菜,不帶有任何正負(fù)鏈信息晶疼,則必須加上-r,如果不加則不會(huì)得到任何結(jié)果又憨。這時(shí)如果想同時(shí)預(yù)測(cè)候選序列的本鏈和互補(bǔ)鏈該怎么辦呢冒晰?我的解決辦法是先用軟件(seqkit
)求出候選序列的反向互補(bǔ)序列,再添加到原來(lái)的候選序列文件中竟块,運(yùn)行時(shí)參數(shù)-r也加上壶运。
結(jié)果
AET0Gv20018300.5_cds_supercontig:Aet_v4.0:jcf7190000000435:20646:21465:1 targetfinder rna_target 596 612 4 + . smallRNA=6;target_seq=GGGAGAG-AGAGGAUUGA;base_pairs=:: :::: ::::::.:::;miR_seq=CCAUCUCGUCUCCUGACU
AET0Gv20026400.1_cds_supercontig:Aet_v4.0:jcf7190000000724:142215:142925:-1 targetfinder rna_target 66 82 4 + . smallRNA=7;target_seq=GCAAAGG-UAUCUCGGCG;base_pairs=:::: :: ::::::::: ;miR_seq=CGUUGCCUAUAGAGCCGA
網(wǎng)頁(yè)版工具
其實(shí)預(yù)測(cè)植物小RNA靶標(biāo)的軟件和網(wǎng)站挺多的,我還用過(guò)一款網(wǎng)頁(yè)工具浪秘,叫psRNATarget蒋情,體驗(yàn)不錯(cuò)埠况。
我的疑惑
用了一些軟件和網(wǎng)站后,發(fā)現(xiàn)不同工具預(yù)測(cè)出來(lái)的靶基因交集很少棵癣,不知道該信哪個(gè)辕翰。之前還看過(guò)一篇評(píng)估不同預(yù)測(cè)軟件的軟文(https://mp.weixin.qq.com/s/o53imDFTZIELy6Z2--Gg5w),看完更是不知所措狈谊,似乎每個(gè)預(yù)測(cè)軟件的效果都不太好喜命,真陽(yáng)性率很低。
或許正是因?yàn)檫@個(gè)原因河劝,才需要做降解組吧~