正在更新蚪缀。英文是真的看不習慣慨灭。
參考:使用MAKER進行基因注釋(高級篇之AUGUSTUS模型訓練) - 簡書 (jianshu.com)
Training AUGUSTUS (wisc.edu)
Augustus 進行基因注釋 - 斬毛毛 - 博客園 (cnblogs.com)
首先是我曾經(jīng)理解上的錯誤:
1.“若存在已經(jīng)被訓練的物種(augustus --species=help查看,或者augustus的config/species路徑下有文件夾列表),則直接使用一下代碼進行預(yù)測基因溉浙,”
說實話,我一開始理解錯了蒋荚。我以為是使用其他近緣物種(比如我的近緣物種是rice)也可以對我自己新測的物種參考戳稽。但是他們想說的是,如果你測序的是水稻期升,那你可以直接用水稻的augustus訓練好的文件惊奇。
2.“b. 這些基因的基因結(jié)構(gòu)一定要足夠的準確〔チ蓿”
我一開始就更不理解了颂郎。我都找你來訓練了,我怎么能確認我的基因結(jié)構(gòu)是一定準確的容为?大概意思需要轉(zhuǎn)錄組RNA數(shù)據(jù)就可以乓序?
總結(jié)訓練集要求:基因之間不重復(只要一個基因的一個轉(zhuǎn)錄本),至少隨機100-200個基因坎背,要準確竭缝。
理論的事我就不多說了。我直接運行算了沼瘫。
我是已經(jīng)用genewise進行過了同源注釋抬纸。用了四個單子葉的做近緣物種,genewise.gff的BUSCO還都挺高(水稻的低一些)耿戚,如果沒有RNA數(shù)據(jù)用同源注釋結(jié)果應(yīng)該也是可以的湿故。
準備好gff之后,運行一個prepare腳本后膜蛔,可以開始訓練了坛猪。
#!bin/bash
genome=genome.fa #基因組文件
species=Hb21 #我自己設(shè)置的物種名
unset PERL5LIB; export PATH=/useful/perl-5.30.2/bin:$PATH
export PATH=/share/app/blat-319/blat:$PATH
source activate augustus
export AUGUSTUS_CONFIG_PATH=/01.bin/Augustus/augustus_config #公共軟件無法寫入新文件夾,可以設(shè)置自己的路徑
#perl /bin/perfect_gene/perfect_gene.pl --sco 99 --start 0 --stop 1 $genome ../Oryza_sativa/Oryza_sativa.IRGSP-1.0.pep.all.fa.genewise.gff ../Brachypodium_distachyon/Brachypodium_distachyon.Brachypodium_distachyon_v3.0.pep.all.fa.genewise.gff ../Musa_acuminata/Musa_acuminata_v2.pep.all.fa.genewise.gff ../Sorghum_bicolor/Sorghum_bicolor.Sorghum_bicolor_NCBIv3.pep.all.fa.genewise.gff
#上面這個命令應(yīng)該是用同源注釋做訓練集皂股。
perl /autoAugTrain.pl --genome=$genome --species=$species --trainingset=genome.fa.gff.nr.gff --cpus 30
上面這個perfect_gene.pl腳本是別人寫的墅茉,我不好分享。內(nèi)容大概是:(待補充)
/autoAugTrain.pl這個好像在augustus的script文件夾下
最后會在你設(shè)置的AUGUSTUS_CONFIG_PATH生成這些文件:
#在AUGUSTUS_CONFIG_PATH/species/Hb21下
Hb21_weightmatrix.txt
Hb21_metapars.cfg
Hb21_metapars.utr.cfg
Hb21_metapars.cgp.cfg
Hb21_parameters.cfg.orig1
Hb21_parameters.cfg
Hb21_intron_probs.pbl
Hb21_exon_probs.pbl
Hb21_igenic_probs.pbl
Hb21_exon_probs.pbl.withoutCRF
Hb21_igenic_probs.pbl.withoutCRF
Hb21_intron_probs.pbl.withoutCRF
#運行的腳本路徑autoAugTrain/training下
utr
training.gff
training.gb
training.gb.train
training.gb.test
training.gb.onlytrain
training.gb.train.test
train.err
train.out
optimize.out
tmp_opt_Hb21
train.withoutCRF.err
train.withoutCRF.out
test
#
就是你的augustus比標準數(shù)據(jù)庫里多了你訓練的物種。
然后我發(fā)現(xiàn)我只有訓練集就斤,沒有測試集對這個進行測試悍募。而且根據(jù)參考(avrilomics: Training the Augustus gene-finding software),他說默認會進行5次參數(shù)的優(yōu)化洋机,我這只有一次Hb21_parameters.cfg.orig1
坠宴。所以我想再運行幾次,再生成一個測試集(使用訓練集的測試結(jié)果會虛高)绷旗。
如果要用RNA結(jié)果訓練augustus...RNA注釋是有兩種策略喜鼓,,一種是使用HISAT2 + StringTie先比對再組裝, 一種是從頭組裝衔肢,然后使用PASA將轉(zhuǎn)錄本比對到基因組上庄岖。(基因結(jié)構(gòu)注釋(3):轉(zhuǎn)錄組預(yù)測 - 簡書 (jianshu.com))
RNA下機數(shù)據(jù)經(jīng)過對基因組index,
samtools faidx genome.fasta
bwa index genome.fasta
java -jar picard/2.23.8/picard.jar CreateSequenceDictionary R=genome.fasta O=genome.fasta.dict
去接頭
conda activate rna
java -jar /01.Software/Trimmomatic-0.39/trimmomatic-0.39.jar PE -threads 16 -phred33 RNA/*85_1.fq.gz RNA/*85_2.fq.gz /cleandata/*85_1.paired.fq.gz /cleandata/*85_1.unpaired.fq.gz /cleandata/*85_2.paired.fq.gz /cleandata/*85_2.unpaired.fq.gz ILLUMINACLIP:/01.Software/Miniconda/envs/rna/adapter/adapter.fa:2:35:4:12:true LEADING:3 TRAILING:3 SLIDINGWINDOW:5:15 MINLEN:50 2>trimming.log
#我的conda下環(huán)境rna安了很多處理RNA的軟件角骤。
#路徑是簡化的顿锰。trimmomatic運行命令可去查找別的教程。
#ILLUMINACLIP的fa文件和測序方聯(lián)系獲得启搂。就是你接頭的序列硼控。trimmomatic軟件的目錄下也自帶了一些接頭。trimmomatic參數(shù)參考其他教程吧胳赌,不贅述牢撼。
之后運行
#!usr/bin/bash
hisat2-build -p 4 genome.fasta genome.fasta
hisat2 -p 4 --max-intronlen 500000 --sensitive --dta --dta-cufflinks --phred33 --no-discordant --no-mixed -x genome.fasta -1 cleandata/*85_1.paired.fq.gz -2 cleandata/*85_2.paired.fq.gz -S genome_rna.sam
samtools view -bF 4 -S genome_rna.sam -b -o genome_rna.bam
samtools sort genome_rna.bam -o genome_rna.bam.sort
stringtie genome_rna.bam.sort -p 1 -o genome_rna.transcript.gtf
xzg是用的PASA,雖然我用的stringtie疑苫,但是估計也要回到PASA熏版,因為最后要用EVM整合。我問了chatGPT有關(guān)這兩種方法的區(qū)別捍掺,回答如下(警告:AI自動生成結(jié)果撼短,不一定對,注意甄別)
“PASA和StringTie是兩個常用的生物信息學分析軟件挺勿,用于轉(zhuǎn)錄組數(shù)據(jù)的分析和注釋曲横。它們有一些區(qū)別,包括其用途不瓶、功能和特點禾嫉。
PASA(Program to Assemble Spliced Alignments)是一個用于轉(zhuǎn)錄組注釋和組裝的軟件。它的主要功能是利用已知的基因組和轉(zhuǎn)錄組測序數(shù)據(jù)蚊丐,通過比對和組裝轉(zhuǎn)錄本來提供基因結(jié)構(gòu)注釋熙参。PASA能夠?qū)⒁阎幕蚪M注釋與轉(zhuǎn)錄組測序數(shù)據(jù)進行比對,通過多輪迭代的方法麦备,生成準確的轉(zhuǎn)錄本注釋孽椰,并提供詳細的轉(zhuǎn)錄本結(jié)構(gòu)信息昭娩。
相比之下,StringTie是一個轉(zhuǎn)錄組裝和表達定量分析工具黍匾。它可以將轉(zhuǎn)錄組測序數(shù)據(jù)進行拼接并組裝成轉(zhuǎn)錄本栏渺,同時對每個轉(zhuǎn)錄本進行定量表達分析。StringTie具有高效的組裝算法膀捷,能夠有效地處理復雜的基因結(jié)構(gòu)和低表達水平的轉(zhuǎn)錄本迈嘹。它還能夠生成基因和轉(zhuǎn)錄本的表達水平估計削彬,提供豐富的定量信息全庸。
以下是PASA和StringTie之間的一些區(qū)別:
用途:PASA主要用于轉(zhuǎn)錄組注釋和組裝,旨在提供準確的基因結(jié)構(gòu)注釋融痛。StringTie主要用于轉(zhuǎn)錄組裝和表達定量分析壶笼,旨在提供轉(zhuǎn)錄本的組裝和表達量估計。
功能:PASA具有注釋轉(zhuǎn)錄本結(jié)構(gòu)的功能雁刷,能夠比對和組裝轉(zhuǎn)錄本覆劈,并生成準確的注釋結(jié)果。StringTie具有高效的組裝算法沛励,能夠處理復雜的基因結(jié)構(gòu)责语,并提供表達量估計和可視化分析。
靈活性:PASA相對較為復雜目派,需要多輪迭代和大量的參數(shù)調(diào)整來生成準確的注釋結(jié)果坤候。StringTie具有簡單的工作流程和默認參數(shù),適用于一般的轉(zhuǎn)錄組裝和表達量分析企蹭。
可擴展性:PASA可以與其他轉(zhuǎn)錄組裝軟件和注釋工具進行集成白筹,如BLAT、Exonerate和BLAST等谅摄。StringTie可以與其他轉(zhuǎn)錄組裝和表達量分析軟件進行集成徒河,如Cufflinks和Ballgown等。
綜上所述送漠,PASA和StringTie在轉(zhuǎn)錄組分析中有不同的用途和功能顽照。選擇哪個軟件取決于具體的研究目標和需求。如果需要準確的轉(zhuǎn)錄本注釋和結(jié)構(gòu)信息闽寡,PASA可能是一個更好的選擇棒厘。如果主要關(guān)注轉(zhuǎn)錄組裝和表達量分析,StringTie可能更適合下隧∩萑耍”