2023-05-23 augustus訓練

正在更新蚪缀。英文是真的看不習慣慨灭。
參考:使用MAKER進行基因注釋(高級篇之AUGUSTUS模型訓練) - 簡書 (jianshu.com)
Training AUGUSTUS (wisc.edu)
Augustus 進行基因注釋 - 斬毛毛 - 博客園 (cnblogs.com)

首先是我曾經(jīng)理解上的錯誤:
1.“若存在已經(jīng)被訓練的物種(augustus --species=help查看,或者augustus的config/species路徑下有文件夾列表),則直接使用一下代碼進行預(yù)測基因溉浙,”
說實話,我一開始理解錯了蒋荚。我以為是使用其他近緣物種(比如我的近緣物種是rice)也可以對我自己新測的物種參考戳稽。但是他們想說的是,如果你測序的是水稻期升,那你可以直接用水稻的augustus訓練好的文件惊奇。
2.“b. 這些基因的基因結(jié)構(gòu)一定要足夠的準確〔チ蓿”
我一開始就更不理解了颂郎。我都找你來訓練了,我怎么能確認我的基因結(jié)構(gòu)是一定準確的容为?大概意思需要轉(zhuǎn)錄組RNA數(shù)據(jù)就可以乓序?

總結(jié)訓練集要求:基因之間不重復(只要一個基因的一個轉(zhuǎn)錄本),至少隨機100-200個基因坎背,要準確竭缝。

理論的事我就不多說了。我直接運行算了沼瘫。

我是已經(jīng)用genewise進行過了同源注釋抬纸。用了四個單子葉的做近緣物種,genewise.gff的BUSCO還都挺高(水稻的低一些)耿戚,如果沒有RNA數(shù)據(jù)用同源注釋結(jié)果應(yīng)該也是可以的湿故。


水稻genewise的BUSCO結(jié)果
同源注釋的gffBUSCO結(jié)果

同源注釋的gffBUSCO結(jié)果
同源注釋的gffBUSCO結(jié)果

準備好gff之后,運行一個prepare腳本后膜蛔,可以開始訓練了坛猪。

#!bin/bash
genome=genome.fa #基因組文件
species=Hb21 #我自己設(shè)置的物種名
unset PERL5LIB; export PATH=/useful/perl-5.30.2/bin:$PATH
export PATH=/share/app/blat-319/blat:$PATH
source activate augustus
export AUGUSTUS_CONFIG_PATH=/01.bin/Augustus/augustus_config #公共軟件無法寫入新文件夾,可以設(shè)置自己的路徑

#perl /bin/perfect_gene/perfect_gene.pl --sco 99 --start 0 --stop 1 $genome ../Oryza_sativa/Oryza_sativa.IRGSP-1.0.pep.all.fa.genewise.gff ../Brachypodium_distachyon/Brachypodium_distachyon.Brachypodium_distachyon_v3.0.pep.all.fa.genewise.gff ../Musa_acuminata/Musa_acuminata_v2.pep.all.fa.genewise.gff ../Sorghum_bicolor/Sorghum_bicolor.Sorghum_bicolor_NCBIv3.pep.all.fa.genewise.gff
#上面這個命令應(yīng)該是用同源注釋做訓練集皂股。
perl /autoAugTrain.pl --genome=$genome --species=$species --trainingset=genome.fa.gff.nr.gff --cpus 30

上面這個perfect_gene.pl腳本是別人寫的墅茉,我不好分享。內(nèi)容大概是:(待補充)
/autoAugTrain.pl這個好像在augustus的script文件夾下
最后會在你設(shè)置的AUGUSTUS_CONFIG_PATH生成這些文件:

#在AUGUSTUS_CONFIG_PATH/species/Hb21下
 Hb21_weightmatrix.txt
 Hb21_metapars.cfg
 Hb21_metapars.utr.cfg
 Hb21_metapars.cgp.cfg
 Hb21_parameters.cfg.orig1
 Hb21_parameters.cfg
 Hb21_intron_probs.pbl
 Hb21_exon_probs.pbl
 Hb21_igenic_probs.pbl
 Hb21_exon_probs.pbl.withoutCRF
 Hb21_igenic_probs.pbl.withoutCRF
 Hb21_intron_probs.pbl.withoutCRF

#運行的腳本路徑autoAugTrain/training下
 utr
 training.gff
 training.gb
 training.gb.train
 training.gb.test
 training.gb.onlytrain
 training.gb.train.test
 train.err
 train.out
 optimize.out
 tmp_opt_Hb21
 train.withoutCRF.err
 train.withoutCRF.out
 test
#

就是你的augustus比標準數(shù)據(jù)庫里多了你訓練的物種。
然后我發(fā)現(xiàn)我只有訓練集就斤,沒有測試集對這個進行測試悍募。而且根據(jù)參考(avrilomics: Training the Augustus gene-finding software),他說默認會進行5次參數(shù)的優(yōu)化洋机,我這只有一次Hb21_parameters.cfg.orig1坠宴。所以我想再運行幾次,再生成一個測試集(使用訓練集的測試結(jié)果會虛高)绷旗。

如果要用RNA結(jié)果訓練augustus...RNA注釋是有兩種策略喜鼓,,一種是使用HISAT2 + StringTie先比對再組裝, 一種是從頭組裝衔肢,然后使用PASA將轉(zhuǎn)錄本比對到基因組上庄岖。(基因結(jié)構(gòu)注釋(3):轉(zhuǎn)錄組預(yù)測 - 簡書 (jianshu.com)
RNA下機數(shù)據(jù)經(jīng)過對基因組index,

samtools faidx genome.fasta
bwa index genome.fasta
java -jar picard/2.23.8/picard.jar CreateSequenceDictionary R=genome.fasta O=genome.fasta.dict

去接頭

conda activate rna
java -jar /01.Software/Trimmomatic-0.39/trimmomatic-0.39.jar PE -threads 16 -phred33 RNA/*85_1.fq.gz RNA/*85_2.fq.gz /cleandata/*85_1.paired.fq.gz /cleandata/*85_1.unpaired.fq.gz /cleandata/*85_2.paired.fq.gz /cleandata/*85_2.unpaired.fq.gz ILLUMINACLIP:/01.Software/Miniconda/envs/rna/adapter/adapter.fa:2:35:4:12:true  LEADING:3 TRAILING:3 SLIDINGWINDOW:5:15 MINLEN:50 2>trimming.log 
#我的conda下環(huán)境rna安了很多處理RNA的軟件角骤。
#路徑是簡化的顿锰。trimmomatic運行命令可去查找別的教程。
#ILLUMINACLIP的fa文件和測序方聯(lián)系獲得启搂。就是你接頭的序列硼控。trimmomatic軟件的目錄下也自帶了一些接頭。trimmomatic參數(shù)參考其他教程吧胳赌,不贅述牢撼。

之后運行

#!usr/bin/bash
hisat2-build -p 4 genome.fasta genome.fasta
hisat2 -p 4 --max-intronlen 500000 --sensitive --dta  --dta-cufflinks --phred33  --no-discordant --no-mixed  -x  genome.fasta -1 cleandata/*85_1.paired.fq.gz  -2 cleandata/*85_2.paired.fq.gz -S genome_rna.sam
samtools view -bF 4 -S genome_rna.sam -b -o genome_rna.bam
samtools sort genome_rna.bam  -o genome_rna.bam.sort
stringtie genome_rna.bam.sort -p 1 -o genome_rna.transcript.gtf

xzg是用的PASA,雖然我用的stringtie疑苫,但是估計也要回到PASA熏版,因為最后要用EVM整合。我問了chatGPT有關(guān)這兩種方法的區(qū)別捍掺,回答如下(警告:AI自動生成結(jié)果撼短,不一定對,注意甄別)

“PASA和StringTie是兩個常用的生物信息學分析軟件挺勿,用于轉(zhuǎn)錄組數(shù)據(jù)的分析和注釋曲横。它們有一些區(qū)別,包括其用途不瓶、功能和特點禾嫉。
PASA(Program to Assemble Spliced Alignments)是一個用于轉(zhuǎn)錄組注釋和組裝的軟件。它的主要功能是利用已知的基因組和轉(zhuǎn)錄組測序數(shù)據(jù)蚊丐,通過比對和組裝轉(zhuǎn)錄本來提供基因結(jié)構(gòu)注釋熙参。PASA能夠?qū)⒁阎幕蚪M注釋與轉(zhuǎn)錄組測序數(shù)據(jù)進行比對,通過多輪迭代的方法麦备,生成準確的轉(zhuǎn)錄本注釋孽椰,并提供詳細的轉(zhuǎn)錄本結(jié)構(gòu)信息昭娩。
相比之下,StringTie是一個轉(zhuǎn)錄組裝和表達定量分析工具黍匾。它可以將轉(zhuǎn)錄組測序數(shù)據(jù)進行拼接并組裝成轉(zhuǎn)錄本栏渺,同時對每個轉(zhuǎn)錄本進行定量表達分析。StringTie具有高效的組裝算法膀捷,能夠有效地處理復雜的基因結(jié)構(gòu)和低表達水平的轉(zhuǎn)錄本迈嘹。它還能夠生成基因和轉(zhuǎn)錄本的表達水平估計削彬,提供豐富的定量信息全庸。
以下是PASA和StringTie之間的一些區(qū)別:
用途:PASA主要用于轉(zhuǎn)錄組注釋和組裝,旨在提供準確的基因結(jié)構(gòu)注釋融痛。StringTie主要用于轉(zhuǎn)錄組裝和表達定量分析壶笼,旨在提供轉(zhuǎn)錄本的組裝和表達量估計。
功能:PASA具有注釋轉(zhuǎn)錄本結(jié)構(gòu)的功能雁刷,能夠比對和組裝轉(zhuǎn)錄本覆劈,并生成準確的注釋結(jié)果。StringTie具有高效的組裝算法沛励,能夠處理復雜的基因結(jié)構(gòu)责语,并提供表達量估計和可視化分析。
靈活性:PASA相對較為復雜目派,需要多輪迭代和大量的參數(shù)調(diào)整來生成準確的注釋結(jié)果坤候。StringTie具有簡單的工作流程和默認參數(shù),適用于一般的轉(zhuǎn)錄組裝和表達量分析企蹭。
可擴展性:PASA可以與其他轉(zhuǎn)錄組裝軟件和注釋工具進行集成白筹,如BLAT、Exonerate和BLAST等谅摄。StringTie可以與其他轉(zhuǎn)錄組裝和表達量分析軟件進行集成徒河,如Cufflinks和Ballgown等。
綜上所述送漠,PASA和StringTie在轉(zhuǎn)錄組分析中有不同的用途和功能顽照。選擇哪個軟件取決于具體的研究目標和需求。如果需要準確的轉(zhuǎn)錄本注釋和結(jié)構(gòu)信息闽寡,PASA可能是一個更好的選擇棒厘。如果主要關(guān)注轉(zhuǎn)錄組裝和表達量分析,StringTie可能更適合下隧∩萑耍”

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市淆院,隨后出現(xiàn)的幾起案子何乎,更是在濱河造成了極大的恐慌句惯,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,839評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件支救,死亡現(xiàn)場離奇詭異抢野,居然都是意外死亡,警方通過查閱死者的電腦和手機各墨,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評論 2 382
  • 文/潘曉璐 我一進店門指孤,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人贬堵,你說我怎么就攤上這事恃轩。” “怎么了黎做?”我有些...
    開封第一講書人閱讀 153,116評論 0 344
  • 文/不壞的土叔 我叫張陵叉跛,是天一觀的道長。 經(jīng)常有香客問我蒸殿,道長筷厘,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,371評論 1 279
  • 正文 為了忘掉前任宏所,我火速辦了婚禮酥艳,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘爬骤。我一直安慰自己充石,他們只是感情好,可當我...
    茶點故事閱讀 64,384評論 5 374
  • 文/花漫 我一把揭開白布盖腕。 她就那樣靜靜地躺著赫冬,像睡著了一般。 火紅的嫁衣襯著肌膚如雪溃列。 梳的紋絲不亂的頭發(fā)上劲厌,一...
    開封第一講書人閱讀 49,111評論 1 285
  • 那天,我揣著相機與錄音听隐,去河邊找鬼补鼻。 笑死,一個胖子當著我的面吹牛雅任,可吹牛的內(nèi)容都是我干的风范。 我是一名探鬼主播,決...
    沈念sama閱讀 38,416評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼沪么,長吁一口氣:“原來是場噩夢啊……” “哼硼婿!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起禽车,我...
    開封第一講書人閱讀 37,053評論 0 259
  • 序言:老撾萬榮一對情侶失蹤寇漫,失蹤者是張志新(化名)和其女友劉穎刊殉,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體州胳,經(jīng)...
    沈念sama閱讀 43,558評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡记焊,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,007評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了栓撞。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片遍膜。...
    茶點故事閱讀 38,117評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖瓤湘,靈堂內(nèi)的尸體忽然破棺而出瓢颅,到底是詐尸還是另有隱情,我是刑警寧澤岭粤,帶...
    沈念sama閱讀 33,756評論 4 324
  • 正文 年R本政府宣布惜索,位于F島的核電站特笋,受9級特大地震影響剃浇,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜猎物,卻給世界環(huán)境...
    茶點故事閱讀 39,324評論 3 307
  • 文/蒙蒙 一虎囚、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧蔫磨,春花似錦淘讥、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至搀罢,卻和暖如春蝗岖,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背榔至。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評論 1 262
  • 我被黑心中介騙來泰國打工抵赢, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人唧取。 一個月前我還...
    沈念sama閱讀 45,578評論 2 355
  • 正文 我出身青樓铅鲤,卻偏偏與公主長得像,于是被迫代替她去往敵國和親枫弟。 傳聞我的和親對象是個殘疾皇子邢享,可洞房花燭夜當晚...
    茶點故事閱讀 42,877評論 2 345

推薦閱讀更多精彩內(nèi)容