我在做基因注釋的時(shí)候,MAKER最后生成的gff文件里第三列有的顯示的是match_part
經(jīng)搜索https://www.biostars.org/p/455794/后得知雹嗦,來自 SNAP 的 match / match_part 是 MAKER 尚未處理的純SNAP預(yù)測(cè)范舀。MAKER 將根據(jù)設(shè)置的參數(shù)從中制作基因模型。例如了罪,如果 keep_preds 選項(xiàng)設(shè)置為 0锭环,則 MAKER 將選擇與可用的外部證據(jù)(蛋白質(zhì)/轉(zhuǎn)錄比對(duì))一致的基因模型。在這種情況下泊藕,如果沒有提供任何外在證據(jù)辅辩,那么 MAKER 將不會(huì)選擇/創(chuàng)建任何基因模型。
要獲得僅包含基因模型的 gff娃圆,可以使用:.gff3_merge -d <data store index> -n -g
從這里得知玫锋,match/match_parts是AED分?jǐn)?shù)小于0.5的模型(AED 衡量注釋與支持它的證據(jù)的擬合優(yōu)度。AED 是一個(gè)介于 0 和 1 之間的數(shù)字讼呢,0 表示與現(xiàn)有證據(jù)完全一致撩鹿,1 表示對(duì)注釋基因模型的支持缺乏/不存在)
或者刪除gff文件中不必要的部分:
grep -Pv "\tmatch_part\t" SC.Rad52.gff | grep -Pv "\tprotein_match\t" | grep -Pv "\texpressed_sequence_match\t" | grep -Pv "\tmatch\t" | grep -Pv "\tcontig\t" > polished.gff