OMArk依賴于查詢蛋白質(zhì)組和生命樹中預(yù)先計算的基因家族之間的快速樊破、無比對的序列比較鹤啡,可評估整個基因庫相對于密切相關(guān)物種的完整性和一致性枯芬。與BUSCO軟件相比绍坝,OMArk可以同時量化編碼基因庫存在的基因缺失宵荒、基因模型定義不準(zhǔn)確汁雷、非編碼序列錯誤等。OMArk引入了兩套評價體系报咳,可以進(jìn)行基因組完整性(Completeness)和一致性(Consistency)評價侠讯,可以獲得更清晰的注釋質(zhì)量圖片。
文章來源:Nature Biotechnology在線發(fā)表論文:Quality assessment of gene repertoire annotations with OMArk暑刃,描述了一個用于評估蛋白質(zhì)編碼基因注釋質(zhì)量的OMArk軟件包
軟件地址
https://github.com/DessimozLab/OMArk
軟件安裝
conda install -c bioconda omark
軟件使用
export PATH=/share/nas1/pengzw/software/anaconda3/2023.09/envs/omark_0.3.0/bin:$PATH
source /share/nas1/pengzw/software/anaconda3/2023.09/bin/activate
conda activate omark_0.3.0
omamer search --db LUCA.h5 --query /share/nas1/pengzw/database/Arabidopsis_thaliana/Col-PEK1.5/pep.fa --out pep.fa.db
mkdir output1
#第一次運行需要網(wǎng)連接ncbi下載
omark -f pep.fa.db -d LUCA.h5 -o output1
plot_all_results.py -i output -o fig.png