寫在前面
- 以下內(nèi)容均來(lái)自我在菲沙基因(Frasergen)暑期生信培訓(xùn)班上記錄的課堂筆記
1.基因組組裝指標(biāo)評(píng)估
-
為什么要進(jìn)行質(zhì)量評(píng)估矾瑰?
答:動(dòng)植物基因組de novo工作砖茸,其組裝指標(biāo)的好壞直接影響著整個(gè)基因組的質(zhì)量。
-
最主要的指標(biāo)是什么殴穴?
答:基因組組裝結(jié)果評(píng)估渔彰,contigN50和scaffoldN50是第一指標(biāo)。
contig/ scaffoldN50:將contig/scaffold長(zhǎng)度從長(zhǎng)到短迚行排序并累加推正,當(dāng)累加和達(dá)contig/scaffold總長(zhǎng)度的50%的時(shí)候恍涂,最后參不加和的那一條contig/scaffold長(zhǎng)度即為contig/ scaffoldN50的長(zhǎng)度。一般來(lái)說植榕,contig/scaffoldN50越長(zhǎng)再沧,表示組裝結(jié)果越好
-
N50指標(biāo)高就意味著組裝結(jié)果就一定可靠嗎?
答: 不一定尊残!將一些不相關(guān)的reads或者contig錯(cuò)誤的連接為scaffold炒瘸,一樣可以達(dá)到很高 scaffold N50
-
N50統(tǒng)計(jì)軟件gnx下載與編譯
#Download git repository
git clone https://github.com/mh11/gnx-tools.git
cd gnx-tools
mkdir bin
javac -d bin/ src/uk/ac/ebi/gnx/*
# 沒裝ant,請(qǐng)安裝寝衫,鏈接:https://downloads.apache.org/ant/binaries/
# wget https://downloads.apache.org/ant/binaries/apache-ant-1.10.10-bin.tar.gz
# tar -zvxf apache-ant-1.10.10-bin.tar.gz
# ant程序 在/apache-ant-1.10.10/bin里面
ant -f package.xml
#使用方法
java -jar gnx.jar 基因組名
java -jar /gnx-tools/gnx-tools-master/gnx.jar -nx 25,50,75 contigs.fasta
#-nx 50表示統(tǒng)計(jì)N50
2.序列一致性評(píng)估
- 序列一致性:是指將reads比到基因組上顷扩,驗(yàn)證reads對(duì)基因組的覆蓋情況,用于評(píng)估組裝的完整性以及測(cè)序的均勻性慰毅。較高的mapping rate(90%以上)以及coverage(95%以上)認(rèn)為組裝結(jié)果和reads有比較好的一致性隘截。
- 為了評(píng)估組裝的完整性和測(cè)序覆蓋的均勻性,使用比對(duì)工具minimap2(默認(rèn)參數(shù))比對(duì)回組裝好的基因組汹胃,統(tǒng)計(jì)reads的比對(duì)率婶芭、覆蓋基因組的程度以及深度的分布情況,由此評(píng)估組裝的完整性和測(cè)序覆蓋的均勻性着饥。
- 軟件:minimap2
- 使用conda安裝
conda install -c bioconda samtools -y
conda install -c bioconda minimap2 -y
- 第一步:使用比對(duì)工具minimap2(默認(rèn)參數(shù))比對(duì)回組裝好的基因組
Genome=$PATH/genome.fasta
SubreadsFa=$PATH/*bam.fasta
minimap2 -ax map-pb ${genome} ${SubreadsFa} -t 10 > aln.sam
samtool view -bS aln.sam > aln.bam
samtools sort aln.bam -o minimap.merged.bam --output-fmt BAM
- 第二步:基于比對(duì)結(jié)果統(tǒng)計(jì)reads的比對(duì)率犀农、基因組的覆蓋度以及深度
samtools flagstat minimap.merged.bam > minimap.merged.bam.flagstat
samtools depth -aa minimap.merged.bam > depth.info
3.保守性基因評(píng)估
- BUSCO ( Benchmarking Universal Single-Copy Orthologs )是指利用OrthoDB直系同源數(shù)據(jù)庫(kù)構(gòu)建主要的系統(tǒng)迚化分枝(Bacteria、Eukaryota宰掉、Protists呵哨、Metazoa赁濒、Fungi、Plants)的基因集孟害,通過同源基因數(shù)據(jù)庫(kù)從基因完整度層面上評(píng)估基因組的組裝質(zhì)量拒炎。
- BUSCO根據(jù)OrthoDB數(shù)據(jù)庫(kù),針對(duì)幾個(gè)大的迚化分支分別構(gòu)建了單拷貝基因集纹坐。在得到某物種組裝后的基因組戒者轉(zhuǎn)錄本序列后枝冀,可以將組裝結(jié)果不該物種所屬迚化分支的基因集中的保守序列迚行比對(duì)舞丛,鑒定組裝的結(jié)果是否包含這些序列耘子,包含單條、多條還是部分戒者丌包含等情況給出結(jié)果球切。
- 對(duì)于基因組谷誓,BUSCO首先調(diào)用Augustus軟件迚行基因結(jié)構(gòu)預(yù)測(cè),再使用HMMER3比對(duì)參考基因集吨凑;對(duì)于轉(zhuǎn)錄本捍歪,則在鑒定出最長(zhǎng)讀碼框架之后,再使用HMMER3比對(duì)參考基因集鸵钝。最終根據(jù)比對(duì)上的序列比例糙臼、完整性等,評(píng)估組裝結(jié)果的準(zhǔn)確性和完整性恩商。
- BUSCO官網(wǎng):https://busco.ezlab.org 文檔:https://busco.ezlab.org/busco_userguide.html
- OrthoDB數(shù)據(jù)庫(kù)官網(wǎng):https://www.orthodb.org/
- 保守性基因評(píng)估軟件安裝
#需要構(gòu)建conda的python3環(huán)境
conda install -c conda-forge -c bioconda busco=5.3.2 -y
- 如果使用conda安裝成功(安裝不成功考慮使用git下載变逃,上方文檔中有),那么就執(zhí)行下載數(shù)據(jù)庫(kù)文件怠堪。例如下載植物的BUSCO的數(shù)據(jù)庫(kù)(對(duì)著需要下載的類群的圖片右鍵->復(fù)制鏈接地址揽乱,之后就得到了下載鏈接,然后在命令行使用wget之類的下載命令下載)粟矿,比如下面我下載的是植物相關(guān)的凰棉,我就下載的植物類群。
2022年5月22日更新:
現(xiàn)在數(shù)據(jù)集在該鏈接下載:https://busco-data.ezlab.org/v4/data/lineages/
mkdir -p ~/database/BUSCO/
cd ~/database/BUSCO/
# 下載陌粹,增加--no-check-certificate撒犀,否則可能下載不了
wget -c --no-check-certificate https://busco-data.ezlab.org/v4/data/lineages/embryophyta_odb10.2020-09-10.tar.gz
# 解壓文件
tar -xzvf embryophyta_odb10.2020-09-10.tar.gz
- 在安裝好軟件之后$PATH/busco/config/之中并沒有config.ini文件,只有一個(gè)config.ini_default文件掏秩,可以把里面的內(nèi)容復(fù)制下來(lái)
cp config.ini_default config.ini
- 將config.ini文件中的out_path = ./workdir 前面加上绘证,因?yàn)檫@個(gè)工具的輸出路徑有時(shí)候會(huì)出錯(cuò),所以干脆將它注釋掉,之后假如運(yùn)行busco之后,輸出的路徑就是你之前cd到的路徑
- BUSCO的使用
busco -i [組裝的文件.fasta] -l [數(shù)據(jù)庫(kù)文件夾] -o [輸出文件名] -m [評(píng)估模式] [其他一些選項(xiàng)]
4.其他評(píng)估方法
長(zhǎng)末端重復(fù)序列評(píng)估基因組完整度
最后編輯于 :
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者