生信 | 基因組組裝實(shí)戰(zhàn)(六):基因組質(zhì)量沉删、一致性渐尿、保守性、LAI等評(píng)估

寫在前面

  • 以下內(nèi)容均來(lái)自我在菲沙基因(Frasergen)暑期生信培訓(xùn)班上記錄的課堂筆記

1.基因組組裝指標(biāo)評(píng)估

  • 為什么要進(jìn)行質(zhì)量評(píng)估矾瑰?
    答:動(dòng)植物基因組de novo工作砖茸,其組裝指標(biāo)的好壞直接影響著整個(gè)基因組的質(zhì)量。
  • 最主要的指標(biāo)是什么殴穴?
    答:基因組組裝結(jié)果評(píng)估渔彰,contigN50和scaffoldN50是第一指標(biāo)。
    contig/ scaffoldN50:將contig/scaffold長(zhǎng)度從長(zhǎng)到短迚行排序并累加推正,當(dāng)累加和達(dá)contig/scaffold總長(zhǎng)度的50%的時(shí)候恍涂,最后參不加和的那一條contig/scaffold長(zhǎng)度即為contig/ scaffoldN50的長(zhǎng)度。一般來(lái)說植榕,contig/scaffoldN50越長(zhǎng)再沧,表示組裝結(jié)果越好
  • N50指標(biāo)高就意味著組裝結(jié)果就一定可靠嗎?
    答: 不一定尊残!將一些不相關(guān)的reads或者contig錯(cuò)誤的連接為scaffold炒瘸,一樣可以達(dá)到很高 scaffold N50
  • N50統(tǒng)計(jì)軟件gnx下載與編譯
#Download git repository 
git clone https://github.com/mh11/gnx-tools.git
cd gnx-tools
mkdir bin 
javac -d bin/ src/uk/ac/ebi/gnx/* 
# 沒裝ant,請(qǐng)安裝寝衫,鏈接:https://downloads.apache.org/ant/binaries/
# wget https://downloads.apache.org/ant/binaries/apache-ant-1.10.10-bin.tar.gz
# tar -zvxf apache-ant-1.10.10-bin.tar.gz
# ant程序 在/apache-ant-1.10.10/bin里面
ant -f package.xml
#使用方法
java -jar gnx.jar 基因組名
  • 軟件使用
java -jar /gnx-tools/gnx-tools-master/gnx.jar -nx 25,50,75 contigs.fasta
#-nx 50表示統(tǒng)計(jì)N50

2.序列一致性評(píng)估

  • 序列一致性:是指將reads比到基因組上顷扩,驗(yàn)證reads對(duì)基因組的覆蓋情況,用于評(píng)估組裝的完整性以及測(cè)序的均勻性慰毅。較高的mapping rate(90%以上)以及coverage(95%以上)認(rèn)為組裝結(jié)果和reads有比較好的一致性隘截。
  • 為了評(píng)估組裝的完整性和測(cè)序覆蓋的均勻性,使用比對(duì)工具minimap2(默認(rèn)參數(shù))比對(duì)回組裝好的基因組汹胃,統(tǒng)計(jì)reads的比對(duì)率婶芭、覆蓋基因組的程度以及深度的分布情況,由此評(píng)估組裝的完整性和測(cè)序覆蓋的均勻性着饥。
  • 軟件:minimap2
  • 使用conda安裝
conda install -c bioconda samtools -y
conda install -c bioconda minimap2 -y
  • 第一步:使用比對(duì)工具minimap2(默認(rèn)參數(shù))比對(duì)回組裝好的基因組
Genome=$PATH/genome.fasta
SubreadsFa=$PATH/*bam.fasta
minimap2 -ax map-pb ${genome} ${SubreadsFa} -t 10 > aln.sam
samtool view -bS aln.sam > aln.bam
samtools sort aln.bam -o minimap.merged.bam --output-fmt BAM
  • 第二步:基于比對(duì)結(jié)果統(tǒng)計(jì)reads的比對(duì)率犀农、基因組的覆蓋度以及深度
samtools flagstat minimap.merged.bam > minimap.merged.bam.flagstat
samtools depth -aa minimap.merged.bam > depth.info

3.保守性基因評(píng)估

  • BUSCO ( Benchmarking Universal Single-Copy Orthologs )是指利用OrthoDB直系同源數(shù)據(jù)庫(kù)構(gòu)建主要的系統(tǒng)迚化分枝(Bacteria、Eukaryota宰掉、Protists呵哨、Metazoa赁濒、Fungi、Plants)的基因集孟害,通過同源基因數(shù)據(jù)庫(kù)從基因完整度層面上評(píng)估基因組的組裝質(zhì)量拒炎。
  • BUSCO根據(jù)OrthoDB數(shù)據(jù)庫(kù),針對(duì)幾個(gè)大的迚化分支分別構(gòu)建了單拷貝基因集纹坐。在得到某物種組裝后的基因組戒者轉(zhuǎn)錄本序列后枝冀,可以將組裝結(jié)果不該物種所屬迚化分支的基因集中的保守序列迚行比對(duì)舞丛,鑒定組裝的結(jié)果是否包含這些序列耘子,包含單條、多條還是部分戒者丌包含等情況給出結(jié)果球切。
  • 對(duì)于基因組谷誓,BUSCO首先調(diào)用Augustus軟件迚行基因結(jié)構(gòu)預(yù)測(cè),再使用HMMER3比對(duì)參考基因集吨凑;對(duì)于轉(zhuǎn)錄本捍歪,則在鑒定出最長(zhǎng)讀碼框架之后,再使用HMMER3比對(duì)參考基因集鸵钝。最終根據(jù)比對(duì)上的序列比例糙臼、完整性等,評(píng)估組裝結(jié)果的準(zhǔn)確性和完整性恩商。
  • BUSCO官網(wǎng):https://busco.ezlab.org 文檔:https://busco.ezlab.org/busco_userguide.html
  • OrthoDB數(shù)據(jù)庫(kù)官網(wǎng):https://www.orthodb.org/
  • 保守性基因評(píng)估軟件安裝
#需要構(gòu)建conda的python3環(huán)境
conda install -c conda-forge -c bioconda busco=5.3.2 -y
  • 如果使用conda安裝成功(安裝不成功考慮使用git下載变逃,上方文檔中有),那么就執(zhí)行下載數(shù)據(jù)庫(kù)文件怠堪。例如下載植物的BUSCO的數(shù)據(jù)庫(kù)(對(duì)著需要下載的類群的圖片右鍵->復(fù)制鏈接地址揽乱,之后就得到了下載鏈接,然后在命令行使用wget之類的下載命令下載)粟矿,比如下面我下載的是植物相關(guān)的凰棉,我就下載的植物類群。
    2022年5月22日更新:現(xiàn)在數(shù)據(jù)集在該鏈接下載:https://busco-data.ezlab.org/v4/data/lineages/
mkdir -p ~/database/BUSCO/ 
cd ~/database/BUSCO/
# 下載陌粹,增加--no-check-certificate撒犀,否則可能下載不了
wget -c --no-check-certificate https://busco-data.ezlab.org/v4/data/lineages/embryophyta_odb10.2020-09-10.tar.gz
# 解壓文件
tar -xzvf embryophyta_odb10.2020-09-10.tar.gz
  • 在安裝好軟件之后$PATH/busco/config/之中并沒有config.ini文件,只有一個(gè)config.ini_default文件掏秩,可以把里面的內(nèi)容復(fù)制下來(lái)
cp config.ini_default config.ini
  • 將config.ini文件中的out_path = ./workdir 前面加上\color{red}{\#}绘证,因?yàn)檫@個(gè)工具的輸出路徑有時(shí)候會(huì)出錯(cuò),所以干脆將它注釋掉,之后假如運(yùn)行busco之后,輸出的路徑就是你之前cd到的路徑
  • BUSCO的使用
busco -i [組裝的文件.fasta] -l [數(shù)據(jù)庫(kù)文件夾] -o [輸出文件名] -m [評(píng)估模式] [其他一些選項(xiàng)]
參數(shù)說明

4.其他評(píng)估方法

準(zhǔn)確性評(píng)估
完整性評(píng)估
長(zhǎng)末端重復(fù)序列評(píng)估基因組完整度
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末哗讥,一起剝皮案震驚了整個(gè)濱河市嚷那,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌杆煞,老刑警劉巖魏宽,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件腐泻,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡队询,警方通過查閱死者的電腦和手機(jī)派桩,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)蚌斩,“玉大人铆惑,你說我怎么就攤上這事∷蜕牛” “怎么了员魏?”我有些...
    開封第一講書人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)叠聋。 經(jīng)常有香客問我撕阎,道長(zhǎng),這世上最難降的妖魔是什么碌补? 我笑而不...
    開封第一講書人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任虏束,我火速辦了婚禮,結(jié)果婚禮上厦章,老公的妹妹穿的比我還像新娘镇匀。我一直安慰自己,他們只是感情好袜啃,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開白布汗侵。 她就那樣靜靜地躺著,像睡著了一般囊骤。 火紅的嫁衣襯著肌膚如雪晃择。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,970評(píng)論 1 284
  • 那天也物,我揣著相機(jī)與錄音宫屠,去河邊找鬼。 笑死滑蚯,一個(gè)胖子當(dāng)著我的面吹牛浪蹂,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播告材,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼坤次,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了斥赋?” 一聲冷哼從身側(cè)響起缰猴,我...
    開封第一講書人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎疤剑,沒想到半個(gè)月后滑绒,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體闷堡,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年疑故,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了杠览。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡纵势,死狀恐怖踱阿,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情钦铁,我是刑警寧澤软舌,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布,位于F島的核電站育瓜,受9級(jí)特大地震影響葫隙,放射性物質(zhì)發(fā)生泄漏栽烂。R本人自食惡果不足惜躏仇,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望腺办。 院中可真熱鬧焰手,春花似錦、人聲如沸擎场。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至躲履,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間聊闯,已是汗流浹背工猜。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留菱蔬,地道東北人篷帅。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像拴泌,于是被迫代替她去往敵國(guó)和親魏身。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容