寫在前面
- 以下內(nèi)容均來自菲沙基因(Frasergen)暑期生信培訓(xùn)班課堂筆記
1. Genome de nove 基礎(chǔ)知識
? 基因組(Genome)
基因組就是物種所含有的一套遺傳物質(zhì)(單倍體細(xì)胞核义桂、細(xì)胞器所含的全部DNA分子) , 包括全套基因和間隔序列慷吊。
? 基因組測序(Genome Sequencing)
?基因組測序
- 利用測序技術(shù)對物種的體內(nèi)的所有DNA分子進(jìn)行測序,獲取堿基組成,明確出基因的結(jié)構(gòu)信息,外顯子及內(nèi)含子區(qū)域急鳄、啟動子位置,以及基因的排列順序及功能疾宏。
?基因組測序技術(shù)
- 二代測序: 基于BGI平臺的邊合成邊測序;
- 三代測序:基于PacBio平臺的單分子實時測序坎藐。
?基因組測序原理
- 通過對基因組DNA序列進(jìn)行打斷處理 ,制作成可以識別或讀取的DNA形式及大小,利用熒光標(biāo)記對每個堿基信號進(jìn)行讀取,進(jìn)而獲得DNA序列信息顺饮。
? 基因組從頭測序(Genome de nove)
- 基因組de nove,又稱為基因組從頭測序,是指對基因組序列未知(或僅有基因組草圖)的物種進(jìn)行全基因組測序,然后進(jìn)行拼裝,從而得到該物種的全基因組序列,為后續(xù)功能基因挖掘、調(diào)控代謝網(wǎng)絡(luò)構(gòu)建帽蝶、物種進(jìn)化分析等奠定基礎(chǔ)励稳。
? 構(gòu)建參考基因組 pipeline
2. pipeline的功能簡介
? 基因組 Survey 分析
基因組Survey基于小片段文庫的低深度測序數(shù)據(jù)( 50X-100X ) ;
通過K-mer分析 ,有效的評估基因組大小趣避、GC含量程帕、雜合度以及重復(fù)序列的含量等信息;
是全面了解某一物種基因組特征的有效方法;
-
為后續(xù)的全基因組 de novo 測序的組裝策略的制定提供理論依據(jù)愁拭。
-
補(bǔ)充知識(一): 基因組復(fù)雜程度預(yù)估
-
補(bǔ)充知識(二):根據(jù)K-mer圖確認(rèn)物種倍型
二倍體:雜合峰:主峰:重復(fù)峰 = 1:2:4(比值為橫坐標(biāo)峰的比值)
-
補(bǔ)充知識(三):Survery的優(yōu)勢
? 基因組組裝與注釋
-
基本概念與原理
- Contig:使用短reads之間的overlap關(guān)系拼接所得的無GAP序列片段
-
Scaffold:通過大片段文庫將Contig進(jìn)-步連接所得的長序列片段,各個Contig之間用"N"填補(bǔ)
- 組裝質(zhì)量評價基本指標(biāo):ContigN50與SeaffoldN50
- 將組裝所得序列從大到小排列,并依次相加社裆,當(dāng)累加長度達(dá)到總長度一半時泳秀,最后一條序列的長度即為N50;一般來說嗜傅,N50越大吕嘀,組裝結(jié)果的連續(xù)性越好
-
組裝流程
組裝
常用軟件有Canu, MECAT, FALCON偶房。從項目周期棕洋、組裝結(jié)果掰盘、資源消耗等方面綜合來看,菲沙基因(Frasergen)他們首選Mecat 2進(jìn)行基因組組裝摄悯。-
Hi-C輔助組裝
Hi-C數(shù)據(jù)的一般規(guī)律:
? 染色體內(nèi)的互作高于染色體間的互作
? 染色體內(nèi)互作強(qiáng)度隨線性距離增加而減弱
-
組裝結(jié)果評估
數(shù)據(jù)回比:為了評估組裝的完整性和測序覆蓋的均勻性,選擇CLR (Continuous Long Reads) subreads ,使用比對工具M(jìn)inimap2 ( v2.5默認(rèn)參數(shù))比對回組裝好的基因組,統(tǒng)計reads的比對率、覆蓋基因組的程度以及深度的分布情況,由此評估組裝的完整性和測序覆蓋的均勻性,結(jié)果如下表所示庆杜。
BUSCO評估:基于OrthoDB中的單拷貝同源基因集,使用BUSCO ( V3.0.2 )預(yù)測這些基因并統(tǒng)計其完整度,碎片化程度及可能的丟失率射众。由此評估整個組裝結(jié)果中基因區(qū)的完整性(大于90%較好)。BUSCO評估結(jié)果如下表所示晃财。 -
基因結(jié)構(gòu)注釋
基因結(jié)構(gòu)預(yù)測包括預(yù)測基因組中的基因位點叨橱、開放性閱讀框架(ORF)断盛、翻譯起始位點和終止位點罗洗、內(nèi)含子和外顯子區(qū)域、啟動子和終止子钢猛、可變剪切位點以及蛋白編碼序列(CDS)等
-
基因功能注釋
全基因組測序?qū)a(chǎn)生大量數(shù)據(jù)伙菜,此前普遍采用比對方法對對預(yù)測出來的編碼基因進(jìn)行功能注釋,通過與各種功能數(shù)據(jù)庫(NR命迈、Swiss-Prot 贩绕、GO、KOG壶愤、KEGG)進(jìn)行蛋白質(zhì)比對淑倾,獲取該基因的功能信息。其中GO和KEGG數(shù)據(jù)庫分別在基因功能和代謝通路研究中占據(jù)重要地位征椒。
-
非編碼RNA注釋
非編碼RNA(ncRNA)娇哆,指不翻譯成蛋白質(zhì)的RNA,如
miRNA(MicroRNA),
tRNA(轉(zhuǎn)運(yùn)RNA)勃救,
rRNA(核糖體RNA),
snRNA(小核RNA)等碍讨。
利用tRNAscan-SE對全基因組進(jìn)行tRNA預(yù)測;利用RNAmmer預(yù)測全基因的rRNA蒙秒;利用Rfam數(shù)據(jù)庫通過cmscan鑒定全基因組非編碼RNA
-
重復(fù)序列分析
重復(fù)序列廣泛存在于真核生物基因組中勃黍,這些重復(fù)序列或集中成簇,或分散在基因之間晕讲,根據(jù)分布把重復(fù)序列分為分散重復(fù)序列(Interpersed repeat)和串聯(lián)重復(fù)序列(Tendam repeat)
-
基因組圈圖結(jié)果展示
? 比較基因組學(xué)
-
比較基因組學(xué)是從基因組中解析生物學(xué)意義
-
基因家族聚類
-
系統(tǒng)進(jìn)化樹
-
物種分歧時間計算
-
基因家族擴(kuò)展收縮分析
-
正選擇分析
-
共線性分析(需到染色體水平)
-
全基因組復(fù)制分析(WGD)
- 泛基因組分析(需要多份基因組de nove測序數(shù)據(jù))
寫在最后
- 已發(fā)表動植物基因組文章匯總(截止于2021年)
鏈接:https://pan.baidu.com/s/1t_xbRf4Bj3DoHTQV-y6xAQ
提取碼:yyds