1.genome survey
-
數(shù)據(jù)過(guò)濾
去除測(cè)序原始數(shù)據(jù)中可能包含低質(zhì)量分飞、接頭污染以及含 N 過(guò)高的 reads
NT比對(duì)
通過(guò)BLAST對(duì)下機(jī)數(shù)據(jù)過(guò)濾后的有效數(shù)據(jù)進(jìn)行 NT 比對(duì)評(píng)估悴务,如果有較高比例的序列同時(shí)比對(duì)到非近源物種的基因組上,可能是樣品存在污染引起的Kmer分析
通過(guò)GenomeScope進(jìn)行Kmer分析譬猫,Kmer分析可以初步判斷樣本的基因組大小 讯檐、雜合情況和重復(fù)序列信息。SOAP denovo 組裝結(jié)果
用SOAP denovo對(duì)高通量測(cè)序數(shù)據(jù)進(jìn)行初步組裝,獲取拼接結(jié)果和基因組大小-
GC 分布
GC百分比是一個(gè)物種基因組的重要特征之一 ,同時(shí) GC 含量分布的集中性有時(shí)也可以反映雜合染服、重復(fù)以及是否有污染等特征
Genome survey
2. genome assembly
- PacBio測(cè)序組裝
1.1 基于 PacBio 平臺(tái)的基因組測(cè)序
PacBio測(cè)序平臺(tái)基于獨(dú)特的單分子實(shí)時(shí)測(cè)序技術(shù)( Single Molecule Real Time SMRT )别洪,其應(yīng)用了邊合成邊測(cè)序的原理,以 SMRT 芯片為測(cè)序載體柳刮,利用芯片
上納米級(jí)別的零模波導(dǎo)孔( zero mode waveguides, ZMWs )和熒光標(biāo)記的核苷酸焦磷酸鏈( Phospholinked nucleotides )挖垛,每個(gè)零模波導(dǎo)孔中都能夠包含一個(gè) DNA聚合酶及一條 DNA 樣品鏈進(jìn)行單分子測(cè)序,并實(shí)時(shí)檢測(cè)插入堿基的熒光信號(hào)秉颗,連續(xù)不斷地讀取該 DNA 樣品鏈的堿基信息痢毒,因此可以極大的提高所獲得的測(cè)序片段長(zhǎng)度。
1.2 基于PacBio的基因組組裝
1.2.1 基因組組裝
Canu 在加載 reads 后將對(duì) k mer 進(jìn)行計(jì)數(shù)蚕甥,用于計(jì)算序列間的 overlap 哪替。 Canu 分為糾錯(cuò)、修整和組裝三個(gè)步驟菇怀,在 reads 糾錯(cuò)時(shí)從 overlap中挑選一致性序列替換原始的噪聲 reads 凭舶,修整時(shí)使用 overlap 區(qū)分并 確定 reads中 的 高質(zhì)量區(qū)域 和 需要修整 的低質(zhì)量區(qū)域 晌块,保留單個(gè)最高質(zhì)量的序列塊。最終組
裝時(shí)帅霜, Canu 將根據(jù)一致的 overlap 對(duì)序列進(jìn)行排列 layout 匆背,得到 contig 的 組裝結(jié)果 。
1.2.2 基因組糾錯(cuò)
Pilon 以 FASTA和 BAM 文件作為輸入身冀,根據(jù)比對(duì)結(jié)果對(duì)輸入的參考基因組進(jìn)行糾錯(cuò)靠汁。整個(gè)過(guò)程包括了比對(duì)、標(biāo)記重復(fù)闽铐、過(guò)濾高質(zhì)量比對(duì)的 read 、 polish 兄墅。 - 組裝評(píng)估
2.1 GC分布評(píng)估
使用BWA 軟件將過(guò)濾后的測(cè)序數(shù)據(jù)比對(duì)到基因組的組裝結(jié)果上踢星,使用 soap.coverage 軟件將所有堿基的 soap 比對(duì)結(jié)果進(jìn)行統(tǒng)計(jì),得到基因組的單堿基深度信息隙咸;以 10kb 為滑窗長(zhǎng)度在基因組上無(wú)重復(fù)前進(jìn)沐悦,對(duì)每個(gè)滑窗長(zhǎng)度內(nèi)的堿基平均測(cè)序深度與 GC 含量進(jìn)行統(tǒng)計(jì)。
2.2 深度/覆蓋度評(píng)估
為了評(píng)估組裝的準(zhǔn)確性五督,選取小片段文庫(kù)reads 采用 BWA 軟件比對(duì)到組裝的基因組上藏否,統(tǒng)計(jì) reads 的比對(duì)率、覆蓋基因組的程度及深度的分布情況充包,評(píng)估組裝的完整性和測(cè)序的均勻性副签。
2.3 SNP評(píng)估
單核苷酸多態(tài)性指在基因組上單個(gè)核苷酸變異形成的遺傳標(biāo)記,其數(shù)量很多基矮,多態(tài)性豐富淆储。我們利用 Samtools 等工具對(duì) BWA 比對(duì)結(jié)果經(jīng)過(guò)染色體坐標(biāo)排序、去掉重復(fù)的 reads 等處理家浇,進(jìn)行 SNPCalling 本砰,并對(duì)原始結(jié)果進(jìn)行過(guò)濾。
2.4 BUSCO評(píng)估
BUSCO(Benchmarking sets of Universal Single Copy Orthologs )評(píng)估是利用單拷貝直系同源基因钢悲,抽樣了數(shù)百個(gè)基因組点额,從中選擇單拷貝直系同源大于 90%的基因作為直系同源基因集,并對(duì)基因組組裝結(jié)果中對(duì)同源基因的情況進(jìn)行比對(duì)莺琳,以此評(píng)估基因組組裝的完整性还棱。
3.genome annotation
基因組注釋主要包括四個(gè)方面內(nèi)容 :重復(fù)序列注釋、基因結(jié)構(gòu)預(yù)測(cè) 芦昔、基因功能注釋诱贿、 ncRNA注釋娃肿。
1 .重復(fù)序列注釋
基因組重復(fù)序列
TRF(Tandem Repeat Finder)咕缎;RepeatMasker珠十;RepeatProteinMask;De novo
2 .基因結(jié)構(gòu)預(yù)測(cè)
de novo預(yù)測(cè) 使用軟件 Augustus凭豪;homolog注釋(近緣物種)焙蹭;Transcript預(yù)測(cè)(RNA-seq數(shù)據(jù))
使用Glean軟件對(duì)上述三種證據(jù)集進(jìn)行整合, 然后過(guò)濾掉部分基因嫂伞,得到近緣物種基因結(jié)構(gòu)統(tǒng)計(jì)結(jié)果孔厉。使用BUSCO軟件對(duì)基因集得完整性進(jìn)行評(píng)估。
3 .基因功能注釋
用基因結(jié)構(gòu)預(yù)測(cè)得到的蛋白質(zhì)序列與Interpro帖努、 KEGG撰豺、 Swissprot、 Tremble等已知蛋白庫(kù)進(jìn)行比對(duì)拼余。
4 .非編碼RNA注釋
通過(guò)與已知ncRNA 庫(kù)進(jìn)行比對(duì)
- 重復(fù)序列注釋
重復(fù)序列可分為串聯(lián)重復(fù)序列(Tandem repeat)和散在重復(fù)序列 (Interspersed repeat)兩大類(lèi)污桦。其中串聯(lián)重復(fù)序列包括有微衛(wèi)星序列,小衛(wèi)星序列等匙监;散在重復(fù)序列又稱(chēng)轉(zhuǎn)座子元件凡橱,包括以 DNA-DNA方式轉(zhuǎn)座的 DNA轉(zhuǎn)座子和反轉(zhuǎn)錄轉(zhuǎn)座子 (retrotransposon)。常見(jiàn)的反轉(zhuǎn)錄轉(zhuǎn)座子類(lèi)別有 LTR LINE和 SINE等亭姥。
使用兩種方法進(jìn)行重復(fù)序列注釋?zhuān)?br> 基于RepBase (http://www.girinst.org/repbase) 的同源預(yù)測(cè)方法 (軟件:RepeatMasker);
基于自身序列比對(duì)(軟件 : RepeatModeler稼钩、 Piler、 RepeatScount)及重復(fù)序列特征 (軟 : Trf和 LTR-FINDER)的 De novo預(yù)測(cè)方法达罗。 - 基因結(jié)構(gòu)預(yù)測(cè)
使用 GLEAN坝撑、 EVM、 Maker等軟件對(duì)不同的證據(jù)集 進(jìn)行整合粮揉,去除冗余绍载,得到完整的基因集。其中滔蝉,證據(jù)集的來(lái)源主要有三種:
Homolog預(yù)測(cè) , 挑選 3~10個(gè) 近緣 物種击儡,使用 Genewise軟件進(jìn)行 同源 預(yù)測(cè);
De novo 預(yù)測(cè)蝠引,根據(jù)基因自身的結(jié)構(gòu)特征阳谍,使用 Augustus, Genscan, Genemark, Glimmer, GeneID, SNAP等軟件對(duì)基因組序列進(jìn)行從頭預(yù)測(cè);
Transcript預(yù)測(cè)螃概,有兩種策略矫夯,一種是 先 使用 Trinity軟件對(duì) RNA-seq數(shù)據(jù)進(jìn)行組裝,然后使用 Blat軟件將組裝結(jié)果 與基因組序列進(jìn)行比對(duì)吊洼,接著再用Transdecoder軟件將比對(duì)結(jié)果去冗余训貌;另一種是 利用 Hisat2軟件直接將 RNA-seq數(shù)據(jù)與基因組序列進(jìn)行比對(duì),然后用 Stringtie軟件 將比對(duì)結(jié)果轉(zhuǎn)化為基因格式 - 基因功能注釋
借助于外源蛋白數(shù)據(jù)庫(kù)(SwissProt、 TrEMBL递沪、 KEGG豺鼻、 InterPro、 COG款慨、NT儒飒、 NR和 GO)對(duì)基因集中的蛋白進(jìn)行功能注釋。 - 非編碼RNA注釋注釋
非編碼RNA((Non-coding RNA)是指不編碼蛋白質(zhì)的)是指不編碼蛋白質(zhì)的RNA,包括包括rRNA檩奠,桩了,tRNA,埠戳,snRNA和和miRNA等等井誉。。這些這些RNA的共同特點(diǎn)是都能從基因組上轉(zhuǎn)錄而的共同特點(diǎn)是都能從基因組上轉(zhuǎn)錄而來(lái)整胃,但是不翻譯成蛋白送悔,在來(lái),但是不翻譯成蛋白爪模,在RNA 水平上就能行使生物學(xué)功能欠啤。水平上就能行使生物學(xué)功能。miRNA可降解靶可降解靶基因或抑制靶基因翻譯成蛋白質(zhì)屋灌,具有沉默基因的功能基因或抑制靶基因翻譯成蛋白質(zhì)洁段,具有沉默基因的功能; tRNA、共郭、rRNA直接參與直接參與蛋白質(zhì)的合成蛋白質(zhì)的合成; snRNA主要參與主要參與RNA前體的加工祠丝,是前體的加工,是RNA剪切體的主要成分除嘹。剪切體的主要成分写半。根據(jù)tRNA的結(jié)構(gòu)特征,利用的結(jié)構(gòu)特征尉咕,利用tRNAscan-SE軟件來(lái)尋找基因組中的軟件來(lái)尋找基因組中的tRNA序序列叠蝇;由于列;由于rRNA具有高度的保守性年缎,因此可以選擇近緣物種的具有高度的保守性悔捶,因此可以選擇近緣物種的rRNA序列作為參序列作為參考序列,通過(guò)考序列单芜,通過(guò)BLASTN比對(duì)來(lái)尋找基因組中的比對(duì)來(lái)尋找基因組中的rRNA蜕该;另外,利用洲鸠;另外堂淡,利用Rfam家族的家族的協(xié)方差模型,采用協(xié)方差模型,采用Rfam自帶的自帶的INFERNAL軟件可預(yù)測(cè)基因組上的軟件可預(yù)測(cè)基因組上的miRNA和和snRNA序列信息绢淀。序列信息萤悴。
4.Comparative genomics
與其近緣物種進(jìn)行比較基因組學(xué)分析,主要包括基因家族聚類(lèi)更啄、系統(tǒng)發(fā)育樹(shù)稚疹、分歧時(shí)間居灯、基因家族的擴(kuò)張和收縮祭务、 基因家族功能富集等分析。
1.基因家族聚類(lèi)
使用OrthoMCL軟件 來(lái)進(jìn)行基因家族聚類(lèi)怪嫌,使用BLASTP軟件比對(duì)所有物種的蛋白序列义锥, e值閾值設(shè)為 1e-5然后用OrthoMCL 軟件對(duì)所有基因進(jìn)行聚類(lèi)。
2.系統(tǒng)發(fā)育
使用單拷貝基因家族構(gòu)建系統(tǒng)發(fā)育樹(shù)岩灭。首先使用 MUSCLE 比對(duì)單拷貝基因家族的蛋白序列 然后 基于比對(duì)結(jié)果拌倍,將蛋白序列反轉(zhuǎn)錄為 CDS 序列 提取每個(gè)比對(duì)的 4 倍簡(jiǎn)并位點(diǎn)串聯(lián)成 super gene 然后 使用PhyML 和 Mrbayes 分別 進(jìn)行構(gòu)樹(shù) ,獲得樹(shù)形圖文件最終使用 Figtree 將樹(shù)形圖文件圖像化 噪径。
3.分歧時(shí)間
使用PAML中的 MCMCTREE 來(lái)估計(jì)物種 分歧 時(shí)間 使用“ Correlated molecular clock ”分子鐘模型和HKY85 ”核 酸 替換模型,校正點(diǎn)分歧時(shí)間來(lái)自TimeTree http://www.timetree. 柱恤。
4.基因家族擴(kuò)張和收縮
根據(jù)基因家族聚類(lèi)結(jié)果和物種間的系統(tǒng)發(fā)育關(guān)系,使用CAFE 進(jìn)行基因家族擴(kuò)張和收縮分析,對(duì)這些顯著擴(kuò)張的基因進(jìn)行 KEGG 和 GO 富集分析.
使用PAML 中的 CodeML 進(jìn)行正選擇分析找爱,選用“branch site” 模型得到受正選擇基因(p<0.05).
5.LTR插入時(shí)間
逆轉(zhuǎn)錄轉(zhuǎn)座子在插入宿主基因組時(shí) 兩個(gè) LTR 區(qū)域 通常是相同的梗顺。隨著時(shí)間的推移,核苷酸的替換會(huì)導(dǎo)致兩個(gè) LTR 序列 出現(xiàn) 差異车摄。 在核苷酸 替換率已知的情況下 寺谤,可以根據(jù)兩個(gè) LTR 之間的差異 數(shù)估算插入時(shí)間,我們使用 LTR_FINDER 尋找基因組中的 LTR 區(qū)域,然后使用MUSCLE 進(jìn)行多序列比對(duì)并使用 DISTMAT 計(jì)算距離矩陣吮播,最后根據(jù)公式 T = K2P/2r 計(jì)算 LTR 插入時(shí)間 .
6.基因組共線性
我們使用BLASTP 來(lái)檢測(cè)物種間的直系同源基因变屁,選擇最優(yōu)的比對(duì)結(jié)果,使用 MCscan 識(shí)別同源基因區(qū)塊意狠,然后選擇更長(zhǎng)的同源基因區(qū)塊進(jìn)行下一步作圖粟关。
7.全基因組復(fù)制分析
由于同義突變?cè)谖锓N進(jìn)化過(guò)程中不受自然選擇, 所以在一定時(shí)間尺度下环戈,同義突變的速率可以衡量物種進(jìn)化的時(shí)間 也可以用來(lái)衡量物種全基因組復(fù)制時(shí)間發(fā)生的時(shí)間和次數(shù) 誊役。四倍簡(jiǎn)并位點(diǎn)顛換率 (4dTv )分布 和同義替換率 (Ks) 分布 常被用來(lái)進(jìn)行全基因組復(fù)制分析。 首先 使用 BLASTP 來(lái)檢測(cè)物種內(nèi)的旁系同源基因和物種間的直系同源基因 然后使用 MCscan 軟件識(shí)別同源基因區(qū)塊谷市,計(jì)算同源基因區(qū)塊的 4dTv 值,使用KaKs_caculator計(jì)算旁系同源基因的Ks值蛔垢。