生信 | 基因組組裝實戰(zhàn)(一):基礎(chǔ)知識與基本思路

寫在前面

  • 以下內(nèi)容均來自菲沙基因(Frasergen)暑期生信培訓(xùn)班課堂筆記

1. Genome de nove 基礎(chǔ)知識

? 基因組(Genome)

基因組就是物種所含有的一套遺傳物質(zhì)(單倍體細(xì)胞核义桂、細(xì)胞器所含的全部DNA分子) , 包括全套基因和間隔序列慷吊。

  • 基因組

? 基因組測序(Genome Sequencing)

?基因組測序

  • 利用測序技術(shù)對物種的體內(nèi)的所有DNA分子進(jìn)行測序,獲取堿基組成,明確出基因的結(jié)構(gòu)信息,外顯子及內(nèi)含子區(qū)域急鳄、啟動子位置,以及基因的排列順序及功能疾宏。

?基因組測序技術(shù)

  • 二代測序: 基于BGI平臺的邊合成邊測序;
  • 三代測序:基于PacBio平臺的單分子實時測序坎藐。

?基因組測序原理

  • 通過對基因組DNA序列進(jìn)行打斷處理 ,制作成可以識別或讀取的DNA形式及大小,利用熒光標(biāo)記對每個堿基信號進(jìn)行讀取,進(jìn)而獲得DNA序列信息顺饮。

? 基因組從頭測序(Genome de nove)

  • 基因組de nove,又稱為基因組從頭測序,是指對基因組序列未知(或僅有基因組草圖)的物種進(jìn)行全基因組測序,然后進(jìn)行拼裝,從而得到該物種的全基因組序列,為后續(xù)功能基因挖掘、調(diào)控代謝網(wǎng)絡(luò)構(gòu)建帽蝶、物種進(jìn)化分析等奠定基礎(chǔ)励稳。
    Genome

? 構(gòu)建參考基因組 pipeline

構(gòu)建參考基因組 pipeline

2. pipeline的功能簡介

? 基因組 Survey 分析

  • 基因組Survey基于小片段文庫的低深度測序數(shù)據(jù)( 50X-100X ) ;

  • 通過K-mer分析 ,有效的評估基因組大小趣避、GC含量程帕、雜合度以及重復(fù)序列的含量等信息;

  • 是全面了解某一物種基因組特征的有效方法;

  • 為后續(xù)的全基因組 de novo 測序的組裝策略的制定提供理論依據(jù)愁拭。

    Genome Survey

  • 補(bǔ)充知識(一): 基因組復(fù)雜程度預(yù)估
    基因組復(fù)雜程度預(yù)估
  • 補(bǔ)充知識(二):根據(jù)K-mer圖確認(rèn)物種倍型

二倍體:雜合峰:主峰:重復(fù)峰 = 1:2:4(比值為橫坐標(biāo)峰的比值)

二倍體K-mer圖
三倍體:正常情況下雜合峰:主峰:重復(fù)峰 = 1:2:3(左圖)蔚鸥。主峰和重復(fù)峰深度低則可能重疊在一起:雜合峰:主峰:重復(fù)峰 = 1:2(右圖)]
三倍體K-mer圖
異源四倍體:2個峰馆类,呈現(xiàn)1:2的關(guān)系
異源四倍體K-mer圖
同源四倍體:同源四倍體的峰就是1 : 2 : 3 : 4 ,其中3和4經(jīng)常重疊在一起
同源四倍體K-mer圖

  • 補(bǔ)充知識(三):Survery的優(yōu)勢
Survery的優(yōu)勢

? 基因組組裝與注釋

  • 基本概念與原理
  • Contig:使用短reads之間的overlap關(guān)系拼接所得的無GAP序列片段
  • Scaffold:通過大片段文庫將Contig進(jìn)-步連接所得的長序列片段,各個Contig之間用"N"填補(bǔ)
    關(guān)系圖
  • 組裝質(zhì)量評價基本指標(biāo):ContigN50SeaffoldN50
    組裝質(zhì)量評價基本指標(biāo)
  • 將組裝所得序列從大到小排列,并依次相加社裆,當(dāng)累加長度達(dá)到總長度一半時泳秀,最后一條序列的長度即為N50;一般來說嗜傅,N50越大吕嘀,組裝結(jié)果的連續(xù)性越好
  • 組裝流程
組裝流程
  • 組裝
    常用軟件有Canu, MECAT, FALCON偶房。從項目周期棕洋、組裝結(jié)果掰盘、資源消耗等方面綜合來看,菲沙基因(Frasergen)他們首選Mecat 2進(jìn)行基因組組裝摄悯。

  • Hi-C輔助組裝
    Hi-C數(shù)據(jù)的一般規(guī)律:
    ? 染色體內(nèi)的互作高于染色體間的互作
    ? 染色體內(nèi)互作強(qiáng)度隨線性距離增加而減弱


    Hi-C輔助組裝
  • 組裝結(jié)果評估

    數(shù)據(jù)回比:為了評估組裝的完整性和測序覆蓋的均勻性,選擇CLR (Continuous Long Reads) subreads ,使用比對工具M(jìn)inimap2 ( v2.5默認(rèn)參數(shù))比對回組裝好的基因組,統(tǒng)計reads的比對率、覆蓋基因組的程度以及深度的分布情況,由此評估組裝的完整性和測序覆蓋的均勻性,結(jié)果如下表所示庆杜。
    數(shù)據(jù)回比結(jié)果

    BUSCO評估:基于OrthoDB中的單拷貝同源基因集,使用BUSCO ( V3.0.2 )預(yù)測這些基因并統(tǒng)計其完整度,碎片化程度及可能的丟失率射众。由此評估整個組裝結(jié)果中基因區(qū)的完整性(大于90%較好)。BUSCO評估結(jié)果如下表所示晃财。
    BUSCO評估
  • 基因結(jié)構(gòu)注釋
    基因結(jié)構(gòu)預(yù)測包括預(yù)測基因組中的基因位點叨橱、開放性閱讀框架(ORF)断盛、翻譯起始位點和終止位點罗洗、內(nèi)含子和外顯子區(qū)域、啟動子和終止子钢猛、可變剪切位點以及蛋白編碼序列(CDS)等


    真核基因結(jié)構(gòu)
  • 基因功能注釋
    全基因組測序?qū)a(chǎn)生大量數(shù)據(jù)伙菜,此前普遍采用比對方法對對預(yù)測出來的編碼基因進(jìn)行功能注釋,通過與各種功能數(shù)據(jù)庫(NR命迈、Swiss-Prot 贩绕、GO、KOG壶愤、KEGG)進(jìn)行蛋白質(zhì)比對淑倾,獲取該基因的功能信息。其中GO和KEGG數(shù)據(jù)庫分別在基因功能和代謝通路研究中占據(jù)重要地位征椒。

    基因功能注釋

  • 非編碼RNA注釋
    非編碼RNA(ncRNA)娇哆,指不翻譯成蛋白質(zhì)的RNA,如
    miRNA(MicroRNA),
    tRNA(轉(zhuǎn)運(yùn)RNA)勃救,
    rRNA(核糖體RNA),
    snRNA(小核RNA)等碍讨。
    利用tRNAscan-SE對全基因組進(jìn)行tRNA預(yù)測;利用RNAmmer預(yù)測全基因的rRNA蒙秒;利用Rfam數(shù)據(jù)庫通過cmscan鑒定全基因組非編碼RNA


    非編碼RNA
  • 重復(fù)序列分析
    重復(fù)序列廣泛存在于真核生物基因組中勃黍,這些重復(fù)序列或集中成簇,或分散在基因之間晕讲,根據(jù)分布把重復(fù)序列分為分散重復(fù)序列(Interpersed repeat)和串聯(lián)重復(fù)序列(Tendam repeat)


    重復(fù)序列分析
  • 基因組圈圖結(jié)果展示
    基因組圈圖

? 比較基因組學(xué)

  • 比較基因組學(xué)是從基因組中解析生物學(xué)意義


    比較基因組學(xué)流程圖
  • 基因家族聚類
    基因家族聚類
  • 系統(tǒng)進(jìn)化樹
    系統(tǒng)進(jìn)化樹
  • 物種分歧時間計算
    物種分歧時間
  • 基因家族擴(kuò)展收縮分析
    基因家族擴(kuò)展收縮分析
  • 正選擇分析
    正選擇分析
  • 共線性分析(需到染色體水平)
    共線性分析
  • 全基因組復(fù)制分析(WGD)
    全基因組復(fù)制分析(WGD)
  • 泛基因組分析(需要多份基因組de nove測序數(shù)據(jù))
    泛基因組分析

寫在最后

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末覆获,一起剝皮案震驚了整個濱河市榜田,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌锻梳,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件净捅,死亡現(xiàn)場離奇詭異疑枯,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)蛔六,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進(jìn)店門荆永,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人国章,你說我怎么就攤上這事具钥。” “怎么了液兽?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵骂删,是天一觀的道長。 經(jīng)常有香客問我四啰,道長宁玫,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任柑晒,我火速辦了婚禮欧瘪,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘匙赞。我一直安慰自己佛掖,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布涌庭。 她就那樣靜靜地躺著芥被,像睡著了一般。 火紅的嫁衣襯著肌膚如雪脾猛。 梳的紋絲不亂的頭發(fā)上撕彤,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天,我揣著相機(jī)與錄音猛拴,去河邊找鬼羹铅。 笑死,一個胖子當(dāng)著我的面吹牛愉昆,可吹牛的內(nèi)容都是我干的职员。 我是一名探鬼主播,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼跛溉,長吁一口氣:“原來是場噩夢啊……” “哼焊切!你這毒婦竟也來了扮授?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤专肪,失蹤者是張志新(化名)和其女友劉穎刹勃,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體嚎尤,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡荔仁,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了芽死。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片乏梁。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖关贵,靈堂內(nèi)的尸體忽然破棺而出遇骑,到底是詐尸還是另有隱情,我是刑警寧澤揖曾,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布落萎,位于F島的核電站,受9級特大地震影響翩肌,放射性物質(zhì)發(fā)生泄漏模暗。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一念祭、第九天 我趴在偏房一處隱蔽的房頂上張望兑宇。 院中可真熱鬧,春花似錦粱坤、人聲如沸隶糕。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽枚驻。三九已至,卻和暖如春株旷,著一層夾襖步出監(jiān)牢的瞬間再登,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工晾剖, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留锉矢,地道東北人。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓齿尽,卻偏偏與公主長得像沽损,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子循头,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容

  • 基因組組裝 1.k-mer 那么我們首先要看一下k-mer是什么绵估。它的定義是:是指將一條序列分成包含k個堿基的子字...
    小潤澤閱讀 11,664評論 5 39
  • 1. 建立項目團(tuán)體 多機(jī)構(gòu)合作炎疆,數(shù)據(jù)和利益共享。 2. 收集目標(biāo)基因組信息 考慮的因素:基因組大小国裳、倍性形入、雜合性、...
    生物信息與育種閱讀 1,741評論 1 20
  • 組裝策略 二代測序平臺如Illumina缝左、BGI唯笙,穩(wěn)定可靠,數(shù)據(jù)質(zhì)量高盒使,成本低,讀長短七嫌。三代測序平臺如PacBio...
    生物信息與育種閱讀 1,233評論 0 9
  • 隨著測序的發(fā)展诵原,越來越多的生物體被進(jìn)行基因組進(jìn)行測序英妓,這些測序的reads,再被用于組裝或者其它相關(guān)的研究绍赛÷溃基因組...
    lakeseafly閱讀 4,345評論 3 24
  • 表情是什么,我認(rèn)為表情就是表現(xiàn)出來的情緒吗蚌。表情可以傳達(dá)很多信息腿倚。高興了當(dāng)然就笑了,難過就哭了蚯妇。兩者是相互影響密不可...
    Persistenc_6aea閱讀 124,154評論 2 7