基因組文章構(gòu)成

1.genome survey

  • 數(shù)據(jù)過(guò)濾

    去除測(cè)序原始數(shù)據(jù)中可能包含低質(zhì)量分飞、接頭污染以及含 N 過(guò)高的 reads

  • NT比對(duì)
    通過(guò)BLAST對(duì)下機(jī)數(shù)據(jù)過(guò)濾后的有效數(shù)據(jù)進(jìn)行 NT 比對(duì)評(píng)估悴务,如果有較高比例的序列同時(shí)比對(duì)到非近源物種的基因組上,可能是樣品存在污染引起的

  • Kmer分析
    通過(guò)GenomeScope進(jìn)行Kmer分析譬猫,Kmer分析可以初步判斷樣本的基因組大小 讯檐、雜合情況和重復(fù)序列信息。

  • SOAP denovo 組裝結(jié)果
    用SOAP denovo對(duì)高通量測(cè)序數(shù)據(jù)進(jìn)行初步組裝,獲取拼接結(jié)果和基因組大小

  • GC 分布
    GC百分比是一個(gè)物種基因組的重要特征之一 ,同時(shí) GC 含量分布的集中性有時(shí)也可以反映雜合染服、重復(fù)以及是否有污染等特征


    Genome survey

2. genome assembly

Assembly
  • PacBio測(cè)序組裝
    1.1 基于 PacBio 平臺(tái)的基因組測(cè)序
    PacBio測(cè)序平臺(tái)基于獨(dú)特的單分子實(shí)時(shí)測(cè)序技術(shù)( Single Molecule Real Time SMRT )别洪,其應(yīng)用了邊合成邊測(cè)序的原理,以 SMRT 芯片為測(cè)序載體柳刮,利用芯片
    上納米級(jí)別的零模波導(dǎo)孔( zero mode waveguides, ZMWs )和熒光標(biāo)記的核苷酸焦磷酸鏈( Phospholinked nucleotides )挖垛,每個(gè)零模波導(dǎo)孔中都能夠包含一個(gè) DNA聚合酶及一條 DNA 樣品鏈進(jìn)行單分子測(cè)序,并實(shí)時(shí)檢測(cè)插入堿基的熒光信號(hào)秉颗,連續(xù)不斷地讀取該 DNA 樣品鏈的堿基信息痢毒,因此可以極大的提高所獲得的測(cè)序片段長(zhǎng)度。
    1.2 基于PacBio的基因組組裝
    1.2.1 基因組組裝
    Canu 在加載 reads 后將對(duì) k mer 進(jìn)行計(jì)數(shù)蚕甥,用于計(jì)算序列間的 overlap 哪替。 Canu 分為糾錯(cuò)、修整和組裝三個(gè)步驟菇怀,在 reads 糾錯(cuò)時(shí)從 overlap中挑選一致性序列替換原始的噪聲 reads 凭舶,修整時(shí)使用 overlap 區(qū)分并 確定 reads中 的 高質(zhì)量區(qū)域 和 需要修整 的低質(zhì)量區(qū)域 晌块,保留單個(gè)最高質(zhì)量的序列塊。最終組
    裝時(shí)帅霜, Canu 將根據(jù)一致的 overlap 對(duì)序列進(jìn)行排列 layout 匆背,得到 contig 的 組裝結(jié)果 。
    1.2.2 基因組糾錯(cuò)
    Pilon 以 FASTA和 BAM 文件作為輸入身冀,根據(jù)比對(duì)結(jié)果對(duì)輸入的參考基因組進(jìn)行糾錯(cuò)靠汁。整個(gè)過(guò)程包括了比對(duì)、標(biāo)記重復(fù)闽铐、過(guò)濾高質(zhì)量比對(duì)的 read 、 polish 兄墅。
  • 組裝評(píng)估
    2.1 GC分布評(píng)估
    使用BWA 軟件將過(guò)濾后的測(cè)序數(shù)據(jù)比對(duì)到基因組的組裝結(jié)果上踢星,使用 soap.coverage 軟件將所有堿基的 soap 比對(duì)結(jié)果進(jìn)行統(tǒng)計(jì),得到基因組的單堿基深度信息隙咸;以 10kb 為滑窗長(zhǎng)度在基因組上無(wú)重復(fù)前進(jìn)沐悦,對(duì)每個(gè)滑窗長(zhǎng)度內(nèi)的堿基平均測(cè)序深度與 GC 含量進(jìn)行統(tǒng)計(jì)。
    2.2 深度/覆蓋度評(píng)估
    為了評(píng)估組裝的準(zhǔn)確性五督,選取小片段文庫(kù)reads 采用 BWA 軟件比對(duì)到組裝的基因組上藏否,統(tǒng)計(jì) reads 的比對(duì)率、覆蓋基因組的程度及深度的分布情況充包,評(píng)估組裝的完整性和測(cè)序的均勻性副签。
    2.3 SNP評(píng)估
    單核苷酸多態(tài)性指在基因組上單個(gè)核苷酸變異形成的遺傳標(biāo)記,其數(shù)量很多基矮,多態(tài)性豐富淆储。我們利用 Samtools 等工具對(duì) BWA 比對(duì)結(jié)果經(jīng)過(guò)染色體坐標(biāo)排序、去掉重復(fù)的 reads 等處理家浇,進(jìn)行 SNPCalling 本砰,并對(duì)原始結(jié)果進(jìn)行過(guò)濾。
    2.4 BUSCO評(píng)估
    BUSCO(Benchmarking sets of Universal Single Copy Orthologs )評(píng)估是利用單拷貝直系同源基因钢悲,抽樣了數(shù)百個(gè)基因組点额,從中選擇單拷貝直系同源大于 90%的基因作為直系同源基因集,并對(duì)基因組組裝結(jié)果中對(duì)同源基因的情況進(jìn)行比對(duì)莺琳,以此評(píng)估基因組組裝的完整性还棱。

3.genome annotation

基因組注釋主要包括四個(gè)方面內(nèi)容 :重復(fù)序列注釋、基因結(jié)構(gòu)預(yù)測(cè) 芦昔、基因功能注釋诱贿、 ncRNA注釋娃肿。


Annotation

1 .重復(fù)序列注釋
基因組重復(fù)序列
TRF(Tandem Repeat Finder)咕缎;RepeatMasker珠十;RepeatProteinMask;De novo
2 .基因結(jié)構(gòu)預(yù)測(cè)
de novo預(yù)測(cè) 使用軟件 Augustus凭豪;homolog注釋(近緣物種)焙蹭;Transcript預(yù)測(cè)(RNA-seq數(shù)據(jù))
使用Glean軟件對(duì)上述三種證據(jù)集進(jìn)行整合, 然后過(guò)濾掉部分基因嫂伞,得到近緣物種基因結(jié)構(gòu)統(tǒng)計(jì)結(jié)果孔厉。使用BUSCO軟件對(duì)基因集得完整性進(jìn)行評(píng)估。
3 .基因功能注釋
用基因結(jié)構(gòu)預(yù)測(cè)得到的蛋白質(zhì)序列與Interpro帖努、 KEGG撰豺、 Swissprot、 Tremble等已知蛋白庫(kù)進(jìn)行比對(duì)拼余。

4 .非編碼RNA注釋
通過(guò)與已知ncRNA 庫(kù)進(jìn)行比對(duì)

  • 重復(fù)序列注釋
    重復(fù)序列可分為串聯(lián)重復(fù)序列(Tandem repeat)和散在重復(fù)序列 (Interspersed repeat)兩大類(lèi)污桦。其中串聯(lián)重復(fù)序列包括有微衛(wèi)星序列,小衛(wèi)星序列等匙监;散在重復(fù)序列又稱(chēng)轉(zhuǎn)座子元件凡橱,包括以 DNA-DNA方式轉(zhuǎn)座的 DNA轉(zhuǎn)座子和反轉(zhuǎn)錄轉(zhuǎn)座子 (retrotransposon)。常見(jiàn)的反轉(zhuǎn)錄轉(zhuǎn)座子類(lèi)別有 LTR LINE和 SINE等亭姥。
    使用兩種方法進(jìn)行重復(fù)序列注釋?zhuān)?br> 基于RepBase (http://www.girinst.org/repbase) 的同源預(yù)測(cè)方法 (軟件:RepeatMasker);
    基于自身序列比對(duì)(軟件 : RepeatModeler稼钩、 Piler、 RepeatScount)及重復(fù)序列特征 (軟 : Trf和 LTR-FINDER)的 De novo預(yù)測(cè)方法达罗。
  • 基因結(jié)構(gòu)預(yù)測(cè)
    使用 GLEAN坝撑、 EVM、 Maker等軟件對(duì)不同的證據(jù)集 進(jìn)行整合粮揉,去除冗余绍载,得到完整的基因集。其中滔蝉,證據(jù)集的來(lái)源主要有三種:
    Homolog預(yù)測(cè) , 挑選 3~10個(gè) 近緣 物種击儡,使用 Genewise軟件進(jìn)行 同源 預(yù)測(cè);
    De novo 預(yù)測(cè)蝠引,根據(jù)基因自身的結(jié)構(gòu)特征阳谍,使用 Augustus, Genscan, Genemark, Glimmer, GeneID, SNAP等軟件對(duì)基因組序列進(jìn)行從頭預(yù)測(cè);
    Transcript預(yù)測(cè)螃概,有兩種策略矫夯,一種是 先 使用 Trinity軟件對(duì) RNA-seq數(shù)據(jù)進(jìn)行組裝,然后使用 Blat軟件將組裝結(jié)果 與基因組序列進(jìn)行比對(duì)吊洼,接著再用Transdecoder軟件將比對(duì)結(jié)果去冗余训貌;另一種是 利用 Hisat2軟件直接將 RNA-seq數(shù)據(jù)與基因組序列進(jìn)行比對(duì),然后用 Stringtie軟件 將比對(duì)結(jié)果轉(zhuǎn)化為基因格式
  • 基因功能注釋
    借助于外源蛋白數(shù)據(jù)庫(kù)(SwissProt、 TrEMBL递沪、 KEGG豺鼻、 InterPro、 COG款慨、NT儒飒、 NR和 GO)對(duì)基因集中的蛋白進(jìn)行功能注釋。
  • 非編碼RNA注釋注釋
    非編碼RNA((Non-coding RNA)是指不編碼蛋白質(zhì)的)是指不編碼蛋白質(zhì)的RNA,包括包括rRNA檩奠,桩了,tRNA,埠戳,snRNA和和miRNA等等井誉。。這些這些RNA的共同特點(diǎn)是都能從基因組上轉(zhuǎn)錄而的共同特點(diǎn)是都能從基因組上轉(zhuǎn)錄而來(lái)整胃,但是不翻譯成蛋白送悔,在來(lái),但是不翻譯成蛋白爪模,在RNA 水平上就能行使生物學(xué)功能欠啤。水平上就能行使生物學(xué)功能。miRNA可降解靶可降解靶基因或抑制靶基因翻譯成蛋白質(zhì)屋灌,具有沉默基因的功能基因或抑制靶基因翻譯成蛋白質(zhì)洁段,具有沉默基因的功能; tRNA、共郭、rRNA直接參與直接參與蛋白質(zhì)的合成蛋白質(zhì)的合成; snRNA主要參與主要參與RNA前體的加工祠丝,是前體的加工,是RNA剪切體的主要成分除嘹。剪切體的主要成分写半。根據(jù)tRNA的結(jié)構(gòu)特征,利用的結(jié)構(gòu)特征尉咕,利用tRNAscan-SE軟件來(lái)尋找基因組中的軟件來(lái)尋找基因組中的tRNA序序列叠蝇;由于列;由于rRNA具有高度的保守性年缎,因此可以選擇近緣物種的具有高度的保守性悔捶,因此可以選擇近緣物種的rRNA序列作為參序列作為參考序列,通過(guò)考序列单芜,通過(guò)BLASTN比對(duì)來(lái)尋找基因組中的比對(duì)來(lái)尋找基因組中的rRNA蜕该;另外,利用洲鸠;另外堂淡,利用Rfam家族的家族的協(xié)方差模型,采用協(xié)方差模型,采用Rfam自帶的自帶的INFERNAL軟件可預(yù)測(cè)基因組上的軟件可預(yù)測(cè)基因組上的miRNA和和snRNA序列信息绢淀。序列信息萤悴。

4.Comparative genomics

比較基因組

與其近緣物種進(jìn)行比較基因組學(xué)分析,主要包括基因家族聚類(lèi)更啄、系統(tǒng)發(fā)育樹(shù)稚疹、分歧時(shí)間居灯、基因家族的擴(kuò)張和收縮祭务、 基因家族功能富集等分析。
1.基因家族聚類(lèi)
使用OrthoMCL軟件 來(lái)進(jìn)行基因家族聚類(lèi)怪嫌,使用BLASTP軟件比對(duì)所有物種的蛋白序列义锥, e值閾值設(shè)為 1e-5然后用OrthoMCL 軟件對(duì)所有基因進(jìn)行聚類(lèi)。
2.系統(tǒng)發(fā)育
使用單拷貝基因家族構(gòu)建系統(tǒng)發(fā)育樹(shù)岩灭。首先使用 MUSCLE 比對(duì)單拷貝基因家族的蛋白序列 然后 基于比對(duì)結(jié)果拌倍,將蛋白序列反轉(zhuǎn)錄為 CDS 序列 提取每個(gè)比對(duì)的 4 倍簡(jiǎn)并位點(diǎn)串聯(lián)成 super gene 然后 使用PhyML 和 Mrbayes 分別 進(jìn)行構(gòu)樹(shù) ,獲得樹(shù)形圖文件最終使用 Figtree 將樹(shù)形圖文件圖像化 噪径。
3.分歧時(shí)間
使用PAML中的 MCMCTREE 來(lái)估計(jì)物種 分歧 時(shí)間 使用“ Correlated molecular clock ”分子鐘模型和HKY85 ”核 酸 替換模型,校正點(diǎn)分歧時(shí)間來(lái)自TimeTree http://www.timetree. 柱恤。
4.基因家族擴(kuò)張和收縮
根據(jù)基因家族聚類(lèi)結(jié)果和物種間的系統(tǒng)發(fā)育關(guān)系,使用CAFE 進(jìn)行基因家族擴(kuò)張和收縮分析,對(duì)這些顯著擴(kuò)張的基因進(jìn)行 KEGG 和 GO 富集分析.
使用PAML 中的 CodeML 進(jìn)行正選擇分析找爱,選用“branch site” 模型得到受正選擇基因(p<0.05).
5.LTR插入時(shí)間
逆轉(zhuǎn)錄轉(zhuǎn)座子在插入宿主基因組時(shí) 兩個(gè) LTR 區(qū)域 通常是相同的梗顺。隨著時(shí)間的推移,核苷酸的替換會(huì)導(dǎo)致兩個(gè) LTR 序列 出現(xiàn) 差異车摄。 在核苷酸 替換率已知的情況下 寺谤,可以根據(jù)兩個(gè) LTR 之間的差異 數(shù)估算插入時(shí)間,我們使用 LTR_FINDER 尋找基因組中的 LTR 區(qū)域,然后使用MUSCLE 進(jìn)行多序列比對(duì)并使用 DISTMAT 計(jì)算距離矩陣吮播,最后根據(jù)公式 T = K2P/2r 計(jì)算 LTR 插入時(shí)間 .
6.基因組共線性
我們使用BLASTP 來(lái)檢測(cè)物種間的直系同源基因变屁,選擇最優(yōu)的比對(duì)結(jié)果,使用 MCscan 識(shí)別同源基因區(qū)塊意狠,然后選擇更長(zhǎng)的同源基因區(qū)塊進(jìn)行下一步作圖粟关。
7.全基因組復(fù)制分析
由于同義突變?cè)谖锓N進(jìn)化過(guò)程中不受自然選擇, 所以在一定時(shí)間尺度下环戈,同義突變的速率可以衡量物種進(jìn)化的時(shí)間 也可以用來(lái)衡量物種全基因組復(fù)制時(shí)間發(fā)生的時(shí)間和次數(shù) 誊役。四倍簡(jiǎn)并位點(diǎn)顛換率 (4dTv )分布 和同義替換率 (Ks) 分布 常被用來(lái)進(jìn)行全基因組復(fù)制分析。 首先 使用 BLASTP 來(lái)檢測(cè)物種內(nèi)的旁系同源基因和物種間的直系同源基因 然后使用 MCscan 軟件識(shí)別同源基因區(qū)塊谷市,計(jì)算同源基因區(qū)塊的 4dTv 值,使用KaKs_caculator計(jì)算旁系同源基因的Ks值蛔垢。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市迫悠,隨后出現(xiàn)的幾起案子鹏漆,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,039評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件艺玲,死亡現(xiàn)場(chǎng)離奇詭異括蝠,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)饭聚,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,426評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén)忌警,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人秒梳,你說(shuō)我怎么就攤上這事法绵。” “怎么了酪碘?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,417評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵朋譬,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我兴垦,道長(zhǎng)徙赢,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,868評(píng)論 1 295
  • 正文 為了忘掉前任探越,我火速辦了婚禮狡赐,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘钦幔。我一直安慰自己枕屉,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,892評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布节槐。 她就那樣靜靜地躺著搀庶,像睡著了一般。 火紅的嫁衣襯著肌膚如雪铜异。 梳的紋絲不亂的頭發(fā)上哥倔,一...
    開(kāi)封第一講書(shū)人閱讀 51,692評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音揍庄,去河邊找鬼咆蒿。 笑死,一個(gè)胖子當(dāng)著我的面吹牛蚂子,可吹牛的內(nèi)容都是我干的沃测。 我是一名探鬼主播,決...
    沈念sama閱讀 40,416評(píng)論 3 419
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼食茎,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼蒂破!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起别渔,我...
    開(kāi)封第一講書(shū)人閱讀 39,326評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤附迷,失蹤者是張志新(化名)和其女友劉穎惧互,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體喇伯,經(jīng)...
    沈念sama閱讀 45,782評(píng)論 1 316
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡喊儡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,957評(píng)論 3 337
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了稻据。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片艾猜。...
    茶點(diǎn)故事閱讀 40,102評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖捻悯,靈堂內(nèi)的尸體忽然破棺而出匆赃,到底是詐尸還是另有隱情,我是刑警寧澤秋度,帶...
    沈念sama閱讀 35,790評(píng)論 5 346
  • 正文 年R本政府宣布炸庞,位于F島的核電站钱床,受9級(jí)特大地震影響荚斯,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜查牌,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,442評(píng)論 3 331
  • 文/蒙蒙 一事期、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧纸颜,春花似錦兽泣、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,996評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至涮较,卻和暖如春稠鼻,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背狂票。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,113評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工候齿, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人闺属。 一個(gè)月前我還...
    沈念sama閱讀 48,332評(píng)論 3 373
  • 正文 我出身青樓慌盯,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親掂器。 傳聞我的和親對(duì)象是個(gè)殘疾皇子亚皂,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,044評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容

  • 知識(shí)的學(xué)習(xí)沒(méi)有一蹴而就,沒(méi)有捷近国瓮,扎實(shí)的學(xué)習(xí)是唯一的捷近灭必。 一篇RNA-seq分析流程的綜述匠楚,全面而詳細(xì)!深度好文...
    dandanwu90閱讀 48,599評(píng)論 5 152
  • 書(shū)名基因社會(huì)作者(美)以太·亞奈(ItaiYanai) / (美)馬丁·萊凱爾(MartinLercher)譯者尹...
    xuwensheng閱讀 2,010評(píng)論 0 6
  • 覺(jué)察日記一劉麗麗 主題是什么厂财? 我該怎么面對(duì)親子關(guān)系 2芋簿、事件是什么? 計(jì)劃好的出游活動(dòng)因?yàn)槲遗R時(shí)有事璃饱,要給變行程...
    洺妡閱讀 270評(píng)論 0 2
  • 寫(xiě)在2016年11月六日凌晨3:56 年年 從來(lái)沒(méi)有喝咖啡的習(xí)慣荚恶,要說(shuō)有撩穿,六月八號(hào)早該結(jié)束了的 朋友叫我凌晨三點(diǎn)...
    alxhhsu徐曉閱讀 963評(píng)論 0 4
  • 網(wǎng)上視頻畫(huà)質(zhì)虐狗:blibili,推薦買(mǎi)票現(xiàn)場(chǎng)觀看谒撼,絕對(duì)良心劇食寡,值得二刷。我刷的是2019年北京場(chǎng)廓潜,座無(wú)虛席抵皱。 —...
    茶葉蛋的碎碎念閱讀 3,990評(píng)論 0 1