基因組文章構(gòu)成

1.genome survey

數(shù)據(jù)過(guò)濾

去除測(cè)序原始數(shù)據(jù)中可能包含低質(zhì)量分飞、接頭污染以及含 N 過(guò)高的 reads
NT比對(duì)
通過(guò)BLAST對(duì)下機(jī)數(shù)據(jù)過(guò)濾后的有效數(shù)據(jù)進(jìn)行 NT 比對(duì)評(píng)估悴务，如果有較高比例的序列同時(shí)比對(duì)到非近源物種的基因組上，可能是樣品存在污染引起的
Kmer分析
通過(guò)GenomeScope進(jìn)行Kmer分析譬猫，Kmer分析可以初步判斷樣本的基因組大小讯檐、雜合情況和重復(fù)序列信息。
SOAP denovo 組裝結(jié)果
用SOAP denovo對(duì)高通量測(cè)序數(shù)據(jù)進(jìn)行初步組裝,獲取拼接結(jié)果和基因組大小
GC 分布
GC百分比是一個(gè)物種基因組的重要特征之一 ,同時(shí) GC 含量分布的集中性有時(shí)也可以反映雜合染服、重復(fù)以及是否有污染等特征

Genome survey

2. genome assembly

Assembly

PacBio測(cè)序組裝
1.1 基于 PacBio 平臺(tái)的基因組測(cè)序
PacBio測(cè)序平臺(tái)基于獨(dú)特的單分子實(shí)時(shí)測(cè)序技術(shù)（ Single Molecule Real Time SMRT ）别洪，其應(yīng)用了邊合成邊測(cè)序的原理，以 SMRT 芯片為測(cè)序載體柳刮，利用芯片
上納米級(jí)別的零模波導(dǎo)孔（ zero mode waveguides, ZMWs ）和熒光標(biāo)記的核苷酸焦磷酸鏈（ Phospholinked nucleotides ）挖垛，每個(gè)零模波導(dǎo)孔中都能夠包含一個(gè) DNA聚合酶及一條 DNA 樣品鏈進(jìn)行單分子測(cè)序，并實(shí)時(shí)檢測(cè)插入堿基的熒光信號(hào)秉颗，連續(xù)不斷地讀取該 DNA 樣品鏈的堿基信息痢毒，因此可以極大的提高所獲得的測(cè)序片段長(zhǎng)度。
1.2 基于PacBio的基因組組裝
1.2.1 基因組組裝
Canu 在加載 reads 后將對(duì) k mer 進(jìn)行計(jì)數(shù)蚕甥，用于計(jì)算序列間的 overlap 哪替。 Canu 分為糾錯(cuò)、修整和組裝三個(gè)步驟菇怀，在 reads 糾錯(cuò)時(shí)從 overlap中挑選一致性序列替換原始的噪聲 reads 凭舶，修整時(shí)使用 overlap 區(qū)分并確定 reads中的高質(zhì)量區(qū)域和需要修整的低質(zhì)量區(qū)域晌块，保留單個(gè)最高質(zhì)量的序列塊。最終組
裝時(shí)帅霜， Canu 將根據(jù)一致的 overlap 對(duì)序列進(jìn)行排列 layout 匆背，得到 contig 的組裝結(jié)果。
1.2.2 基因組糾錯(cuò)
Pilon 以 FASTA和 BAM 文件作為輸入身冀，根據(jù)比對(duì)結(jié)果對(duì)輸入的參考基因組進(jìn)行糾錯(cuò)靠汁。整個(gè)過(guò)程包括了比對(duì)、標(biāo)記重復(fù)闽铐、過(guò)濾高質(zhì)量比對(duì)的 read 、 polish 兄墅。
組裝評(píng)估
2.1 GC分布評(píng)估
使用BWA 軟件將過(guò)濾后的測(cè)序數(shù)據(jù)比對(duì)到基因組的組裝結(jié)果上踢星，使用 soap.coverage 軟件將所有堿基的 soap 比對(duì)結(jié)果進(jìn)行統(tǒng)計(jì)，得到基因組的單堿基深度信息隙咸；以 10kb 為滑窗長(zhǎng)度在基因組上無(wú)重復(fù)前進(jìn)沐悦，對(duì)每個(gè)滑窗長(zhǎng)度內(nèi)的堿基平均測(cè)序深度與 GC 含量進(jìn)行統(tǒng)計(jì)。
2.2 深度/覆蓋度評(píng)估
為了評(píng)估組裝的準(zhǔn)確性五督，選取小片段文庫(kù)reads 采用 BWA 軟件比對(duì)到組裝的基因組上藏否，統(tǒng)計(jì) reads 的比對(duì)率、覆蓋基因組的程度及深度的分布情況充包，評(píng)估組裝的完整性和測(cè)序的均勻性副签。
2.3 SNP評(píng)估
單核苷酸多態(tài)性指在基因組上單個(gè)核苷酸變異形成的遺傳標(biāo)記，其數(shù)量很多基矮，多態(tài)性豐富淆储。我們利用 Samtools 等工具對(duì) BWA 比對(duì)結(jié)果經(jīng)過(guò)染色體坐標(biāo)排序、去掉重復(fù)的 reads 等處理家浇，進(jìn)行 SNPCalling 本砰，并對(duì)原始結(jié)果進(jìn)行過(guò)濾。
2.4 BUSCO評(píng)估
BUSCO（Benchmarking sets of Universal Single Copy Orthologs ）評(píng)估是利用單拷貝直系同源基因钢悲，抽樣了數(shù)百個(gè)基因組点额，從中選擇單拷貝直系同源大于 90%的基因作為直系同源基因集，并對(duì)基因組組裝結(jié)果中對(duì)同源基因的情況進(jìn)行比對(duì)莺琳，以此評(píng)估基因組組裝的完整性还棱。

3.genome annotation

基因組注釋主要包括四個(gè)方面內(nèi)容：重復(fù)序列注釋、基因結(jié)構(gòu)預(yù)測(cè) 芦昔、基因功能注釋诱贿、 ncRNA注釋娃肿。

Annotation

1 .重復(fù)序列注釋
基因組重復(fù)序列
TRF（Tandem Repeat Finder）咕缎；RepeatMasker珠十；RepeatProteinMask；De novo
2 .基因結(jié)構(gòu)預(yù)測(cè)
de novo預(yù)測(cè) 使用軟件 Augustus凭豪；homolog注釋(近緣物種）焙蹭；Transcript預(yù)測(cè)（RNA-seq數(shù)據(jù)）
使用Glean軟件對(duì)上述三種證據(jù)集進(jìn)行整合，然后過(guò)濾掉部分基因嫂伞，得到近緣物種基因結(jié)構(gòu)統(tǒng)計(jì)結(jié)果孔厉。使用BUSCO軟件對(duì)基因集得完整性進(jìn)行評(píng)估。
3 .基因功能注釋
用基因結(jié)構(gòu)預(yù)測(cè)得到的蛋白質(zhì)序列與Interpro帖努、 KEGG撰豺、 Swissprot、 Tremble等已知蛋白庫(kù)進(jìn)行比對(duì)拼余。

4 .非編碼RNA注釋
通過(guò)與已知ncRNA 庫(kù)進(jìn)行比對(duì)

重復(fù)序列注釋
重復(fù)序列可分為串聯(lián)重復(fù)序列(Tandem repeat)和散在重復(fù)序列 (Interspersed repeat)兩大類(lèi)污桦。其中串聯(lián)重復(fù)序列包括有微衛(wèi)星序列，小衛(wèi)星序列等匙监；散在重復(fù)序列又稱(chēng)轉(zhuǎn)座子元件凡橱，包括以 DNA-DNA方式轉(zhuǎn)座的 DNA轉(zhuǎn)座子和反轉(zhuǎn)錄轉(zhuǎn)座子 (retrotransposon)。常見(jiàn)的反轉(zhuǎn)錄轉(zhuǎn)座子類(lèi)別有 LTR LINE和 SINE等亭姥。
使用兩種方法進(jìn)行重復(fù)序列注釋?zhuān)?br> 基于RepBase (http://www.girinst.org/repbase) 的同源預(yù)測(cè)方法 (軟件：RepeatMasker);
基于自身序列比對(duì)(軟件 : RepeatModeler稼钩、 Piler、 RepeatScount)及重復(fù)序列特征 (軟 : Trf和 LTR-FINDER)的 De novo預(yù)測(cè)方法达罗。
基因結(jié)構(gòu)預(yù)測(cè)
使用 GLEAN坝撑、 EVM、 Maker等軟件對(duì)不同的證據(jù)集進(jìn)行整合粮揉，去除冗余绍载，得到完整的基因集。其中滔蝉，證據(jù)集的來(lái)源主要有三種：
Homolog預(yù)測(cè) , 挑選 3~10個(gè) 近緣物種击儡，使用 Genewise軟件進(jìn)行同源預(yù)測(cè)；
De novo 預(yù)測(cè)蝠引，根據(jù)基因自身的結(jié)構(gòu)特征阳谍，使用 Augustus, Genscan, Genemark, Glimmer, GeneID, SNAP等軟件對(duì)基因組序列進(jìn)行從頭預(yù)測(cè)；
Transcript預(yù)測(cè)螃概，有兩種策略矫夯，一種是先使用 Trinity軟件對(duì) RNA-seq數(shù)據(jù)進(jìn)行組裝，然后使用 Blat軟件將組裝結(jié)果與基因組序列進(jìn)行比對(duì)吊洼，接著再用Transdecoder軟件將比對(duì)結(jié)果去冗余训貌；另一種是利用 Hisat2軟件直接將 RNA-seq數(shù)據(jù)與基因組序列進(jìn)行比對(duì)，然后用 Stringtie軟件將比對(duì)結(jié)果轉(zhuǎn)化為基因格式
基因功能注釋
借助于外源蛋白數(shù)據(jù)庫(kù)(SwissProt、 TrEMBL递沪、 KEGG豺鼻、 InterPro、 COG款慨、NT儒飒、 NR和 GO)對(duì)基因集中的蛋白進(jìn)行功能注釋。
非編碼RNA注釋注釋
非編碼RNA（（Non-coding RNA）是指不編碼蛋白質(zhì)的）是指不編碼蛋白質(zhì)的RNA,包括包括rRNA檩奠，桩了，tRNA，埠戳，snRNA和和miRNA等等井誉。。這些這些RNA的共同特點(diǎn)是都能從基因組上轉(zhuǎn)錄而的共同特點(diǎn)是都能從基因組上轉(zhuǎn)錄而來(lái)整胃，但是不翻譯成蛋白送悔，在來(lái)，但是不翻譯成蛋白爪模，在RNA 水平上就能行使生物學(xué)功能欠啤。水平上就能行使生物學(xué)功能。miRNA可降解靶可降解靶基因或抑制靶基因翻譯成蛋白質(zhì)屋灌，具有沉默基因的功能基因或抑制靶基因翻譯成蛋白質(zhì)洁段，具有沉默基因的功能; tRNA、共郭、rRNA直接參與直接參與蛋白質(zhì)的合成蛋白質(zhì)的合成; snRNA主要參與主要參與RNA前體的加工祠丝，是前體的加工，是RNA剪切體的主要成分除嘹。剪切體的主要成分写半。根據(jù)tRNA的結(jié)構(gòu)特征，利用的結(jié)構(gòu)特征尉咕，利用tRNAscan-SE軟件來(lái)尋找基因組中的軟件來(lái)尋找基因組中的tRNA序序列叠蝇；由于列；由于rRNA具有高度的保守性年缎，因此可以選擇近緣物種的具有高度的保守性悔捶，因此可以選擇近緣物種的rRNA序列作為參序列作為參考序列，通過(guò)考序列单芜，通過(guò)BLASTN比對(duì)來(lái)尋找基因組中的比對(duì)來(lái)尋找基因組中的rRNA蜕该；另外，利用洲鸠；另外堂淡，利用Rfam家族的家族的協(xié)方差模型，采用協(xié)方差模型，采用Rfam自帶的自帶的INFERNAL軟件可預(yù)測(cè)基因組上的軟件可預(yù)測(cè)基因組上的miRNA和和snRNA序列信息绢淀。序列信息萤悴。

4.Comparative genomics

比較基因組

與其近緣物種進(jìn)行比較基因組學(xué)分析，主要包括基因家族聚類(lèi)更啄、系統(tǒng)發(fā)育樹(shù)稚疹、分歧時(shí)間居灯、基因家族的擴(kuò)張和收縮祭务、基因家族功能富集等分析。
1.基因家族聚類(lèi)
使用OrthoMCL軟件來(lái)進(jìn)行基因家族聚類(lèi)怪嫌，使用BLASTP軟件比對(duì)所有物種的蛋白序列义锥， e值閾值設(shè)為 1e-5然后用OrthoMCL 軟件對(duì)所有基因進(jìn)行聚類(lèi)。
2.系統(tǒng)發(fā)育
使用單拷貝基因家族構(gòu)建系統(tǒng)發(fā)育樹(shù)岩灭。首先使用 MUSCLE 比對(duì)單拷貝基因家族的蛋白序列然后基于比對(duì)結(jié)果拌倍，將蛋白序列反轉(zhuǎn)錄為 CDS 序列提取每個(gè)比對(duì)的 4 倍簡(jiǎn)并位點(diǎn)串聯(lián)成 super gene 然后使用PhyML 和 Mrbayes 分別進(jìn)行構(gòu)樹(shù) ，獲得樹(shù)形圖文件最終使用 Figtree 將樹(shù)形圖文件圖像化噪径。
3.分歧時(shí)間
使用PAML中的 MCMCTREE 來(lái)估計(jì)物種分歧時(shí)間使用“ Correlated molecular clock ”分子鐘模型和HKY85 ”核酸替換模型,校正點(diǎn)分歧時(shí)間來(lái)自TimeTree http://www.timetree. 柱恤。
4.基因家族擴(kuò)張和收縮
根據(jù)基因家族聚類(lèi)結(jié)果和物種間的系統(tǒng)發(fā)育關(guān)系，使用CAFE 進(jìn)行基因家族擴(kuò)張和收縮分析,對(duì)這些顯著擴(kuò)張的基因進(jìn)行 KEGG 和 GO 富集分析.
使用PAML 中的 CodeML 進(jìn)行正選擇分析找爱，選用“branch site” 模型得到受正選擇基因(p<0.05).
5.LTR插入時(shí)間
逆轉(zhuǎn)錄轉(zhuǎn)座子在插入宿主基因組時(shí) 兩個(gè) LTR 區(qū)域通常是相同的梗顺。隨著時(shí)間的推移，核苷酸的替換會(huì)導(dǎo)致兩個(gè) LTR 序列出現(xiàn) 差異车摄。在核苷酸替換率已知的情況下寺谤，可以根據(jù)兩個(gè) LTR 之間的差異數(shù)估算插入時(shí)間,我們使用 LTR_FINDER 尋找基因組中的 LTR 區(qū)域，然后使用MUSCLE 進(jìn)行多序列比對(duì)并使用 DISTMAT 計(jì)算距離矩陣吮播，最后根據(jù)公式 T = K2P/2r 計(jì)算 LTR 插入時(shí)間 .
6.基因組共線性
我們使用BLASTP 來(lái)檢測(cè)物種間的直系同源基因变屁，選擇最優(yōu)的比對(duì)結(jié)果，使用 MCscan 識(shí)別同源基因區(qū)塊意狠，然后選擇更長(zhǎng)的同源基因區(qū)塊進(jìn)行下一步作圖粟关。
7.全基因組復(fù)制分析
由于同義突變?cè)谖锓N進(jìn)化過(guò)程中不受自然選擇，所以在一定時(shí)間尺度下环戈，同義突變的速率可以衡量物種進(jìn)化的時(shí)間也可以用來(lái)衡量物種全基因組復(fù)制時(shí)間發(fā)生的時(shí)間和次數(shù) 誊役。四倍簡(jiǎn)并位點(diǎn)顛換率 (4dTv )分布和同義替換率 (Ks) 分布常被用來(lái)進(jìn)行全基因組復(fù)制分析。首先使用 BLASTP 來(lái)檢測(cè)物種內(nèi)的旁系同源基因和物種間的直系同源基因然后使用 MCscan 軟件識(shí)別同源基因區(qū)塊谷市，計(jì)算同源基因區(qū)塊的 4dTv 值,使用KaKs_caculator計(jì)算旁系同源基因的Ks值蛔垢。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市迫悠，隨后出現(xiàn)的幾起案子鹏漆，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 219,039評(píng)論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件艺玲，死亡現(xiàn)場(chǎng)離奇詭異括蝠，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)饭聚，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,426評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)忌警，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人秒梳，你說(shuō)我怎么就攤上這事法绵。” “怎么了酪碘？”我有些...
開(kāi)封第一講書(shū)人閱讀 165,417評(píng)論 0贊 356
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵朋譬，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我兴垦，道長(zhǎng)徙赢，這世上最難降的妖魔是什么？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,868評(píng)論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任探越，我火速辦了婚禮狡赐，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘钦幔。我一直安慰自己枕屉，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,892評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布节槐。她就那樣靜靜地躺著搀庶，像睡著了一般。火紅的嫁衣襯著肌膚如雪铜异。梳的紋絲不亂的頭發(fā)上哥倔，一...
開(kāi)封第一講書(shū)人閱讀 51,692評(píng)論 1贊 305
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音揍庄，去河邊找鬼咆蒿。笑死，一個(gè)胖子當(dāng)著我的面吹牛蚂子，可吹牛的內(nèi)容都是我干的沃测。我是一名探鬼主播，決...
沈念sama閱讀 40,416評(píng)論 3贊 419
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼食茎，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼蒂破！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起别渔，我...
開(kāi)封第一講書(shū)人閱讀 39,326評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤附迷，失蹤者是張志新（化名）和其女友劉穎惧互，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體喇伯，經(jīng)...
沈念sama閱讀 45,782評(píng)論 1贊 316
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡喊儡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,957評(píng)論 3贊 337
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了稻据。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片艾猜。...
茶點(diǎn)故事閱讀 40,102評(píng)論 1贊 350
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖捻悯，靈堂內(nèi)的尸體忽然破棺而出匆赃，到底是詐尸還是另有隱情，我是刑警寧澤秋度，帶...
沈念sama閱讀 35,790評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布炸庞，位于F島的核電站钱床，受9級(jí)特大地震影響荚斯，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜查牌，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,442評(píng)論 3贊 331
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一事期、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧纸颜，春花似錦兽泣、人聲如沸。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,996評(píng)論 0贊 22
一樁弒父案唠倦，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至涮较，卻和暖如春稠鼻，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背狂票。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 33,113評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工候齿，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人闺属。一個(gè)月前我還...
沈念sama閱讀 48,332評(píng)論 3贊 373
代替公主和親
正文我出身青樓慌盯，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親掂器。傳聞我的和親對(duì)象是個(gè)殘疾皇子亚皂，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,044評(píng)論 2贊 355

基因組文章構(gòu)成

1.genome survey

2. genome assembly

3.genome annotation

4.Comparative genomics

推薦閱讀更多精彩內(nèi)容