泛基因組(Pangenome):指的是某一物種全部基因的集合 (A Pangenome refers to a collection of genomic sequences in the entire species or population rather than in a single individual)
Core genome: containing genes present in all strains
Accessory genome: containing "dispensable" genes present in a subset of the strains
Strain-specific genes: present in only one strain
以大腸桿菌泛基因組為例簡單說明一下:
作者是選擇了26個不同的大腸桿菌摹菠,發(fā)現(xiàn)在所有的大腸桿菌里共有的基因是2000多個,特有的也大概是2000多個窘俺。在右邊的圖里宰睡,可以發(fā)現(xiàn)隨著菌株的數(shù)量增加历帚,core gene的數(shù)量是逐漸遞減股淡,到最后是達到一個平衡沥潭,大概是2000多個政敢。同時隨著菌株數(shù)量的增加其徙,Pan genome是逐漸增大的。
Core gene 一般是一些比較重要的基因喷户,例如管家基因(house keeping gene)唾那、以及維持一些代謝的一些功能基因。Pan genome所包含的內(nèi)容就比較多褪尝,大部分都是橫向基因轉(zhuǎn)移而來闹获,里邊會導(dǎo)致核苷酸和密碼子的使用頻率等往往都不一樣。
Core vs Dispensable genome
核心基因組:
* 高度保守河哑,在同一種細菌所有菌株中都存在
* 保持生命體基本功能避诽,代表物種的基本表型特征
非必須基因組:
* 在細菌整個進化史上,為適應(yīng)環(huán)境條件而不斷發(fā)生水平轉(zhuǎn)移與基因缺失
* 使不同菌株間在表型璃谨、生活方式沙庐、代謝等方面發(fā)生明顯的分化,最終表現(xiàn)為豐富的遺傳多樣性
Pangenomes arise due to gene gain by genomes from other species trough horizontal gene transfer and differential gene loss among genomes.
水平基因轉(zhuǎn)移(Horizontal Gene Transfer 佳吞, HGT): 遺傳物質(zhì)傳遞給非其子代
HGT is an important factor in the evolution of many organisms and a widely recognized mechanism for adaptation.
Vertical evolution : 在同物種里發(fā)生基因轉(zhuǎn)移
Horzontal evolution : 傳遞給非子代轨功,例如從一個細菌傳遞到另一個細菌,或者是從病毒里到另外一個細菌里容达,還有一些是從環(huán)境里獲得的古涧。
完美基因組:refer to has no pseudogenes, introns, transposons,extrachromosomal elements,or inteins.
Pangenome : Open or Close
Open pangenome : Size increases indefinitely with every added individual and cannot be mathematically predicted
* species with sympatric lifestyles tend to have open pangenomes
* large accessory genome
* small core genome
* Diverse community interactions
* Large population size
Closed pangenome : Contains a finite amount of genes/ sequence and the total pangenome size can be predicted
* Allopatric bacterial species tend to have closed pangenomes
* small accessory genome
* large core genome
* Limited community interactions
* Small population size
Core genes VS strain - specific genes
?????????????????????????????????? --- 在大腸桿菌中
Core genes
功能方面:注釋到的大多數(shù)都是ribosomal protein (核糖體蛋白),是一類非常重要的蛋白花盐,在生命體的基本功能方面發(fā)揮了重要的作用
GC含量:GC含量是最高的羡滑,其中密碼子第一位的GC含量中Core gene也是最高的,在密碼子第二位的GC含量這種特征不是很明顯(這個可以理解為因為密碼子的第二位往往受到了非常強的自然選擇算芯,因此這個位置上的任何一個變化都會導(dǎo)致氨基酸的變化)柒昏,在密碼子第三位中的趨勢和第一位的趨勢是一樣的,因此在實際當中Core gene的GC含量是比較高的一個狀態(tài)
基因長度:因為Core gene的功能比較保守熙揍,在基因組里存在的時間也是比較長职祷,所以它應(yīng)該是算一個比較古老的基因,古老的基因擁有的序列可能就比較多一些
Strain - specific genes
功能方面:注釋到的幾乎都是hypothetical protein (沒有實質(zhì)的功能注釋届囚,都是預(yù)測出來的)有梆,因為很多菌株特異的基因都是和環(huán)境密切相關(guān)的
GC含量:與Core gene是一個相反的趨勢
基因長度:相對于core gene來說應(yīng)該是算一個比較年輕的基因,因此它實際的基因序列長度要比較短一些
Translational selection in pangenome
Core gene : 受到最強的translation selection
Strain - specific genes : 受到最弱的translation selection
Mutation & Selection
Selection in connection with expression level indicated by CAI dominates core genes (CAI的方法是用的高表達量的數(shù)據(jù)作為reference意系,所以假如用CAI來做corelation的話泥耀,和它的相關(guān)性越高,就代表著表達的這種趨勢就越強蛔添,結(jié)果顯示取絕對值后core gene的的系數(shù)是最高的) -- Selection很大程度上是作用在core gene里
Mutation reflected by GC3 dominates strain - specific genes (考察了在密碼子第三位上的GC的變化痰催,可以想象密碼子第三位的GC的變化相比第二位和第一位是最自由的兜辞,因為第三位的變化在大多數(shù)的情況下是補不影響編碼的,因此用GC3來表征mutation的作用夸溶,發(fā)現(xiàn)strain - specific genes的系數(shù)是最高的)--Mutation 很大程度上是作用在strain - specific gene里
Evolutionary rates : synonymous (Ks, 同義替換) &? nonsynonymous (Ka, 非同義替換)
結(jié)果顯示逸吵,core gene的非同義替換率是最低的,符合預(yù)期情況缝裁,因為實際情況中core gene是非常重要的扫皱,它基本上不能也不允許隨意發(fā)生核苷酸的變化,因此它的同義替換率相比來說是非常低的压语。而strain-specific gene 恰好是一個相反的趨勢
Core gene VS essential gene
Essential genes are those genes of an organism that are thought to be critical for its survival. Essential genes encode proteins to maintain a central metabolism, replicate DNA, translate genes into proteins, maintain a basic cellular structure, and mediate transport processes into and out of the cell.