這幾日學(xué)習(xí)比較忙裸删,都沒有做筆記噩翠,想整理的時候發(fā)現(xiàn)還沒有整理好锈津,就從6號開始吧
先來理解幾個基礎(chǔ)概念
摘自中山大學(xué)生科院
生物序列的相似性
是指一種很直接的數(shù)量關(guān)系暮顺,比如部分相同或相似的百分比或其它一些合適的度量乖篷。比如說响驴,A序列和B序列的相似性是80%,或者4/5撕蔼。這是個量化的關(guān)系豁鲤。當(dāng)然可進(jìn)行自身局部比較
生物序列的同源性
指從一些數(shù)據(jù)中推斷出的兩個基因或蛋白質(zhì)序列具而共同祖先的結(jié)論秽誊,屬于質(zhì)的判斷。就是說A和B的關(guān)系上琳骡,只有是同源序列锅论,或者非同源序列兩種關(guān)系。而說A和B的同源性為80%都是不科學(xué)的楣号。
相似性和同源性關(guān)系
序列的相似性和序列的同源性有一定的關(guān)系最易,一般來說序列間的相似性越高的話,它們是同源序列的可能性就更高炫狱,所以經(jīng)吃謇粒可以通過序列的相似性來推測序列是否同源。
正因為存在這樣的關(guān)系视译,很多時候?qū)π蛄械南嗨菩院屯葱跃蜎]有做很明顯的區(qū)分嬉荆,造成經(jīng)常等價混用兩個名詞果善。所以有出現(xiàn)A序列和B序列的同源性為80%一說辆童。
序列相似性比較:
就是將待研究序列與DNA或蛋白質(zhì)序列庫進(jìn)行比較亿遂,用于確定該序列的生物屬性傻昙,也就是找出與此序列相似的已知序列是什么篓叶。完成這一工作只需要使用兩兩序列比較算法虎韵。常用的程序包有BLAST时鸵、FASTA等言秸;
序列同源性分析:
是將待研究序列加入到一組與之同源什往,但來自不同物種的序列中進(jìn)行多序列同時比較扳缕,以確定該序列與其它序列間的同源性大小。這是理論分析方法中最關(guān)鍵的一步别威。完成這一工作必須使用多序列比較算法躯舔。常用的程序包有CLUSTAL等;
直系同源和旁系同源
摘自樊龍江《生物信息學(xué)札記》
直系同源
直系同源的定義是:
(1)在進(jìn)化上起源于一個始祖基因并垂直傳遞(vertical descent)的同源基因省古;
(2)分布于兩種或兩種以上物種的基因組粥庄;
(3)功能高度保守乃至于近乎相同,甚至于其在近緣物種可以相互替換豺妓;
(4)結(jié)構(gòu)相似惜互;
(5)組織特異性與亞細(xì)胞分布相似。
在這些條件中琳拭,垂直傳遞和功能相同是最重要的训堆。如多種抗藥性基因,在細(xì)菌白嘁、果蠅坑鱼、河豚魚、小鼠絮缅、人類的基因組中都存在鲁沥,其結(jié)構(gòu)相似呼股,功能都與多種藥物的抗性有關(guān)。直系同源基因的鑒定是比較基因組的研究線索和內(nèi)容画恰,直系同源的存在是基因組進(jìn)化的重要證據(jù)卖怜, 因此對直系同源的定義與條件的掌握甚為嚴(yán)格。鑒定直系同源的實際操作標(biāo)準(zhǔn)(practical criteria)為:
如基因組Ⅰ中的A基因與基因組Ⅱ中的A‘基因被認(rèn)為是直系同源阐枣,則要求:
(1)A‘的產(chǎn)物比任何在基因組Ⅱ中所發(fā)現(xiàn)的其它基因產(chǎn)物都更相似于A產(chǎn)物;
(2)A‘與A的相似程度比在任何一個親緣關(guān)系較遠(yuǎn)的基因組中的任一基因都要高奄抽;
(3)A編碼的蛋白與A‘編碼的蛋白要從頭到尾都能并排比較蔼两, 即含有相似以至于相同的模序(motif)。
旁系同源
旁系同源(paralogy)基因是指同一基因組(或同系物種的基因組)中逞度,由于始祖基因的加倍而橫向(horizontal)產(chǎn)生的幾個同源基因额划。
直系與旁系的共性是同源,都源于各自的始祖基因档泽。其區(qū)別在于:在進(jìn)化起源上俊戳,直系同源是強調(diào)在不同基因組中的垂直傳遞,旁系同源則是在同一基因組中的橫向加倍馆匿;在功能上抑胎,直系同源要求功能高度相似,而旁系同源在定義上對功能上沒有嚴(yán)格要求渐北,可能相似阿逃,但也可能并不相似(盡管結(jié)構(gòu)上具一定程度的相似),甚至于沒有功能(如基因家族中的假基因)赃蛛。旁系同源的功能變異可能是橫向加倍后的重排變異或進(jìn)化上獲得了另一功能恃锉, 其功能相似也許只是機械式的相關(guān)(mechanistically related),或非直系同源基因取代新產(chǎn)生的非親緣或遠(yuǎn)緣蛋白在不同物種具有相似的功能呕臂。在真細(xì)菌與古細(xì)菌的基因組中破托,30%~50%的基因?qū)倥韵低矗谡婧嘶蚪M的比例更高(Koonin EV and Galperin MY,1997)歧蒋。
相似與同源土砂,直系與旁系需要在定義上加以明確,但實際應(yīng)用中很難截然分開疏尿。 與別的常用術(shù)語也很難明確界定瘟芝。 但基因家族或多基因家族(gene family, multigene family)的原來的定義較側(cè)重于結(jié)構(gòu),因而一個直系基因可以與幾個旁系基因同屬于一個基因家族褥琐。在這一定義上锌俱,旁系同源可以說是一個基因家族中的其他成員(Huynen et al, 1997)。
隨著不同物種全基因組序列的闡明敌呈,上述概念愈見重要并更明確贸宏。從已知的 7 個物種的全基因組序列比較造寝,如所有的保守基因都據(jù)同源關(guān)系而加以分類(Tatusov RL et al.,1997),可歸納出 720 個直系同源簇(clusters of orthologous groups,COG)吭练,每一 COG 由一個直系同源蛋白或存在于至少 3 個種系(lineage)的直系的旁系同源組(orthologous sets of paralogs)組成诫龙。而基因家族又因大批基因及產(chǎn)物序列而賦予新的內(nèi)容, 這對于擴大對生物過程的認(rèn)識與操作基因的能力有很大的意義(Henikoff et al.,1997)鲫咽。
做blast就是從相似入手去找同源的一個工具签赃。
明天記錄怎么安裝本地blast