- 基因-共線性的定義與常見(jiàn)算法原理
-
物種內(nèi)的共線性分析
文件準(zhǔn)備(物種比對(duì)到自身的.blast文件瘪菌,物種基因信息文件.gff文件)般此,運(yùn)行MCScanX朦肘,輸出collinear和tandem文件 - 基因家族成員的來(lái)源分析(如何復(fù)制得到)
- 不同物種之間的共線性分析
- 共線性分析結(jié)果可視化
1 共線性分析:與同線性的聯(lián)系
用途:
- 識(shí)別直系同源gene
- 蛋白編碼基因注釋
- 發(fā)現(xiàn)進(jìn)化事件
2物種內(nèi)的共線性分析
3基因家族來(lái)源分析
4不同物種之間的共線性分析
共線性分析
數(shù)據(jù)文件下載genome.fa担映,gff3砍濒,protein.fa
2數(shù)據(jù)文件格式轉(zhuǎn)換(TBtools)
3共線性分析
4解讀文本輸出結(jié)果
-----開(kāi)始----
1 下載菠蘿淋肾,水稻,擬南芥爸邢,香蕉的基因組和注釋文件
- 通過(guò)TBtools由上述文件得到CDS和protein文件(前面已講)
- 把菠蘿蛋白比對(duì)到自身(用時(shí)相對(duì)較長(zhǎng))得到blast結(jié)果文件
2 獲得所有基因的位置信息
如下
下面可以把剛才得到的blast結(jié)果文件簡(jiǎn)化樊卓,也可以不做,做的話杠河,下面
3 菠蘿自身的比對(duì)的結(jié)果如下
可視化
先得到串聯(lián)重復(fù)序列的link文件
上面得到的.tandem文件用excel打開(kāi)并進(jìn)行分列碌尔,另存為txt文件
結(jié)果
可以看到有串聯(lián)重復(fù)序列
再把pineapple2pineapple.blast.tab.collinearity文件轉(zhuǎn)換為link文件
結(jié)果如下
可以看出和視頻中不一樣,因?yàn)槲液妥髡哂玫牟皇峭粋€(gè)基因家族
對(duì)于比對(duì)到自身的(單個(gè)基因組)的還可以做其他的
結(jié)果
也可以選擇性展示
4不同物種之間的共線性分析
分析菠蘿與水稻之間的共線性區(qū)塊
- 需要菠蘿的所有蛋白序列比對(duì)到水稻的所有蛋白序列
- 兩個(gè)基因組的所有基因的位置關(guān)系
按前述步驟分別得到水稻的CDS和protein券敌,方法不再贅述
這里需要說(shuō)明的是唾戚,視頻中CDS的總序列數(shù)為66338,我下載了幾個(gè)水稻品種包括reference geonome均不是待诅,就用以下信息吧
取最長(zhǎng)的可變剪切本叹坦,以使下一步分析更加準(zhǔn)確
接下來(lái),這一步看具體請(qǐng)看需要不需要做
################################
下面開(kāi)始兩個(gè)基因組比較
開(kāi)始菠蘿和水稻比對(duì)
然后水稻比對(duì)菠蘿
都比對(duì)完之后咱士,開(kāi)始merge兩個(gè)比對(duì)后的blast文件
同樣gff文件也要merge
然后
得到pineapple_rice.collinearity文件
然后
mutiple synteney plotter
新建一個(gè)multiple文件夾
接下來(lái)在做菠蘿和香蕉的比對(duì)
步驟按上面
提取cds立由,pro(考慮可變剪切,可以選擇最大長(zhǎng)度可變剪切序列)序厉,然后互相比對(duì)得到blast結(jié)果
上面?zhèn)€gff和blast結(jié)果分別merge锐膜,就可以比對(duì)了