基因家族流程:基因家族分析(一)
基因家族流程:基因家族分析(二)
基因家族流程:基因家族分析(三)
====================================================================================================================================
多序列比對和進化樹分析(Multiple sequences aligment and phylogenetic analysis)(有時間更新)
1.多序列比對分析
(1)DNAMAN(目前最新version10)
- 下載地址:DNAMAN http://www.lynnon.com/dnaman.html
- 使用:Sequence-Align Multiple-File(All files)-protein-使用默認參數(shù)到最后一步
(2)ClustalW2&ClustalX2 (ClustalX2命令行版本)
- 下載地址: http://www.clustal.org/
- 使用: File- Load Sequence-Alignment- Alignment Parameters-Multiple Alignment Parameters- Alignment菜單塞蹭,選擇Output Format Options-擊Aliglnment菜單孽江,選擇Do Complete Alignment.
(3)命令行:
- musle
- clustalw
- mattf
2.進化樹分析
- MEGA網(wǎng)址:https://www.megasoftware.net/ #填簡單信息下載
- 目前最新版到MEGAX(支持codon aliginment),7以上只提供64位番电。
- 使用:File-Align-Alignment-Align By Muscle-Export Alignment-MEGA Format -Phylogeny-Construct/Test Neighbor-Joining Tree.
- 注意:
(1) 多序列比對:Muscle or clustalw
(2) Model選擇.分別針對蛋白序列和核酸序列的模型選擇程序
(3) 算法選擇岗屏。三種: NJ, ML and BI. 文獻中一般都是NJ(bootstrap1000)進化樹。一般ML(超級慢)樹比較準確漱办,但應(yīng)結(jié)合方法这刷,如NJ樹,相互驗證娩井。
意義:
a.聚類分析暇屋。如亞家族分類。像MAPKKK基因家族通過進化樹可以清楚分為MEKK,Raf和ZIK三個亞家族洞辣。
b.親緣關(guān)系鑒定咐刨。在進化樹上位于同一支的往往暗示這親緣關(guān)系很近。
c.基因家族復(fù)制分析屋彪。研究基因家族復(fù)制事件(duplication events):兩種復(fù)制事件類型(tandem duplication and segmental dulication)
3.其他建樹軟件
phyML
Mrbayes
...
4進化樹修飾
MEGA:view->options and subtree-> draw options.
AI美化所宰,可以添加任何元素绒尊。(強烈推薦)
iTOL美化:可成以下效果畜挥,但是樹形較MEGA會變化,不推薦婴谱。
iTOL: Interactive Tree Of Life: http://itol2.embl.de/
iTOL: Upload a new tree:http://itol.embl.de/upload.cgi
文件準備:
從MEGA導(dǎo)出的nwk樹文件蟹但,上傳到iTOL,修改option
color ranges(基因背景色)
Datssets—color strip (即外圍條帶)
4)FigTree v1.4.3 http://tree.bio.ed.ac.uk/software/figtree/
繪制基因的染色體位置圖(Chromosomal Location)
1.準備文件
基因id
基因組的注釋文件
基因組染色體的長度
在線繪制工具:MapGene2Chrom:http://mg2c.iask.in/mg2c_v2.0/
2.獲取染色體長度
- samtools和awk提取所有染色體長度
Athaliana_167_TAIR9.fa.fai文件中前兩列為染色體名字和長度文件
pengzw@super-server:~$ samtools faidx Athaliana_167_TAIR9.fa
pengzw@super-server:~$ awk '{print $1"\t"$2}' Athaliana_167_TAIR9.fa.fai >chr_length.txt
pengzw@super-server:~$ cat chr_length.txt #查看genome.fa.fai 文件谭羔,前兩列為染色體位置和長度
Chr1 30427671
Chr2 19698289
Chr3 23459830
Chr4 18585056
Chr5 26975502
ChrM 366924
ChrC 154478
3.獲取基因位置
awk初步提取位置和其他信息(可適當(dāng)添加)
pengzw@super-server:~/reference/At$ awk -F "[= \t]" '$3 == "gene" {print$11"\t"$4"\t"$5}' Athaliana_167_TAIR10.gene.gff3|head -n 5
AT1G01010 3631 5899
AT1G01020 5928 8737
AT1G01030 11649 13714
AT1G01040 23146 31227
AT1G01050 31170 33153
awk對兩個文件處理:按照名字篩選
awk 'NR==FNR{a[\$1]}NR!=FNR{if (\$1 in a) print $0}' id id.all > out
命令解釋:NR==FNR和ARGIND==1和FILENAME=ARGV[1]表示第一個文件华糖,NR!=FNR和NR>FNR以及ARGIND==1和FILENAME=ARGV[2]都表示第二個文件
pengzw@super-server:~/reference/phytozome/at$ cat id
AT1G01010
AT1G01020
pengzw@super-server:~/reference/phytozome/at$ cat id.all
AT1G01010 3631 5899
AT1G01020 5928 8737
AT1G01030 11649 13714
AT1G01040 23146 31227
AT1G01050 31170 33153
pengzw@super-server:~/reference/phytozome/at$ awk 'NR==FNR{a[$1]}NR!=FNR{if ($1 in a) print $0}' id id.all > out
pengzw@super-server:~/reference/phytozome/at$ cat out
AT1G01010 3631 5899
AT1G01020 5928 8737
4.繪制工具:
1)在線繪制工具:MapGene2Chrom:http://mg2c.iask.in/mg2c_v2.0/(推薦)
2)Mapchart&Mapdraw(沒試過,文獻中出現(xiàn))
3)MapInspect (超級煩瑣坑爹瘟裸,出圖效果還不好客叉,不更新了還)