基于TBtools做基因家族分析教程（全）

一赏迟、寫在前面

2023年4月中旬自己開始做基因家族的分析，對于這塊自己沒有接觸過蠢棱，因此也是一個挑戰(zhàn)锌杀，沒事！Ｐ合伞８庠佟（安慰自己），對于基因家族的分析網(wǎng)上的教程很多饰豺，跟著步驟走就可以亿鲜。在這部分，我自己主要是做生信這塊，實驗驗證是師姐在做，所以論文結(jié)構(gòu)自己不用操心舅列。此外芒填，可視化的工具很多，也很方便妓蛮，不需要自己特意去學怠李。我們這里就60%使用TBtools軟件進行可視化和分析。

此外蛤克，本次分析80%的內(nèi)容都是基于TBtools捺癞。確實牛X!!自己開始接觸TBtools是在2019年吧，也是通過一個師兄的推薦才知道的构挤。2019年CJ還沒將TBtools發(fā)表在MP上髓介，那時還是預印版本吧。但是筋现，引用已經(jīng)有了很多唐础，了不起哦箱歧。后面TBtools一直在開發(fā)新的的小“軟件” or“程序”，將生信分析的門檻一降再降一膨。點贊點贊Ｑ叫稀！豹绪！
--Du

如想獲得本文文檔价淌，可看文末！瞒津！

注意：此教程有些話語可能會帶有自己的方言输钩，讀不通時也不要在意！仲智！[淚目买乃！]

一，在Pfam數(shù)據(jù)中獲得基因家族

我們這里預測作物中某一個基因家族的基因钓辆，目前在此作物中未報道剪验。因此，使用Pfam數(shù)據(jù)庫中一致的基因進行同源搜索（其實前联，你也可以使用已知作物中的基因進行同源搜索功戚，獲得結(jié)果基本一致）。那么我們就根據(jù)文章中和報道的Pfam數(shù)據(jù)庫中的基因作為基序似嗤，進行同源搜索啸臀。

在Pfam數(shù)據(jù)庫中下載FBNs基因家族（Pfam 04755)，Pfam網(wǎng)址：https://pfam-legacy.xfam.org/
打開網(wǎng)址:http://www.ebi.ac.uk/interpro/entry/pfam/?search=0477#table

點擊進入PF04775烁落，下載所有的Proteins序列

以上只是其中的一種方法乘粒，但為獲得FBN基因家族的蛋白序列。下面使用Pfam數(shù)據(jù)中搜索

打開網(wǎng)頁伤塌。https://pfam-legacy.xfam.org/
搜索
進入
搜索后獲得PAP_fibrillin

下載Reviewed的PF04755序列

二灯萍、同源序列檢索預測

對于同源基因的搜索，很多基因家族的文章都使用HMMER進行檢索每聪，也有一些文章是使用BLAST旦棉。你任選其中一個即可，都能獲得你想要的結(jié)果同源基因药薯。在做分析的時候绑洛，我將使用Hmmer尋找同源基因的文章分享在公眾號中，在評論區(qū)有一個大佬對HMMER和BLAST之間的差異給出回答童本。

這兩個方法原理上區(qū)別真屯，balstp是基于序列同源性進行打分的，有打分矩陣巾陕，hmm是基于隱馬爾可夫模型讨跟，對序列結(jié)構(gòu)域進行比對纪他。來自“潑皮混混”的評論。

2.1 HMMER同源結(jié)構(gòu)域搜索

2.1.1 Hmmer的安裝

安裝晾匠，主要是使用源碼安裝或是是使用conda進行安裝即可茶袒。

conda安裝

conda install -y hmmer

源碼安裝：
官網(wǎng)：http://www.hmmer.org/

任意下載一個版本即可，安裝步驟不再做說明凉馆。

2.1.2 使用hmmbuild構(gòu)建.hmm文件

在有些數(shù)據(jù)庫中是有.hmm文件薪寓，只需要下載即可。但是澜共，這僅僅只限于有些大數(shù)據(jù)庫向叉。對于我們自己使用，不可能全部都有嗦董，這就需要我們自己構(gòu)建母谎，很多教程到這步就是讓你收費了.......。

在本教程京革，講述其中一種方法吧奇唤，希望對大家有所幫助。

hmmbuild構(gòu)建時匹摇，需要使用.sto文件進行構(gòu)建咬扇。因此，我們必須獲得.sto文件廊勃。

使用mafft軟件進行間序列進行對齊

mafft --auto --clustalout ../Pfam_PF04755_reviewed.fasta > Hmmbuild_index/Pfam.FBNs.align.clustal

轉(zhuǎn)換：
http://sequenceconversion.bugaco.com/converter/biology/sequences/fasta_to_phylip.php

hmmbuild構(gòu)建文件

hmmbuild Pfam.FBNs.hmm sample.stockholm

hmmsearch

hmmsearch Hmmbuild_index/Pfam.FBNs.hmm Potato/DM_1-3_516_R44_potato.v6.1.working_models.pep.fa > ../02_Result/Potao.hmmer.out.txt

篩選出最佳的結(jié)果懈贺，E-value值小于1e-5,Score值大于“> 90”
對于篩選結(jié)果，可以直接使用Hmmsearch獲得結(jié)果坡垫；也可以如上所示根據(jù)自己需求進行篩選梭灿，自己做的話，如果搜索的目的基因太多葛虐，而自己不需要這么多的同源基因胎源，自己會進行手動過濾一些同源性較弱的基因。

cat Potato.hmmer.out.txt |grep -v "#" | awk '{if($4 < 1e-5 && $5 > 90) print $9}' | sort | uniq | grep -v "+" > Potato.hmmer.best.out.txt

2.2 提取目的基因序列

日志：通過Hmmsearch獲得同源基因的ID屿脐，那么后面對目的同源基因進行進化樹、結(jié)構(gòu)域宪卿、motif等的分析的诵，這些分析都需使用目的同源基因的序列。

如何獲得同源基因序列佑钾？西疤？

使用腳本獲得
使用ggffead獲得，需要獲得同源基因的.gtf文件等信息休溶。
生信工具獲得代赁、如TBtools等扰她。

對于這步、我們就多做講解芭碍，使用自己拿手的方式獲得即可徒役。

問：后面的分析使用核酸序列 or蛋白序列呢？窖壕？

答：都可以忧勿。

FBN 家族的分析日志。使用Pfam瞻讽、擬南芥（11）和水稻的FBN家族基因同源搜索馬鈴薯中的FBN同源基因

## 水稻中的FBN家族基因
cat all.pep | grep ">" | grep fibrillin |awk -F "|" '{print $1}' | awk -F " " '{print $1}' | sed 's/>//g' > O_sativa.FBN.id.txt

##擬南芥中FBN家族基因
可以在擬南芥網(wǎng)址中的同源搜索鸳吸，也可以在擬南芥蛋白數(shù)據(jù)中搜索
cat Araport11_pep_20220914 | grep FBN | awk -F "|" '{print $1}' | sed 's/>//g' > Araport11_FBN.id

2.3 使用TBtools提取目的基因

說實話，TBtools確實是個很牛的生信工具速勇，基本可以讓你不寫代碼獲得你想要的東西晌砾。以及，各種類型的小腳本軟件都一直在開發(fā)烦磁。贊贊Ｑ佟！

2.3.1 TBtools軟件的下載

網(wǎng)址：https://github.com/CJ-Chen/TBtools
安裝个初。
動手運行

2.3.2 提取序列

準備作物所有的蛋白序列文件（or基因文件）
目的基因的ID
打開TBtools乖寒，Fasta Extract or Filter (Qyick)
獲得結(jié)果

2.4 目的同源基因motif分析

2.4.1 使用MEME進行motif預測

網(wǎng)址：https://meme-suite.org/meme/tools/meme

上傳相關(guān)的fa文件，以及修改相關(guān)的參數(shù)院溺，進行提交
輸出結(jié)果

輸出結(jié)果很快楣嘁，有以下幾個結(jié)果文件。

2.4.2 motif可視化

對于motifi分析可以參考一下文章：

TBtools | 多圖合一至強版教程珍逸！進化樹 + Motifs + 結(jié)構(gòu)域 + 啟動子 + 基因結(jié)構(gòu) + ....,TBtools開發(fā)者本人的教程
TBtools | 基因家族分析 (進化樹逐虚、Motifs、結(jié)構(gòu)域)
或是本篇教程

MEME網(wǎng)址結(jié)果可以給我們的seqlogo信息和motif信息谆膳。

Seqlogo

結(jié)果文件中就有seqlogo文件信息叭爱。
也可以自己的下載后繪制。

按以下操作即可下載序列漱病。

也可以下載已有的seqlogo圖片买雾。

下載后所有的motif序列信息。

使用R語言對Seqlogo序列進行可視化
這里借用這篇教程杨帽，基因結(jié)構(gòu)及motif分析漓穿。批量生產(chǎn)Seqlogo可視化。

我們可以根據(jù)自己的motifi數(shù)量進行命名注盈，我自己只有10個motif信息晃危。所以命名為motif1-10.txt。

## 加載所需要的包
library(ggplot2)
#BiocManager::install("ggseqlogo")
library(ggseqlogo)

## 批量生產(chǎn)文件名
filelist = c(paste0('motif',1:10,'.txt'))
filelen <- length(filelist)

##批量讀取
data.list <- list()
for (i in 1:filelen) {
  data.list[[paste0('motif',i)]]=scan(filelist[i],what = '')
}

ggseqlogo(data.list,col_scheme="clustalx", ncol = 5)+
  theme(axis.line = element_line(colour = 'black'),
        axis.text.x = element_blank(),
        legend.title = element_blank())

ggplot()+
  geom_logo(data.list, col_scheme = "clustalx")+
  theme_logo()+
  facet_wrap(~seq_group,ncol = 5,scales = "free_x")+
  theme(axis.line = element_line(colour = 'black'),
        axis.text.x = element_blank())

對比一下MEME網(wǎng)站中的圖形老客。

對于Seqlogo的繪制僚饭，美化震叮，可以根據(jù)很多優(yōu)秀的教程。在網(wǎng)上上一搜鳍鸵，都可以找到苇瓣。

2.4.3 motif的分析

下載結(jié)果文件MAST XML output，使用TBtools軟件進行可視化权纤。
打開TBtools中的Gene Structure View,只需上傳MEME中的XML文件即可钓简，上傳上去直接點擊Start。

--
操作：

結(jié)果：

保存Ｐ谙搿外邓！

注意：我們這里保存的時候最好保存為PDF或SVG格式，輸出為矢量圖古掏。

如果我們的教程只是到這里损话，那么就沒有什么意義了。因為槽唾，類似非常優(yōu)秀和詳細的教程很多丧枪。繪制出圖形是一方面、美化可是重頭戲庞萍。

在MEME輸出文件中拧烦，也提供了motif的圖形，也可直接使用钝计。

2.5 基因家族保守結(jié)構(gòu)域分析

使用Batch CD-Search進行預測恋博，網(wǎng)址：https://www.ncbi.nlm.nih.gov/Structure/bwrpsb/bwrpsb.cgi
提交序列信息即可
Batch CD-search只支持目的基因蛋白序列信息, 以及序列數(shù)量少于1000。

Warning: Batch CD-Search accepts only protein sequences. The maximal number of query sequences per request is 1000. A single query sequence can not exceed a length of 40,000 residues.

可以提供你的郵箱私恬，等運行結(jié)束后债沮，直接發(fā)送到你的郵箱。如果序列較多本鸣，建議提供郵箱疫衩。

下載文件

結(jié)果文件：
打開TBtools中的Visualize NCBI CDD DOmainPattern
輸入結(jié)果文件和fa文件
根據(jù)自己的需求進行調(diào)整即可。
輸出文件荣德。

2.6 進化樹分析

進化樹分析闷煤，在基因家族中是必須的，以及在很多圖中都是需要的涮瞻。進化樹分析和繪制曹傀，也有很多教程，參考iqtree+ggtree繪制進化樹教程饲宛、或是你也可以使用MEGA來做分析。

2.6.1 iqtree+ggtree繪制進化樹教程

參考：iqtree+ggtree繪制進化樹教程

iqtree獲得樹文件

所需軟件

1. mafft
1. iqtree
  mafft安裝
  我是使用服務器中運行的嗜价，安裝可以使用conda

conda install mafft

iqtree官網(wǎng)

http://www.iqtree.org/

iqtree功能很強大艇抠，大家可以查看軟件的官方文檔幕庐。
安裝

conda install iqtree

軟件安裝好后直接運行即可。

序列準備

進化樹序列可以使用蛋白序列或核酸序列即可家淤，格式按其準備即可异剥。

>B2LU34
MTSIAFWNAFTVNPFPAAARRSPPPLTPFTSGALSPARKPRILEISHPRTLPSFRVQAIAEDEWESEKKALKGVVGSVAL
AEDETTGADLVVSDLKKKLIDQLFGTDRGLKATSETRAEVNELITQLEAKNPNPAPTEALSLLNGRWILAYTSFAGLFPL
LGAESLQQLLKVDEISQTIDSEGFTVQNSVRFVGPFSSTSVTTNAKFEVRSPKRVQIKFEEGIIGTPQLTDSIVIPDKFE
FFGQNIDLSPFKGVISSLQDTASSVAKTISSQPPIKFPISNSNAQSWLLTTYLDDELRISRADGGSVFVLIKEGSPLLT
>B4F6G1
MTSIAFCNAFTVNPFLAAARRSPPPLTPLTSVALSPARKPRILAIFHPRTFPSFRVQAIAEDEWESEKKTLKGVVGSVAL
AEDEKTGADLVVSDLKKKLIDQLFGTDRGLKATSETRAEVNELITQLEAKNPNPAPTEALSLLNGKWILAYTSFVGLFPL
LGAESLQQLLKVDEISQTIDSEGFTVQNSVRFVGPFSSTSVTTNAKFEVRSPKRVQIKFEEGIIGTPQLTDSIVIPDKVE
FFGQNIDLSPFKGVISSLQDTASSVAKTISSQPPIKFPISNSNAQSWLLTTYLDDELRISRADGGSVFVLILESSPLLT
>O49629
MATVQLSTQFSCQTRVSISPNSKSISKPPFLVPVTSIIHRPMISTGGIAVSPRRVFKVRATDTGEIGSALLAAEEAIEDV
EETERLKRSLVDSLYGTDRGLSASSETRAEIGDLITQLESKNPTPAPTEALFLLNGKWILAYTSFVNLFPLLSRGIVPLI
KVDEISQTIDSDNFTVQNSVRFAGPLGTNSISTNAKFEIRSPKRVQIKFEQGVIGTPQLTDSIEIPEYVEVLGQKIDLNP
IRGLLTSVQDTASSVARTISSQPPLKFSLPADNAQSWLLTTYLDKDIRISRGDGGSVFVLIKEGSPLLNP

mafft比對

使用mafft將序列對齊。

mafft test.fa > test.aligend.fa

我們獲得對齊后的數(shù)據(jù)格式絮重。

iqtree構(gòu)建樹

iqtree -s test.aligend.fa -m MFP -bnni -nt AUTO -cmax 15 -redo -bb 1000

關(guān)于iqtree的使用冤寿，可以看這篇教程IQ-TREE的使用 - 超快速用極大似然法構(gòu)建進化樹，講的很詳細青伤。

必須參數(shù)：

-s 輸入多序列比對文件
-nt 多線程督怜，AUTO是自動多線程
-bb 1000 指定了要用快速BS法做1000次

最終，我們可以獲得以下結(jié)果文件狠角。

ggtree繪制進化樹

這里，我們使用基迪奧的教程，如何繪制添加分類色塊的進化樹即寒？,這個教程也是講解得很詳細报辱。

注意：我們這里使用iqtree輸出文件test.aligend.fa.treefile作為輸入文件。

#載入相關(guān)的R包立帖；
library(ggtree)
library(treeio)
library(ggplot2)
#讀入newick格式的進化樹文件眼溶；
tr = read.newick("test.aligend.fa.treefile")
ggtree(tr)

#為進化樹添加葉標簽；
p1 <- p0 + geom_tiplab(size=2,color="grey10")
p1

#為進化樹添加圓形頂點晓勇；
p2 <- p0+ geom_tiplab(size=2,offset=0.03, color="grey10")+
geom_tippoint(color="#6bc72b",fill="#6bc72b",
alpha=0.4, size=3,shape=21)
p2

后面的教程參數(shù)調(diào)整堂飞，按著教程即可如何繪制添加分類色塊的進化樹？

2.6.2 MEGA制作進化樹

此部分內(nèi)容來自：TBtools | 基因家族分析 (進化樹宵蕉、Motifs酝静、結(jié)構(gòu)域)
輸入數(shù)據(jù)為目標基因家族的蛋白質(zhì)序列。

先進行多序列比對羡玛，用MUSCLE默認參數(shù)别智。

圖片將比對好的結(jié)果保存為.meg格式。

重新打開比對后的文件稼稿，構(gòu)建進化樹薄榛，使用最大似然法，根據(jù)需要選擇建樹方法让歼。再構(gòu)建之前可以進行模型的預測敞恋，這里節(jié)省時間直接使用默認參數(shù)。

現(xiàn)在就構(gòu)建好了一棵進化樹谋右，導出為.nwk格式硬猫。接下來最后一步就是再TBtools中展示所有結(jié)果。

2.7 使用Figtree繪制進化樹

在2.6和2.7小節(jié)中，我們講述了使用ggtree和MEAG繪制進化樹啸蜜，這些軟件都是比較常用的坑雅。在這次作圖過程中，自己的無意間也查詢到使用Figtree可視化工具繪制進化樹衬横。主要是看到這張圖裹粤，平時自己看到的圖都是矩陣類型或是圓形，類似這個半圓看著是比較好看蜂林。

Figtree網(wǎng)址：http://tree.bio.ed.ac.uk/software/figtree/

軟件下載可以到GitHub中下載：https://github.com/rambaut/figtree/releases

下載后無需安裝遥诉，即可使用(根據(jù)自己的版本調(diào)整)。

將FigTree v1.4.4快捷鍵發(fā)送到桌面即可

對于Figtree軟件的使用噪叙，全網(wǎng)依舊是很一定數(shù)量的教程矮锈，大家可以自行進行查找，或觀看幫助文檔构眯。

2.7.1 Figtree繪制進化樹基礎圖形

打開Figtree界面是比較簡單愕难，這個軟件的獲得的圖形的類型也是相對比較少，只適合小眾類型的進化樹繪制惫霸。對于很復雜類型進化樹還是不推薦使用Figtree繪制猫缭。

點擊File-Open,導入數(shù)據(jù)
獲得進化樹
調(diào)整。全部參數(shù)可以在左側(cè)調(diào)整即可壹店。包括猜丹，大小、間距硅卢、距離參數(shù)等射窒。

以上參數(shù)，僅僅只是必要調(diào)整的參數(shù)将塑，具體看自己的分析進行調(diào)整即可脉顿，無固定模式。

2.7.2 Figtree繪圖的模式

我在前面說過Figtree繪制進化樹的圖類型很少点寥，只有三種大類型艾疟。具體如下所示。

一般的聚類類型
圓形circular

2.7.3 Figtree繪制進化樹美化圖形

如何進行美化敢辩，是我們一直在追求的方向蔽莱。在進化樹中分支的上色是必須的，在Figtree中依舊可以做戚长。注意：我們這里只是簡單的說明如何上色盗冷，具體操作自己進行。

最終圖形可以獲得如下圖所示同廉。

2.7.4 Figtree導出圖形

調(diào)整好圖形參數(shù)仪糖，如何導出圖形呢柑司？操作如下所示。File-Export JPEG/PNG/PDF.....乓诽，導出適合的的圖形格式即可帜羊，但是建議導出的矢量圖。后期AI進行調(diào)整鸠天。（通過上面導出圖形，我們可以看到圖形的顏色長度是不同的帐姻，這個問題要如何解決稠集，暫時沒有找到好的方法。在ggtree繪制中自己也遇到這里的問題饥瓷。如果在的圖形軟件中無法解決剥纷，只能通過后期解決。）

2.7.4 重新文章中圖形

那么如何繪制類似的圖形呢呢铆？根據(jù)前期的參數(shù)晦鞋，只需要進一步優(yōu)化即可。

主圖

（1）將圖形性狀選擇圓形

（2）調(diào)整Root Angle和Angle Rangle調(diào)整到適合的形狀棺克。
分類附圖

在這個圖中悠垛，我個人將其進化樹分為進化樹分類附圖。這個圖也是使用的Figtree進行繪制娜谊。具體操作如下所示确买。

選擇分類圖形
調(diào)整參數(shù)
樹枝的寬度可以寬1-2個size
調(diào)整自己喜歡的Trabsform Branches
繼續(xù)調(diào)整

--
注意：
進化樹的分支，主圖和附圖要一致纱皆。為了進一步確定明確兩個圖的一致性湾趾，建議直接在附圖中，對分支進行填充顏色派草。操作與上述一致搀缠。

2.7.5 AI合并美化

打開AI
新建圖形
導入進化樹圖形
Ctrl + R打開AI中的標尺、拖出x軸或Y軸參考線
調(diào)整半圓進化樹近迁，做到“橫平豎直”
Ctrl + A全選艺普，選擇圖形，Ctrl + C進行復制钳踊，或直接進行拖拽到新建圖形中衷敌。
調(diào)整適合的圖形大小，調(diào)整時拓瞪，一直按住shuft缴罗，避免圖形橫縱大小改變。
建議祭埂，在圖形中如有新的圖形產(chǎn)出面氓，建議每個新的圖形都新建立一個圖層兵钮，利于后期的修改。
隨后就進行進化的調(diào)整舌界，我們在這里掘譬，需要對AI有一定的基礎知識，才可以呻拌。比如葱轩，如何隨意修改圖形的形狀，類似圖例所示藐握。這里操作很繁瑣靴拱，具體操作自己進行。
導入進化樹分支
如何線條太細猾普，可以進行調(diào)整適合粗細袜炕。
分支添加顏色

新建圖形
選擇橢圓工具
繪制橢圓，調(diào)整適合的分支位置和的添加分支顏色
適當?shù)恼{(diào)整顏色
依次繪繪制即可
字體調(diào)整（如果在圖形中梯子較小初家，也可以在AI中調(diào)整）

使用選擇工具偎窘，選擇調(diào)整字體，直接進行修改即可溜在。
調(diào)整圖形大小
最終出圖
也可以直接間監(jiān)矩形進化樹進行進行合并陌知，相比育德圓形或半圓，調(diào)整顏色柱就很容易炕泳，直接拉成一樣長度即可纵诞。

--
細節(jié)自己調(diào)整。

2.8 目的基因結(jié)構(gòu)可視化

需要文件:

目的基因注釋文件（GFF or GTF）
進化樹文件（可選）

2.8.1 使用ID和基因組注釋文件繪制

使用TBtools直接操作培遵，依次點擊：Gene Structure View

結(jié)果如圖所示：

2.8.2 提取目的基因的注釋文件（推薦）

我們會發(fā)現(xiàn)浙芙，輸入ID處也是可以輸入進化樹文件信息。因此籽腕，我們推薦直接提取獲得目的基因的注釋文件信息嗡呼，單獨使用GTF文件信息或是GFF信息進行繪制。

獲得GFF注釋信息
使用已有的目的基因的ID與基因組注釋文件進行匹配獲得皇耗。

cat Araport11_GTF_genes_transposons.current.gtf | grep -wf TAR11.test.id > TAR11.test.gtf

$ cat Araport11_GTF_genes_transposons.current.gtf | grep -wf TAR11.test.id | head 
Chr1    Araport11   mRNA    18935301    18937665    .   +   .   transcript_id "AT1G51110.1"; gene_id "AT1G51110";
Chr1    Araport11   CDS 18935380    18935673    .   +   0   transcript_id "AT1G51110.1"; gene_id "AT1G51110";
Chr1    Araport11   CDS 18935743    18935796    .   +   0   transcript_id "AT1G51110.1"; gene_id "AT1G51110";
Chr1    Araport11   CDS 18935908    18935982    .   +   0   transcript_id "AT1G51110.1"; gene_id "AT1G51110";
Chr1    Araport11   CDS 18936083    18936205    .   +   0   transcript_id "AT1G51110.1"; gene_id "AT1G51110";
Chr1    Araport11   CDS 18936278    18936469    .   +   0   transcript_id "AT1G51110.1"; gene_id "AT1G51110";
Chr1    Araport11   CDS 18936552    18936635    .   +   0   transcript_id "AT1G51110.1"; gene_id "AT1G51110";
Chr1    Araport11   CDS 18936723    18936815    .   +   0   transcript_id "AT1G51110.1"; gene_id "AT1G51110";
Chr1    Araport11   CDS 18936903    18936956    .   +   0   transcript_id "AT1G51110.1"; gene_id "AT1G51110";
Chr1    Araport11   CDS 18937039    18937118    .   +   0   transcript_id "AT1G51110.1"; gene_id "AT1G51110";

進化樹獲得
同上的方法獲得
MEMExml or MAST.xml文件
同上
繪圖
依次提交相關(guān)的文件即可

2.9 進化樹南窗、Motifs、結(jié)構(gòu)域郎楼、基因結(jié)構(gòu)合圖繪制

以上的操作万伤，都可以獲得單張圖形，那么如何多圖繪制在一起呢呜袁？TBtools也提供了相關(guān)的教程,TBtools | 多圖合一至強版教程敌买！進化樹 + Motifs + 結(jié)構(gòu)域 + 啟動子 + 基因結(jié)構(gòu) + ....，我們可以根據(jù)此教程進操作阶界。具體如下：

獲得結(jié)果（來自CJ教程）：

2.10 圖形美化

到這里虹钮，我們的整張圖形就可以獲得聋庵。但是，只是這樣的話芙粱，我覺得自己的這個教程就沒有意義祭玉。我前面說過，我的這個教程重點是圖形美化春畔。自己是更喜歡脱货，TBtools單張出圖的類型，然后進行AI或PS美化的拐迁。軟件默認的顏色蹭劈，我自己不是很喜歡，但是也可以自己調(diào)整线召，也是很方便的哦。

2.10.1 TBtools圖形顏色的調(diào)整

我們這里只是隨意進行調(diào)整多矮，圖形無任何意義缓淹。

步驟一、點擊圖形中的方塊塔逃、右鍵
調(diào)整色塊

3讯壶、選擇先要的色塊、點擊Selecteed

4湾盗、更改成功
但是你會大發(fā)現(xiàn)伏蚊，圖中所有一樣的顏色色塊都會改變。

類似的功能格粪、自己逐漸去摸索躏吊。

2.10.2 單張出圖

如果上面的方式?jīng)]有很好實現(xiàn)自己想要的效果。那么帐萎，我們就只能單張出圖比伏、后面再進行合并。

注意：在繪圖時疆导，我們的要提前想好自己的文章或這張圖的顏色設置赁项，以及圖形的色調(diào)是屬于什么類型的。理論上澈段，一整篇文章圖形色調(diào)和類型要保持一致悠菜。

如果，在后期的調(diào)整中败富。圖形顏色需要重新調(diào)整悔醋，我們可使用AI進行調(diào)整或是重新繪制，少量還是比較方便囤耳，但是圖形又大有多篙顺，重畫是很奔潰的事情偶芍。

三、IA圖形美化

美化德玫，我羅列出單個章節(jié)進行講解匪蟀。表明，是很重要的宰僧。以及材彪，圖形的美化，需要不斷學習和模范大牌期刊的圖形類型琴儿，以及自己要時刻進行總結(jié)和創(chuàng)新段化。對于創(chuàng)新，這個就比較玄學造成，每個人的審美不同显熏，邏輯不同，關(guān)注點不同.......導致最終看到的點也不同晒屎。因此喘蟆，我們在不是很離譜的創(chuàng)作中，結(jié)合自己的審美進行美化即可鼓鲁。我們要堅信：審美蕴轨。首先要符合自己，其次骇吭，再考慮別人橙弱。只有自己先認同，你才有可能讓其他人也認同燥狰！

3.1 使用工具

1.推薦使用的工具：AI棘脐、PS

如果不知道類似軟件的，自己百度碾局。

如何安裝

有錢人：購買正版
窮人（和我一樣）：薅羊毛荆残，使用破解版

如何獲取安裝包

在本公眾號中回復關(guān)鍵詞獲得。

PS安裝包關(guān)鍵詞：PS
AI安裝包關(guān)鍵詞：AI

或是你自己尋找相關(guān)版本的安裝包即可净当。

提示：請自己輸入正確的關(guān)鍵詞（每次看到有些同學們的關(guān)鍵詞内斯，真的很無語......）

3.2 實際操作

打開AI，新建圖層A4
導入進化樹像啼，適當調(diào)整進化樹的寬度和字體大小
依次導入的目的基因的motif俘闯、基因結(jié)構(gòu)域等圖形。并依次按進化樹基因名進行排序即可忽冻。
為后期的圖形的整齊性真朗，我們使用參考線進行對齊，便于后期的調(diào)整僧诚。

注意：這里看到我們的motif的圖形顏色很難看遮婶，這就是前期沒有考慮顏色的結(jié)果蝗碎。因此，我一直強調(diào)旗扑，文章圖形顏色統(tǒng)一的重要性祥诽，圖形顏色搭配合理亲雪，你的論文已經(jīng)成功1/3了。

換一種顏色就感覺好多了呀谭跨。
添加基因結(jié)構(gòu)圖

添加圖形的操作都是一樣的飘庄，不做多贅述让簿。
如何美化
對于美化检吆，每個人的要求不一致种玛，只要符合你的審美即可。我們在這里就直接添加漸變色致燥。
新建一個圖層
新建圖層置于最底層登疗。
選擇圖形工具
利用進化樹的分支，將其進行分類
填充顏色（根據(jù)自己的喜好）
更改透明圖
漸變色

不透明度：60
中間位置：10-50%
結(jié)合實際情況調(diào)節(jié)嫌蚤。

最后圖形

圖形很多細節(jié)需要自己耐心調(diào)節(jié)谜叹，這里只是做示范，相對比較粗糙搬葬。

四、多物種共線分析

共線分析依舊是使用TBtools艳悔，哈哈哈哈急凰，做基因家族TBtools可以幫你完成80%的生信分析。毫不夸張!!!!!
TBtools共線分析的教程很多猜年，我們以零基礎多物種間共線性分析教程作為參考（也不是作為參考了抡锈，是直接按他的步驟進行操作）。其他參考教程：全基因組共線性分析乔外、無限個床三！物種共線性分析結(jié)果可視化、任何人杨幼！一鍵完成物種間的共線性分析與可視化撇簿。

4.1 需要文件

參考基因組fa文件
注釋文件GFF or GTF

TBtools可以對無限個作物進行共線分析，牛２罟骸Ｋ奶薄！

4.2 染色體統(tǒng)一命名

在這個教程中欲逃，有這樣的一個步驟找蜜，如果你需要，你就進行操作稳析。

gtf文件進行ID prefix

fa文件進行ID prefix

4.3 實操

打開one step MCScanx小程序
輸入兩個作物的文件信息
點擊開始Start
如果是多個作物洗做，那么依次進行兩兩比較弓叛。比如：共線結(jié)果是以這樣的順序：Tomato-LA-Arabidopsis

比對順序：

Tomato-LA
LA-Arabidopsis

比對結(jié)果GFF文件合并

打開Text Merge for MCScanX程序

合并多個的MCScanX的結(jié)果文件中的GFF文件

拖拽文件

6.比對結(jié)果ChrLayout.tab.xls文件合并

比對結(jié)果geneLinks.tab.xls文件合并

同上操作！
合并文件
最終獲得以下3個文件诚纸，用于繪制圖形撰筷。
要在共線中顯色的基因ID

Solyc03g062790.3.1
Solyc10g018590.2.1
Solyc01g104320.4.1
Solyc03g083420.4.1
AT4G22240.1
AT2G35490.1
AT1G51110.1
AT5G53450.3
........

繪圖。打開Multiple synteny plot

輸入?yún)?shù)

輸出圖形

注意咬清，在輸出圖形中闭专，我們可以看到作物染色體位置是有改變的。那么旧烧，如何更改呢影钉？回答：直接更改Chr文件即可。

更改這里的順序即可掘剪！

五平委、同源目標基因元件預測

目標基因的元件預測，我們這里主要介紹使用兩個網(wǎng)站進行夺谁。

5.1 提取目標基因上游2000bp

參考教程順式作用元件預測和新的可視化方式廉赔、植物啟動子-順式作用元件-批量提取-預測-可視化分析，同樣是使用TBtools操作匾鸥。

需要文件

作物參考基因組fa文件
注釋文件GFF or GTF
目標基因ID

直接使用TBtools中的Gtf /Gff3 Sequences Extractor獲得每個基因的fa序列

輸出文件

點擊Initalize蜡塌，選擇CDS

選擇上游2000bp的fa序列
目標基因的fa序列，打開Fasta Extract or Filter (Quick)

輸出結(jié)果文件：
查看信息是否正確勿负，打開Fasta Stats
轉(zhuǎn)換序列（全部為大寫）馏艾，打開Sequence Manipulate (Rev&Comp

5.2 提交預測網(wǎng)址進行順式作用預測

預測，這里使用兩個網(wǎng)站進行預測奴愉，分別是PlantCare和PLCAE琅摩。

5.2.1 使用Plantcare進行預測

網(wǎng)址：http://bioinformatics.psb.ugent.be/webtools/plantcare/html/

上傳序列后，Plant可以提供你自己的郵箱锭硼，運行結(jié)束后房资，結(jié)果直接發(fā)送到你的郵箱中。
郵箱中獲得結(jié)果檀头，根據(jù)你的序列多少轰异，10分鐘以上吧！
結(jié)果
使用execl打開后

1. 基因ID鳖擒；
2. 順式作用元件名稱溉浙；
3. 順式作用元件序列；
4. 順式作用元件的起始位置蒋荚；
5. 順式作用元件的長度戳稽；
6. 順式作用元件所在的鏈的方向；
7. 物種名；
8. 順式作用元件所在的功能分類惊奇；

刪除某些不需要的結(jié)果：
需要刪除：

1. 剔除第2列為空的行
2. 剔除第2列為unnamed的行
3. 最后一列互躬，無功能作用的

具體刪除的數(shù)據(jù)，根據(jù)自己的分析來做颂郎。

最后吼渡，可以刪除掉1000行以內(nèi)

--
來自順式作用元件預測和新的可視化方式，這個意見有重要的參考意義乓序。如果不合并寺酪，導致元件的作用太多，繪制出的圖形顏色太雜替劈，且不好看寄雀。

繪圖

繪圖前還需要準備基因的長度文件

輸入數(shù)據(jù)，設置參數(shù)

結(jié)果：

在TBtools中也可以輸入進化樹文件陨献。

我們這里也可以使用的起那么AI中的呢進化樹進行模板進行美化盒犹。

5.2.2 PLACE進行預測

網(wǎng)址:https://www.dna.affrc.go.jp/PLACE/?action=newplace

缺點：PLACE一次最大只能輸入20條基因序列，有一定的限制性眨业。獲得結(jié)果為網(wǎng)頁版急膀，如要整理，只能手動整理或使用腳本進行整理龄捡。
優(yōu)點：速度快卓嫂！

獲得結(jié)果

每個基因為單獨的，需要自己整理聘殖。

只給元件名稱命黔、開始位置、序列就斤、功能（SITE，需要點擊進去才可以看到）
整理蘑辑，單獨粘貼復制到execl中洋机，并使用腳本進行整理。

選擇哪個網(wǎng)站進行預測洋魂，取決于自己绷旗。只要結(jié)果符合我們自己的預期結(jié)果即可！８笨场衔肢！

5.2.3 熱圖可視化

輸入數(shù)據(jù)格式如下（可以根據(jù)自己的情況篩選）：

腳本：

install.packages('tidyverse')
intall.packages('RColorBrewer')

# 加載包
library(tidyverse)
library(RColorBrewer)

# 1.讀取數(shù)據(jù)
df <- read_tsv('data.txt', col_names = F) %>% select(1,2)

# 2.整理數(shù)據(jù)
tidy <- df %>% 
  group_by(X1, X2) %>% 
  summarise(number = n()) %>%
  arrange(desc(number))

# 3.查看數(shù)量分布，確定配色個數(shù)
summary(tidy$number)
# 最大值為9豁翎，所以下面的代碼 hcl.colors(9, "RdYlGn")中為9

# 4.畫圖
  ggplot(tidy, aes(x = X2, y = X1, fill = number)) +
  geom_tile(color = 'black') +
  geom_text(aes(label = number),col='black',cex = 1.5) +
  scale_fill_gradientn(colors = rev(hcl.colors(9, "RdYlGn"))) +
  scale_x_discrete(position = "top")+
  theme_bw() +
  theme(axis.text.x = element_text(angle = 90, hjust = 0),
        axis.title = element_blank(),
        axis.text = element_text(size = 7, color = 'black'))

# 通過修改 scale_fill_gradientn參數(shù)給每一個值指定顏色
cc <- c('#d9d9d9', '#f7fcb9', '#d9f0a3', '#addd8e', '#78c679', '#feb24c', '#fd8d3c', '#fc4e2a', '#b10026')

ggplot(tidy, aes(x = X2, y = X1, fill = number)) +
  geom_tile(color = 'black') +
  geom_text(aes(label = number),col='black',cex = 2.5) +
  scale_fill_gradientn(colors = cc) +
  scale_x_discrete(position = "top")+
  theme_bw() +
  theme(axis.text.x = element_text(angle = 90, hjust = 0),
        axis.title = element_blank(),
        axis.text = element_text(size = 7, color = 'black'))

5.2.4 美化

基于AI進行美化角骤，方法同上

六 ENDING

說實話，基因家族的文章分析確實消耗的時間和精力不算是很多。生信部分就差不多這些吧邦尊！再加上一些組學的數(shù)據(jù)來驗證即可背桐。除了生信的部分，剩余就是實驗來驗證蝉揍，將兩者進行結(jié)合链峭，好一點的文章也可以發(fā)。我自己前面沒有接觸過基因家族的分析又沾，因此弊仪，本次就是現(xiàn)學現(xiàn)做，做的還是比較簡單杖刷。

本次來接觸基因家族的分析励饵，感觸最深的就是，TBtools真的很強大挺勿∏幔基因家族的分析、畫圖都可以使用它來完成不瓶。不得了啊禾嫉，真的是將做生信的門檻一降再降，點贊點贊

本期內(nèi)容是自己的做了一個整理蚊丐，算是“教程搬運工”熙参，也是自己在做分析后做的總結(jié)。自己不知道麦备，這次分析后孽椰，多久以后還能涉及基因家族的分析×莞荩總結(jié)總結(jié)Ｊ蜇摇！但是呛梆，說實話锐涯！這個總結(jié)也花費自己很長的時間，如果你想獲得這個教程的文本文檔填物，可以“喜歡點贊纹腌，支持”，我在后臺看到后會第一時間將文檔鏈接發(fā)給你Ｖ突恰升薯！

小杜的生信筆記，主要發(fā)表或收錄生物信息學的教程击困，以及基于R的分析和可視化（包括數(shù)據(jù)分析涎劈，圖形繪制等）；分享感興趣的文獻和學習資料!!

最后編輯于：2023.05.13 15:50:03

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市责语，隨后出現(xiàn)的幾起案子炮障，更是在濱河造成了極大的恐慌，老刑警劉巖坤候，帶你破解...
沈念sama閱讀 206,013評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件胁赢，死亡現(xiàn)場離奇詭異，居然都是意外死亡白筹，警方通過查閱死者的電腦和手機智末，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,205評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來徒河，“玉大人系馆，你說我怎么就攤上這事⊥缯眨” “怎么了由蘑？”我有些...
開封第一講書人閱讀 152,370評論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長代兵。經(jīng)常有香客問我尼酿，道長，這世上最難降的妖魔是什么植影？我笑而不...
開封第一講書人閱讀 55,168評論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任裳擎，我火速辦了婚禮，結(jié)果婚禮上思币，老公的妹妹穿的比我還像新娘鹿响。我一直安慰自己，他們只是感情好谷饿，可當我...
茶點故事閱讀 64,153評論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布惶我。她就那樣靜靜地躺著，像睡著了一般博投。火紅的嫁衣襯著肌膚如雪指孤。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 48,954評論 1贊 283
城市分裂傳說
那天贬堵，我揣著相機與錄音，去河邊找鬼结洼。笑死黎做，一個胖子當著我的面吹牛，可吹牛的內(nèi)容都是我干的松忍。我是一名探鬼主播蒸殿，決...
沈念sama閱讀 38,271評論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了宏所？” 一聲冷哼從身側(cè)響起酥艳，我...
開封第一講書人閱讀 36,916評論 0贊 259
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎爬骤，沒想到半個月后充石，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 43,382評論 1贊 300
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡霞玄，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 35,877評論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年骤铃，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片坷剧。...
茶點故事閱讀 37,989評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡惰爬，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出惫企，到底是詐尸還是另有隱情撕瞧，我是刑警寧澤，帶...
沈念sama閱讀 33,624評論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布狞尔，位于F島的核電站丛版，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏沪么。R本人自食惡果不足惜硼婿，卻給世界環(huán)境...
茶點故事閱讀 39,209評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望禽车。院中可真熱鬧寇漫，春花似錦、人聲如沸殉摔。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,199評論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽逸月。三九已至栓撞，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間碗硬，已是汗流浹背瓤湘。一陣腳步聲響...
開封第一講書人閱讀 31,418評論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留恩尾，地道東北人弛说。一個月前我還...
沈念sama閱讀 45,401評論 2贊 352
代替公主和親
正文我出身青樓，卻偏偏與公主長得像翰意，于是被迫代替她去往敵國和親木人。傳聞我的和親對象是個殘疾皇子信柿，可洞房花燭夜當晚...
茶點故事閱讀 42,700評論 2贊 345

基于TBtools做基因家族分析教程 （全）

一赏迟、 寫在前面