基于TBtools做基因家族分析教程 (全)

一赏迟、 寫在前面

2023年4月中旬自己開始做基因家族的分析,對于這塊自己沒有接觸過蠢棱,因此也是一個挑戰(zhàn)锌杀,沒事!P合伞8庠佟(安慰自己),對于基因家族的分析網(wǎng)上的教程很多饰豺,跟著步驟走就可以亿鲜。在這部分,我自己主要是做生信這塊,實驗驗證是師姐在做,所以論文結(jié)構(gòu)自己不用操心舅列。此外芒填,可視化的工具很多,也很方便妓蛮,不需要自己特意去學怠李。我們這里就60%使用TBtools軟件進行可視化和分析。

此外蛤克,本次分析80%的內(nèi)容都是基于TBtools捺癞。確實牛X!!自己開始接觸TBtools是在2019年吧,也是通過一個師兄的推薦才知道的构挤。2019年CJ還沒將TBtools發(fā)表在MP上髓介,那時還是預印版本吧。但是筋现,引用已經(jīng)有了很多唐础,了不起哦箱歧。后面TBtools一直在開發(fā)新的的小“軟件” or“程序”,將生信分析的門檻一降再降一膨。點贊點贊Q叫稀!豹绪!
--Du


如想獲得本文文檔价淌,可看文末!瞒津!


注意:此教程有些話語可能會帶有自己的方言输钩,讀不通時也不要在意!仲智![淚目买乃!]


一,在Pfam數(shù)據(jù)中獲得基因家族

我們這里預測作物中某一個基因家族的基因钓辆,目前在此作物中未報道剪验。因此,使用Pfam數(shù)據(jù)庫中一致的基因進行同源搜索(其實前联,你也可以使用已知作物中的基因進行同源搜索功戚,獲得結(jié)果基本一致)。那么我們就根據(jù)文章中和報道的Pfam數(shù)據(jù)庫中的基因作為基序似嗤,進行同源搜索啸臀。

  1. 在Pfam數(shù)據(jù)庫中下載FBNs基因家族(Pfam 04755),Pfam網(wǎng)址:https://pfam-legacy.xfam.org/

  2. 打開網(wǎng)址:http://www.ebi.ac.uk/interpro/entry/pfam/?search=0477#table

  • 點擊進入PF04775烁落,下載所有的Proteins序列

以上只是其中的一種方法乘粒,但為獲得FBN基因家族的蛋白序列。下面使用Pfam數(shù)據(jù)中搜索

  1. 打開網(wǎng)頁伤塌。https://pfam-legacy.xfam.org/
  2. 搜索


  3. 進入


  4. 搜索后獲得PAP_fibrillin

    下載Reviewed的PF04755序列

二灯萍、同源序列檢索預測

對于同源基因的搜索,很多基因家族的文章都使用HMMER進行檢索每聪,也有一些文章是使用BLAST旦棉。你任選其中一個即可,都能獲得你想要的結(jié)果同源基因药薯。在做分析的時候绑洛,我將使用Hmmer尋找同源基因的文章分享在公眾號中,在評論區(qū)有一個大佬對HMMER和BLAST之間的差異給出回答童本。

這兩個方法原理上區(qū)別真屯,balstp是基于序列同源性進行打分的,有打分矩陣巾陕,hmm是基于隱馬爾可夫模型讨跟,對序列結(jié)構(gòu)域進行比對纪他。來自“潑皮混混”的評論。

2.1 HMMER同源結(jié)構(gòu)域搜索

2.1.1 Hmmer的安裝

安裝晾匠,主要是使用源碼安裝或是是使用conda進行安裝即可茶袒。

  1. conda安裝
conda install -y hmmer
  1. 源碼安裝:
    官網(wǎng)http://www.hmmer.org/


    任意下載一個版本即可,安裝步驟不再做說明凉馆。

2.1.2 使用hmmbuild構(gòu)建.hmm文件

在有些數(shù)據(jù)庫中是有.hmm文件薪寓,只需要下載即可。但是澜共,這僅僅只限于有些大數(shù)據(jù)庫向叉。對于我們自己使用,不可能全部都有嗦董,這就需要我們自己構(gòu)建母谎,很多教程到這步就是讓你收費了.......

在本教程京革,講述其中一種方法吧奇唤,希望對大家有所幫助。

hmmbuild構(gòu)建時匹摇,需要使用.sto文件進行構(gòu)建咬扇。因此,我們必須獲得.sto文件廊勃。

  1. 使用mafft軟件進行間序列進行對齊
mafft --auto --clustalout ../Pfam_PF04755_reviewed.fasta > Hmmbuild_index/Pfam.FBNs.align.clustal


轉(zhuǎn)換:
http://sequenceconversion.bugaco.com/converter/biology/sequences/fasta_to_phylip.php

  • hmmbuild構(gòu)建文件
hmmbuild Pfam.FBNs.hmm sample.stockholm
  • hmmsearch
hmmsearch Hmmbuild_index/Pfam.FBNs.hmm Potato/DM_1-3_516_R44_potato.v6.1.working_models.pep.fa > ../02_Result/Potao.hmmer.out.txt
  • 篩選出最佳的結(jié)果懈贺,E-value值小于1e-5,Score值大于“> 90”
  • 對于篩選結(jié)果,可以直接使用Hmmsearch獲得結(jié)果坡垫;也可以如上所示根據(jù)自己需求進行篩選梭灿,自己做的話,如果搜索的目的基因太多葛虐,而自己不需要這么多的同源基因胎源,自己會進行手動過濾一些同源性較弱的基因。
cat Potato.hmmer.out.txt |grep -v "#" | awk '{if($4 < 1e-5 && $5 > 90) print $9}' | sort | uniq | grep -v "+" > Potato.hmmer.best.out.txt

2.2 提取目的基因序列

日志:通過Hmmsearch獲得同源基因的ID屿脐,那么后面對目的同源基因進行進化樹、結(jié)構(gòu)域宪卿、motif等的分析的诵,這些分析都需使用目的同源基因的序列。

如何獲得同源基因序列佑钾?西疤?


  1. 使用腳本獲得
  2. 使用ggffead獲得,需要獲得同源基因的.gtf文件等信息休溶。
  3. 生信工具獲得代赁、如TBtools等扰她。

對于這步、我們就多做講解芭碍,使用自己拿手的方式獲得即可徒役。


問:后面的分析使用核酸序列 or蛋白序列呢?窖壕?

答:都可以忧勿。

FBN 家族的分析日志。使用Pfam瞻讽、擬南芥(11)和水稻的FBN家族基因同源搜索馬鈴薯中的FBN同源基因

## 水稻中的FBN家族基因
cat all.pep | grep ">" | grep fibrillin |awk -F "|" '{print $1}' | awk -F " " '{print $1}' | sed 's/>//g' > O_sativa.FBN.id.txt
##擬南芥中FBN家族基因
可以在擬南芥網(wǎng)址中的同源搜索鸳吸,也可以在擬南芥蛋白數(shù)據(jù)中搜索
cat Araport11_pep_20220914 | grep FBN | awk -F "|" '{print $1}' | sed 's/>//g' > Araport11_FBN.id

2.3 使用TBtools提取目的基因

說實話,TBtools確實是個很牛的生信工具速勇,基本可以讓你不寫代碼獲得你想要的東西晌砾。以及,各種類型的小腳本軟件都一直在開發(fā)烦磁。贊贊Q佟!

2.3.1 TBtools軟件的下載

  1. 網(wǎng)址:https://github.com/CJ-Chen/TBtools
  2. 安裝个初。
  3. 動手運行

2.3.2 提取序列

  1. 準備作物所有的蛋白序列文件(or基因文件)
  2. 目的基因的ID



  3. 打開TBtools乖寒,Fasta Extract or Filter (Qyick)
  4. 獲得結(jié)果



2.4 目的同源基因motif分析

2.4.1 使用MEME進行motif預測

  1. 網(wǎng)址:https://meme-suite.org/meme/tools/meme
  • 上傳相關(guān)的fa文件,以及修改相關(guān)的參數(shù)院溺,進行提交


  • 輸出結(jié)果



    輸出結(jié)果很快楣嘁,有以下幾個結(jié)果文件。

2.4.2 motif可視化

對于motifi分析可以參考一下文章:

  1. TBtools | 多圖合一至強版教程珍逸!進化樹 + Motifs + 結(jié)構(gòu)域 + 啟動子 + 基因結(jié)構(gòu) + ....,TBtools開發(fā)者本人的教程
  2. TBtools | 基因家族分析 (進化樹逐虚、Motifs、結(jié)構(gòu)域)
  3. 或是本篇教程

MEME網(wǎng)址結(jié)果可以給我們的seqlogo信息和motif信息谆膳。



  1. Seqlogo

    結(jié)果文件中就有seqlogo文件信息叭爱。
    也可以自己的下載后繪制。

    按以下操作即可下載序列漱病。

    也可以下載已有的seqlogo圖片买雾。

    下載后所有的motif序列信息。

  1. 使用R語言對Seqlogo序列進行可視化
    這里借用這篇教程杨帽,基因結(jié)構(gòu)及motif分析漓穿。批量生產(chǎn)Seqlogo可視化。

我們可以根據(jù)自己的motifi數(shù)量進行命名注盈,我自己只有10個motif信息晃危。所以命名為motif1-10.txt

## 加載所需要的包
library(ggplot2)
#BiocManager::install("ggseqlogo")
library(ggseqlogo)

## 批量生產(chǎn)文件名
filelist = c(paste0('motif',1:10,'.txt'))
filelen <- length(filelist)

##批量讀取
data.list <- list()
for (i in 1:filelen) {
  data.list[[paste0('motif',i)]]=scan(filelist[i],what = '')
}

ggseqlogo(data.list,col_scheme="clustalx", ncol = 5)+
  theme(axis.line = element_line(colour = 'black'),
        axis.text.x = element_blank(),
        legend.title = element_blank())

ggplot()+
  geom_logo(data.list, col_scheme = "clustalx")+
  theme_logo()+
  facet_wrap(~seq_group,ncol = 5,scales = "free_x")+
  theme(axis.line = element_line(colour = 'black'),
        axis.text.x = element_blank())

對比一下MEME網(wǎng)站中的圖形老客。



對于Seqlogo的繪制僚饭,美化震叮,可以根據(jù)很多優(yōu)秀的教程。在網(wǎng)上上一搜鳍鸵,都可以找到苇瓣。

2.4.3 motif的分析

  1. 下載結(jié)果文件MAST XML output,使用TBtools軟件進行可視化权纤。

  2. 打開TBtools中的Gene Structure View,只需上傳MEME中的XML文件即可钓简,上傳上去直接點擊Start


    --
    操作:

    結(jié)果:

    保存P谙搿外邓!

注意:我們這里保存的時候最好保存為PDF或SVG格式,輸出為矢量圖古掏。

如果我們的教程只是到這里损话,那么就沒有什么意義了。因為槽唾,類似非常優(yōu)秀和詳細的教程很多丧枪。繪制出圖形是一方面、美化可是重頭戲庞萍。


在MEME輸出文件中拧烦,也提供了motif的圖形,也可直接使用钝计。


2.5 基因家族保守結(jié)構(gòu)域分析

  1. 使用Batch CD-Search進行預測恋博,網(wǎng)址:https://www.ncbi.nlm.nih.gov/Structure/bwrpsb/bwrpsb.cgi
  2. 提交序列信息即可


  3. Batch CD-search只支持目的基因蛋白序列信息, 以及序列數(shù)量少于1000。

Warning: Batch CD-Search accepts only protein sequences. The maximal number of query sequences per request is 1000. A single query sequence can not exceed a length of 40,000 residues.

可以提供你的郵箱私恬,等運行結(jié)束后债沮,直接發(fā)送到你的郵箱。如果序列較多本鸣,建議提供郵箱疫衩。

  1. 下載文件



    結(jié)果文件:


  2. 打開TBtools中的Visualize NCBI CDD DOmainPattern
  3. 輸入結(jié)果文件和fa文件


  4. 根據(jù)自己的需求進行調(diào)整即可。


  5. 輸出文件荣德。


2.6 進化樹分析

進化樹分析闷煤,在基因家族中是必須的,以及在很多圖中都是需要的涮瞻。進化樹分析和繪制曹傀,也有很多教程,參考iqtree+ggtree繪制進化樹教程饲宛、或是你也可以使用MEGA來做分析。

2.6.1 iqtree+ggtree繪制進化樹教程

參考iqtree+ggtree繪制進化樹教程

  1. iqtree獲得樹文件

所需軟件

    1. mafft
    1. iqtree
      mafft安裝
      我是使用服務器中運行的嗜价,安裝可以使用conda
conda install mafft

iqtree官網(wǎng)

http://www.iqtree.org/


iqtree功能很強大艇抠,大家可以查看軟件的官方文檔幕庐。
安裝

conda install iqtree

軟件安裝好后直接運行即可。

  1. 序列準備

進化樹序列可以使用蛋白序列或核酸序列即可家淤,格式按其準備即可异剥。

>B2LU34
MTSIAFWNAFTVNPFPAAARRSPPPLTPFTSGALSPARKPRILEISHPRTLPSFRVQAIAEDEWESEKKALKGVVGSVAL
AEDETTGADLVVSDLKKKLIDQLFGTDRGLKATSETRAEVNELITQLEAKNPNPAPTEALSLLNGRWILAYTSFAGLFPL
LGAESLQQLLKVDEISQTIDSEGFTVQNSVRFVGPFSSTSVTTNAKFEVRSPKRVQIKFEEGIIGTPQLTDSIVIPDKFE
FFGQNIDLSPFKGVISSLQDTASSVAKTISSQPPIKFPISNSNAQSWLLTTYLDDELRISRADGGSVFVLIKEGSPLLT
>B4F6G1
MTSIAFCNAFTVNPFLAAARRSPPPLTPLTSVALSPARKPRILAIFHPRTFPSFRVQAIAEDEWESEKKTLKGVVGSVAL
AEDEKTGADLVVSDLKKKLIDQLFGTDRGLKATSETRAEVNELITQLEAKNPNPAPTEALSLLNGKWILAYTSFVGLFPL
LGAESLQQLLKVDEISQTIDSEGFTVQNSVRFVGPFSSTSVTTNAKFEVRSPKRVQIKFEEGIIGTPQLTDSIVIPDKVE
FFGQNIDLSPFKGVISSLQDTASSVAKTISSQPPIKFPISNSNAQSWLLTTYLDDELRISRADGGSVFVLILESSPLLT
>O49629
MATVQLSTQFSCQTRVSISPNSKSISKPPFLVPVTSIIHRPMISTGGIAVSPRRVFKVRATDTGEIGSALLAAEEAIEDV
EETERLKRSLVDSLYGTDRGLSASSETRAEIGDLITQLESKNPTPAPTEALFLLNGKWILAYTSFVNLFPLLSRGIVPLI
KVDEISQTIDSDNFTVQNSVRFAGPLGTNSISTNAKFEIRSPKRVQIKFEQGVIGTPQLTDSIEIPEYVEVLGQKIDLNP
IRGLLTSVQDTASSVARTISSQPPLKFSLPADNAQSWLLTTYLDKDIRISRGDGGSVFVLIKEGSPLLNP
  1. mafft比對

使用mafft將序列對齊。

mafft test.fa > test.aligend.fa

我們獲得對齊后的數(shù)據(jù)格式絮重。

  1. iqtree構(gòu)建樹
iqtree -s test.aligend.fa -m MFP -bnni -nt AUTO -cmax 15 -redo -bb 1000

關(guān)于iqtree的使用冤寿,可以看這篇教程IQ-TREE的使用 - 超快速用極大似然法構(gòu)建進化樹,講的很詳細青伤。

必須參數(shù):

-s 輸入多序列比對文件
-nt 多線程督怜,AUTO是自動多線程
-bb 1000 指定了要用快速BS法做1000次

最終,我們可以獲得以下結(jié)果文件狠角。



  1. ggtree繪制進化樹

這里,我們使用基迪奧的教程,如何繪制添加分類色塊的進化樹即寒?,這個教程也是講解得很詳細报辱。


注意:我們這里使用iqtree輸出文件test.aligend.fa.treefile作為輸入文件。

#載入相關(guān)的R包立帖;
library(ggtree)
library(treeio)
library(ggplot2)
#讀入newick格式的進化樹文件眼溶;
tr = read.newick("test.aligend.fa.treefile")
ggtree(tr)
#為進化樹添加葉標簽;
p1 <- p0 + geom_tiplab(size=2,color="grey10")
p1
#為進化樹添加圓形頂點晓勇;
p2 <- p0+ geom_tiplab(size=2,offset=0.03, color="grey10")+
geom_tippoint(color="#6bc72b",fill="#6bc72b",
alpha=0.4, size=3,shape=21)
p2

后面的教程參數(shù)調(diào)整堂飞,按著教程即可如何繪制添加分類色塊的進化樹?

2.6.2 MEGA制作進化樹

此部分內(nèi)容來自:TBtools | 基因家族分析 (進化樹宵蕉、Motifs酝静、結(jié)構(gòu)域)
輸入數(shù)據(jù)為目標基因家族的蛋白質(zhì)序列。

先進行多序列比對羡玛,用MUSCLE默認參數(shù)别智。



圖片將比對好的結(jié)果保存為.meg格式。



重新打開比對后的文件稼稿,構(gòu)建進化樹薄榛,使用最大似然法,根據(jù)需要選擇建樹方法让歼。再構(gòu)建之前可以進行模型的預測敞恋,這里節(jié)省時間直接使用默認參數(shù)。

現(xiàn)在就構(gòu)建好了一棵進化樹谋右,導出為.nwk格式硬猫。接下來最后一步就是再TBtools中展示所有結(jié)果。

2.7 使用Figtree繪制進化樹

2.62.7小節(jié)中,我們講述了使用ggtree和MEAG繪制進化樹啸蜜,這些軟件都是比較常用的坑雅。在這次作圖過程中,自己的無意間也查詢到使用Figtree可視化工具繪制進化樹衬横。主要是看到這張圖裹粤,平時自己看到的圖都是矩陣類型或是圓形,類似這個半圓看著是比較好看蜂林。


Figtree網(wǎng)址:http://tree.bio.ed.ac.uk/software/figtree/

軟件下載可以到GitHub中下載:https://github.com/rambaut/figtree/releases

下載后無需安裝遥诉,即可使用(根據(jù)自己的版本調(diào)整)。

FigTree v1.4.4快捷鍵發(fā)送到桌面即可


對于Figtree軟件的使用噪叙,全網(wǎng)依舊是很一定數(shù)量的教程矮锈,大家可以自行進行查找,或觀看幫助文檔构眯。

2.7.1 Figtree繪制進化樹基礎圖形

打開Figtree界面是比較簡單愕难,這個軟件的獲得的圖形的類型也是相對比較少,只適合小眾類型的進化樹繪制惫霸。對于很復雜類型進化樹還是不推薦使用Figtree繪制猫缭。


  1. 點擊File-Open,導入數(shù)據(jù)
  2. 獲得進化樹


  3. 調(diào)整。全部參數(shù)可以在左側(cè)調(diào)整即可壹店。包括猜丹,大小、間距硅卢、距離參數(shù)等射窒。








    以上參數(shù),僅僅只是必要調(diào)整的參數(shù)将塑,具體看自己的分析進行調(diào)整即可脉顿,無固定模式。

2.7.2 Figtree繪圖的模式

我在前面說過Figtree繪制進化樹的圖類型很少点寥,只有三種大類型艾疟。具體如下所示。

  1. 一般的聚類類型


  2. 圓形circular

2.7.3 Figtree繪制進化樹美化圖形

如何進行美化敢辩,是我們一直在追求的方向蔽莱。在進化樹中分支的上色是必須的,在Figtree中依舊可以做戚长。注意:我們這里只是簡單的說明如何上色盗冷,具體操作自己進行。


最終圖形可以獲得如下圖所示同廉。

2.7.4 Figtree導出圖形

調(diào)整好圖形參數(shù)仪糖,如何導出圖形呢柑司?操作如下所示。File-Export JPEG/PNG/PDF.....乓诽,導出適合的的圖形格式即可帜羊,但是建議導出的矢量圖。后期AI進行調(diào)整鸠天。(通過上面導出圖形,我們可以看到圖形的顏色長度是不同的帐姻,這個問題要如何解決稠集,暫時沒有找到好的方法。在ggtree繪制中自己也遇到這里的問題饥瓷。如果在的圖形軟件中無法解決剥纷,只能通過后期解決。)

2.7.4 重新文章中圖形

那么如何繪制類似的圖形呢呢铆?根據(jù)前期的參數(shù)晦鞋,只需要進一步優(yōu)化即可。

  1. 主圖

    (1) 將圖形性狀選擇圓形

    (2) 調(diào)整Root AngleAngle Rangle調(diào)整到適合的形狀棺克。
  2. 分類附圖



    在這個圖中悠垛,我個人將其進化樹分為進化樹分類附圖。這個圖也是使用的Figtree進行繪制娜谊。具體操作如下所示确买。

  • 選擇分類圖形


  • 調(diào)整參數(shù)


  • 樹枝的寬度可以寬1-2個size


  • 調(diào)整自己喜歡的Trabsform Branches
  • 繼續(xù)調(diào)整


--
注意:
進化樹的分支,主圖和附圖要一致纱皆。為了進一步確定明確兩個圖的一致性湾趾,建議直接在附圖中,對分支進行填充顏色派草。操作與上述一致搀缠。

2.7.5 AI合并美化

  1. 打開AI
  2. 新建圖形


  3. 導入進化樹圖形


  4. Ctrl + R打開AI中的標尺、拖出x軸或Y軸參考線
  5. 調(diào)整半圓進化樹近迁,做到“橫平豎直”


  6. Ctrl + A全選艺普,選擇圖形,Ctrl + C進行復制钳踊,或直接進行拖拽到新建圖形中衷敌。
  7. 調(diào)整適合的圖形大小,調(diào)整時拓瞪,一直按住shuft缴罗,避免圖形橫縱大小改變。
  8. 建議祭埂,在圖形中如有新的圖形產(chǎn)出面氓,建議每個新的圖形都新建立一個圖層兵钮,利于后期的修改。


  9. 隨后就進行進化的調(diào)整舌界,我們在這里掘譬,需要對AI有一定的基礎知識,才可以呻拌。比如葱轩,如何隨意修改圖形的形狀,類似圖例所示藐握。這里操作很繁瑣靴拱,具體操作自己進行。


  10. 導入進化樹分支


  11. 如何線條太細猾普,可以進行調(diào)整適合粗細袜炕。


  12. 分支添加顏色


  • 新建圖形

  • 選擇橢圓工具


  • 繪制橢圓,調(diào)整適合的分支位置和的添加分支顏色


  • 適當?shù)恼{(diào)整顏色


  • 依次繪繪制即可


  • 字體調(diào)整(如果在圖形中梯子較小初家,也可以在AI中調(diào)整)



    使用選擇工具偎窘,選擇調(diào)整字體,直接進行修改即可溜在。

  • 調(diào)整圖形大小



  • 最終出圖


  • 也可以直接間監(jiān)矩形進化樹進行進行合并陌知,相比育德圓形或半圓,調(diào)整顏色柱就很容易炕泳,直接拉成一樣長度即可纵诞。


    --
    細節(jié)自己調(diào)整。

2.8 目的基因結(jié)構(gòu)可視化

需要文件:

  1. 目的基因注釋文件(GFF or GTF)
  2. 進化樹文件(可選)

2.8.1 使用ID和基因組注釋文件繪制

  1. 使用TBtools直接操作培遵,依次點擊:Gene Structure View

    結(jié)果如圖所示:

2.8.2 提取目的基因的注釋文件(推薦)

我們會發(fā)現(xiàn)浙芙,輸入ID處也是可以輸入進化樹文件信息。因此籽腕,我們推薦直接提取獲得目的基因的注釋文件信息嗡呼,單獨使用GTF文件信息或是GFF信息進行繪制。

  1. 獲得GFF注釋信息
    使用已有的目的基因的ID與基因組注釋文件進行匹配獲得皇耗。
cat Araport11_GTF_genes_transposons.current.gtf | grep -wf TAR11.test.id > TAR11.test.gtf
$ cat Araport11_GTF_genes_transposons.current.gtf | grep -wf TAR11.test.id | head 
Chr1    Araport11   mRNA    18935301    18937665    .   +   .   transcript_id "AT1G51110.1"; gene_id "AT1G51110";
Chr1    Araport11   CDS 18935380    18935673    .   +   0   transcript_id "AT1G51110.1"; gene_id "AT1G51110";
Chr1    Araport11   CDS 18935743    18935796    .   +   0   transcript_id "AT1G51110.1"; gene_id "AT1G51110";
Chr1    Araport11   CDS 18935908    18935982    .   +   0   transcript_id "AT1G51110.1"; gene_id "AT1G51110";
Chr1    Araport11   CDS 18936083    18936205    .   +   0   transcript_id "AT1G51110.1"; gene_id "AT1G51110";
Chr1    Araport11   CDS 18936278    18936469    .   +   0   transcript_id "AT1G51110.1"; gene_id "AT1G51110";
Chr1    Araport11   CDS 18936552    18936635    .   +   0   transcript_id "AT1G51110.1"; gene_id "AT1G51110";
Chr1    Araport11   CDS 18936723    18936815    .   +   0   transcript_id "AT1G51110.1"; gene_id "AT1G51110";
Chr1    Araport11   CDS 18936903    18936956    .   +   0   transcript_id "AT1G51110.1"; gene_id "AT1G51110";
Chr1    Araport11   CDS 18937039    18937118    .   +   0   transcript_id "AT1G51110.1"; gene_id "AT1G51110";
  1. 進化樹獲得
    同上的方法獲得

  2. MEMExml or MAST.xml文件
    同上

  3. 繪圖
    依次提交相關(guān)的文件即可


2.9 進化樹南窗、Motifs、結(jié)構(gòu)域郎楼、基因結(jié)構(gòu)合圖繪制

以上的操作万伤,都可以獲得單張圖形,那么如何多圖繪制在一起呢呜袁?TBtools也提供了相關(guān)的教程,TBtools | 多圖合一至強版教程敌买!進化樹 + Motifs + 結(jié)構(gòu)域 + 啟動子 + 基因結(jié)構(gòu) + ....,我們可以根據(jù)此教程進操作阶界。具體如下:



獲得結(jié)果(來自CJ教程):


2.10 圖形美化

到這里虹钮,我們的整張圖形就可以獲得聋庵。但是,只是這樣的話芙粱,我覺得自己的這個教程就沒有意義祭玉。我前面說過,我的這個教程重點是圖形美化春畔。自己是更喜歡脱货,TBtools單張出圖的類型,然后進行AI或PS美化的拐迁。軟件默認的顏色蹭劈,我自己不是很喜歡,但是也可以自己調(diào)整线召,也是很方便的哦。

2.10.1 TBtools圖形顏色的調(diào)整

我們這里只是隨意進行調(diào)整多矮,圖形無任何意義缓淹。

  1. 步驟一、點擊圖形中的方塊塔逃、右鍵


  2. 調(diào)整色塊

    3讯壶、選擇先要的色塊、點擊Selecteed

    4湾盗、更改成功
    但是你會大發(fā)現(xiàn)伏蚊,圖中所有一樣的顏色色塊都會改變。

類似的功能格粪、自己逐漸去摸索躏吊。

2.10.2 單張出圖

如果上面的方式?jīng)]有很好實現(xiàn)自己想要的效果。那么帐萎,我們就只能單張出圖比伏、后面再進行合并。

注意:在繪圖時疆导,我們的要提前想好自己的文章或這張圖的顏色設置赁项,以及圖形的色調(diào)是屬于什么類型的。理論上澈段,一整篇文章圖形色調(diào)和類型要保持一致悠菜。

如果,在后期的調(diào)整中败富。圖形顏色需要重新調(diào)整悔醋,我們可使用AI進行調(diào)整或是重新繪制,少量還是比較方便囤耳,但是圖形又大有多篙顺,重畫是很奔潰的事情偶芍。

三、IA圖形美化

美化德玫,我羅列出單個章節(jié)進行講解匪蟀。表明,是很重要的宰僧。以及材彪,圖形的美化,需要不斷學習和模范大牌期刊的圖形類型琴儿,以及自己要時刻進行總結(jié)和創(chuàng)新段化。對于創(chuàng)新,這個就比較玄學造成,每個人的審美不同显熏,邏輯不同,關(guān)注點不同.......導致最終看到的點也不同晒屎。因此喘蟆,我們在不是很離譜的創(chuàng)作中,結(jié)合自己的審美進行美化即可鼓鲁。我們要堅信:審美蕴轨。首先要符合自己,其次骇吭,再考慮別人橙弱。只有自己先認同,你才有可能讓其他人也認同燥狰!

3.1 使用工具

1.推薦使用的工具:AI棘脐、PS

如果不知道類似軟件的,自己百度碾局。

  1. 如何安裝
  • 有錢人:購買正版
  • 窮人(和我一樣):薅羊毛荆残,使用破解版
  1. 如何獲取安裝包

在本公眾號中回復關(guān)鍵詞獲得。

  • PS安裝包關(guān)鍵詞:PS
  • AI安裝包關(guān)鍵詞:AI

或是你自己尋找相關(guān)版本的安裝包即可净当。

提示:請自己輸入正確的關(guān)鍵詞(每次看到有些同學們的關(guān)鍵詞内斯,真的很無語......)


3.2 實際操作

  1. 打開AI,新建圖層A4
  2. 導入進化樹像啼,適當調(diào)整進化樹的寬度和字體大小


  3. 依次導入的目的基因的motif俘闯、基因結(jié)構(gòu)域等圖形。并依次按進化樹基因名進行排序即可忽冻。
  4. 為后期的圖形的整齊性真朗,我們使用參考線進行對齊,便于后期的調(diào)整僧诚。

    注意:這里看到我們的motif的圖形顏色很難看遮婶,這就是前期沒有考慮顏色的結(jié)果蝗碎。因此,我一直強調(diào)旗扑,文章圖形顏色統(tǒng)一的重要性祥诽,圖形顏色搭配合理亲雪,你的論文已經(jīng)成功1/3了。

    換一種顏色就感覺好多了呀谭跨。
  5. 添加基因結(jié)構(gòu)圖



    添加圖形的操作都是一樣的飘庄,不做多贅述让簿。

  6. 如何美化
    對于美化检吆,每個人的要求不一致种玛,只要符合你的審美即可。我們在這里就直接添加漸變色致燥。
  7. 新建一個圖層
    新建圖層置于最底層登疗。


  8. 選擇圖形工具


  9. 利用進化樹的分支,將其進行分類


  10. 填充顏色(根據(jù)自己的喜好)


  11. 更改透明圖


  12. 漸變色


  • 不透明度:60
  • 中間位置:10-50%
    結(jié)合實際情況調(diào)節(jié)嫌蚤。


  1. 最后圖形



    圖形很多細節(jié)需要自己耐心調(diào)節(jié)谜叹,這里只是做示范,相對比較粗糙搬葬。

四、多物種共線分析

共線分析依舊是使用TBtools艳悔,哈哈哈哈急凰,做基因家族TBtools可以幫你完成80%的生信分析。毫不夸張!!!!!
TBtools共線分析的教程很多猜年,我們以零基礎多物種間共線性分析教程作為參考(也不是作為參考了抡锈,是直接按他的步驟進行操作)。其他參考教程:全基因組共線性分析乔外、無限個床三!物種共線性分析結(jié)果可視化任何人杨幼!一鍵完成物種間的共線性分析與可視化撇簿。

4.1 需要文件

  1. 參考基因組fa文件
  2. 注釋文件GFF or GTF


TBtools可以對無限個作物進行共線分析,牛2罟骸K奶薄!

4.2 染色體統(tǒng)一命名

在這個教程中欲逃,有這樣的一個步驟找蜜,如果你需要,你就進行操作稳析。

  1. gtf文件進行ID prefix


  1. fa文件進行ID prefix


4.3 實操

  1. 打開one step MCScanx小程序
  2. 輸入兩個作物的文件信息


  3. 點擊開始Start
  4. 如果是多個作物洗做,那么依次進行兩兩比較弓叛。比如:共線結(jié)果是以這樣的順序:Tomato-LA-Arabidopsis

比對順序:

  • Tomato-LA
  • LA-Arabidopsis
  1. 比對結(jié)果GFF文件合并
  • 打開Text Merge for MCScanX程序

    合并多個的MCScanX的結(jié)果文件中的GFF文件

    拖拽文件

6.比對結(jié)果ChrLayout.tab.xls文件合并


  1. 比對結(jié)果geneLinks.tab.xls文件合并

    同上操作!
  2. 合并文件
    最終獲得以下3個文件诚纸,用于繪制圖形撰筷。


  3. 要在共線中顯色的基因ID
Solyc03g062790.3.1
Solyc10g018590.2.1
Solyc01g104320.4.1
Solyc03g083420.4.1
AT4G22240.1
AT2G35490.1
AT1G51110.1
AT5G53450.3
........
  1. 繪圖。打開Multiple synteny plot

    輸入?yún)?shù)

    輸出圖形

注意咬清,在輸出圖形中闭专,我們可以看到作物染色體位置是有改變的。那么旧烧,如何更改呢影钉?回答:直接更改Chr文件即可。



更改這里的順序即可掘剪!

五平委、同源目標基因元件預測

目標基因的元件預測,我們這里主要介紹使用兩個網(wǎng)站進行夺谁。

5.1 提取目標基因上游2000bp

參考教程順式作用元件預測和新的可視化方式廉赔、植物啟動子-順式作用元件-批量提取-預測-可視化分析,同樣是使用TBtools操作匾鸥。

  1. 需要文件
  • 作物參考基因組fa文件
  • 注釋文件GFF or GTF
  • 目標基因ID
  1. 直接使用TBtools中的Gtf /Gff3 Sequences Extractor獲得每個基因的fa序列


    輸出文件

    點擊Initalize蜡塌,選擇CDS

    選擇上游2000bp的fa序列

  2. 目標基因的fa序列,打開Fasta Extract or Filter (Quick)


    輸出結(jié)果文件:

  3. 查看信息是否正確勿负,打開Fasta Stats

  4. 轉(zhuǎn)換序列(全部為大寫)馏艾,打開Sequence Manipulate (Rev&Comp

5.2 提交預測網(wǎng)址進行順式作用預測

預測,這里使用兩個網(wǎng)站進行預測奴愉,分別是PlantCarePLCAE琅摩。

5.2.1 使用Plantcare進行預測

網(wǎng)址:http://bioinformatics.psb.ugent.be/webtools/plantcare/html/

  1. 上傳序列后,Plant可以提供你自己的郵箱锭硼,運行結(jié)束后房资,結(jié)果直接發(fā)送到你的郵箱中。



  2. 郵箱中獲得結(jié)果檀头,根據(jù)你的序列多少轰异,10分鐘以上吧!


  3. 結(jié)果


  4. 使用execl打開后


1. 基因ID鳖擒;
2. 順式作用元件名稱溉浙;
3. 順式作用元件序列;
4. 順式作用元件的起始位置蒋荚;
5. 順式作用元件的長度戳稽;
6. 順式作用元件所在的鏈的方向;
7. 物種名;
8. 順式作用元件所在的功能分類惊奇;

刪除某些不需要的結(jié)果:
需要刪除:

1. 剔除第2列為空的行
2. 剔除第2列為unnamed的行
3. 最后一列互躬,無功能作用的

具體刪除的數(shù)據(jù),根據(jù)自己的分析來做颂郎。



最后吼渡,可以刪除掉1000行以內(nèi)

--
來自順式作用元件預測和新的可視化方式,這個意見有重要的參考意義乓序。如果不合并寺酪,導致元件的作用太多,繪制出的圖形顏色太雜替劈,且不好看寄雀。

  1. 繪圖



    繪圖前還需要準備基因的長度文件



    輸入數(shù)據(jù),設置參數(shù)

    結(jié)果:



    在TBtools中也可以輸入進化樹文件陨献。

我們這里也可以使用的起那么AI中的呢進化樹進行模板進行美化盒犹。

5.2.2 PLACE進行預測

網(wǎng)址:https://www.dna.affrc.go.jp/PLACE/?action=newplace

  • 缺點:PLACE一次最大只能輸入20條基因序列,有一定的限制性眨业。獲得結(jié)果為網(wǎng)頁版急膀,如要整理,只能手動整理或使用腳本進行整理龄捡。
  • 優(yōu)點:速度快卓嫂!
  1. 獲得結(jié)果



    每個基因為單獨的,需要自己整理聘殖。

  • 只給元件名稱命黔、開始位置、序列就斤、功能(SITE,需要點擊進去才可以看到)
  • 整理蘑辑,單獨粘貼復制到execl中洋机,并使用腳本進行整理。

選擇哪個網(wǎng)站進行預測洋魂,取決于自己绷旗。只要結(jié)果符合我們自己的預期結(jié)果即可!8笨场衔肢!


5.2.3 熱圖可視化

輸入數(shù)據(jù)格式如下(可以根據(jù)自己的情況篩選):



腳本:

install.packages('tidyverse')
intall.packages('RColorBrewer')

# 加載包
library(tidyverse)
library(RColorBrewer)

# 1.讀取數(shù)據(jù)
df <- read_tsv('data.txt', col_names = F) %>% select(1,2)

# 2.整理數(shù)據(jù)
tidy <- df %>% 
  group_by(X1, X2) %>% 
  summarise(number = n()) %>%
  arrange(desc(number))

# 3.查看數(shù)量分布,確定配色個數(shù)
summary(tidy$number)
# 最大值為9豁翎,所以下面的代碼 hcl.colors(9, "RdYlGn")中為9

# 4.畫圖
  ggplot(tidy, aes(x = X2, y = X1, fill = number)) +
  geom_tile(color = 'black') +
  geom_text(aes(label = number),col='black',cex = 1.5) +
  scale_fill_gradientn(colors = rev(hcl.colors(9, "RdYlGn"))) +
  scale_x_discrete(position = "top")+
  theme_bw() +
  theme(axis.text.x = element_text(angle = 90, hjust = 0),
        axis.title = element_blank(),
        axis.text = element_text(size = 7, color = 'black'))
# 通過修改 scale_fill_gradientn參數(shù)給每一個值指定顏色
cc <- c('#d9d9d9', '#f7fcb9', '#d9f0a3', '#addd8e', '#78c679', '#feb24c', '#fd8d3c', '#fc4e2a', '#b10026')

ggplot(tidy, aes(x = X2, y = X1, fill = number)) +
  geom_tile(color = 'black') +
  geom_text(aes(label = number),col='black',cex = 2.5) +
  scale_fill_gradientn(colors = cc) +
  scale_x_discrete(position = "top")+
  theme_bw() +
  theme(axis.text.x = element_text(angle = 90, hjust = 0),
        axis.title = element_blank(),
        axis.text = element_text(size = 7, color = 'black'))

5.2.4 美化

基于AI進行美化角骤,方法同上



六 ENDING

說實話,基因家族的文章分析確實消耗的時間和精力不算是很多。生信部分就差不多這些吧邦尊!再加上一些組學的數(shù)據(jù)來驗證即可背桐。除了生信的部分,剩余就是實驗來驗證蝉揍,將兩者進行結(jié)合链峭,好一點的文章也可以發(fā)。我自己前面沒有接觸過基因家族的分析又沾,因此弊仪,本次就是現(xiàn)學現(xiàn)做,做的還是比較簡單杖刷。

本次來接觸基因家族的分析励饵,感觸最深的就是,TBtools真的很強大挺勿∏幔基因家族的分析、畫圖都可以使用它來完成不瓶。不得了啊禾嫉,真的是將做生信的門檻一降再降,點贊點贊


本期內(nèi)容是自己的做了一個整理蚊丐,算是“教程搬運工”熙参,也是自己在做分析后做的總結(jié)。自己不知道麦备,這次分析后孽椰,多久以后還能涉及基因家族的分析×莞荩總結(jié)總結(jié)J蜇摇! 但是呛梆,說實話锐涯!這個總結(jié)也花費自己很長的時間,如果你想獲得這個教程的文本文檔填物,可以“喜歡點贊纹腌,支持”,我在后臺看到后會第一時間將文檔鏈接發(fā)給你V突恰升薯!

小杜的生信筆記,主要發(fā)表或收錄生物信息學的教程击困,以及基于R的分析和可視化(包括數(shù)據(jù)分析涎劈,圖形繪制等);分享感興趣的文獻和學習資料!!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市责语,隨后出現(xiàn)的幾起案子炮障,更是在濱河造成了極大的恐慌,老刑警劉巖坤候,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件胁赢,死亡現(xiàn)場離奇詭異,居然都是意外死亡白筹,警方通過查閱死者的電腦和手機智末,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來徒河,“玉大人系馆,你說我怎么就攤上這事⊥缯眨” “怎么了由蘑?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵,是天一觀的道長代兵。 經(jīng)常有香客問我尼酿,道長,這世上最難降的妖魔是什么植影? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任裳擎,我火速辦了婚禮,結(jié)果婚禮上思币,老公的妹妹穿的比我還像新娘鹿响。我一直安慰自己,他們只是感情好谷饿,可當我...
    茶點故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布惶我。 她就那樣靜靜地躺著,像睡著了一般博投。 火紅的嫁衣襯著肌膚如雪指孤。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天贬堵,我揣著相機與錄音,去河邊找鬼结洼。 笑死黎做,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的松忍。 我是一名探鬼主播蒸殿,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了宏所?” 一聲冷哼從身側(cè)響起酥艳,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎爬骤,沒想到半個月后充石,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡霞玄,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年骤铃,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片坷剧。...
    茶點故事閱讀 37,989評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡惰爬,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出惫企,到底是詐尸還是另有隱情撕瞧,我是刑警寧澤,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布狞尔,位于F島的核電站丛版,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏沪么。R本人自食惡果不足惜硼婿,卻給世界環(huán)境...
    茶點故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望禽车。 院中可真熱鬧寇漫,春花似錦、人聲如沸殉摔。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽逸月。三九已至栓撞,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間碗硬,已是汗流浹背瓤湘。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留恩尾,地道東北人弛说。 一個月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像翰意,于是被迫代替她去往敵國和親木人。 傳聞我的和親對象是個殘疾皇子信柿,可洞房花燭夜當晚...
    茶點故事閱讀 42,700評論 2 345

推薦閱讀更多精彩內(nèi)容