一赏迟、 寫在前面
2023年4月中旬自己開始做基因家族的分析,對于這塊自己沒有接觸過蠢棱,因此也是一個挑戰(zhàn)锌杀,沒事!P合伞8庠佟(安慰自己),對于基因家族的分析網(wǎng)上的教程很多饰豺,跟著步驟走就可以亿鲜。在這部分,我自己主要是做生信這塊,實驗驗證是師姐在做,所以論文結(jié)構(gòu)自己不用操心舅列。此外芒填,可視化的工具很多,也很方便妓蛮,不需要自己特意去學怠李。我們這里就60%使用TBtools軟件進行可視化和分析。
此外蛤克,本次分析80%的內(nèi)容都是基于TBtools捺癞。確實牛X!!自己開始接觸TBtools是在2019年吧,也是通過一個師兄的推薦才知道的构挤。2019年CJ還沒將TBtools發(fā)表在MP上髓介,那時還是預印版本吧。但是筋现,引用已經(jīng)有了很多唐础,了不起哦箱歧。后面TBtools一直在開發(fā)新的的小“軟件” or“程序”,將生信分析的門檻一降再降一膨。點贊點贊Q叫稀!豹绪!
--Du
如想獲得本文文檔价淌,可看文末!瞒津!
注意:此教程有些話語可能會帶有自己的方言输钩,讀不通時也不要在意!仲智![淚目买乃!]
一,在Pfam數(shù)據(jù)中獲得基因家族
我們這里預測作物中某一個基因家族的基因钓辆,目前在此作物中未報道剪验。因此,使用Pfam數(shù)據(jù)庫中一致的基因進行同源搜索(其實前联,你也可以使用已知作物中的基因進行同源搜索功戚,獲得結(jié)果基本一致)。那么我們就根據(jù)文章中和報道的Pfam數(shù)據(jù)庫中的基因作為基序似嗤,進行同源搜索啸臀。
-
在Pfam數(shù)據(jù)庫中下載FBNs基因家族(Pfam 04755),Pfam網(wǎng)址:https://pfam-legacy.xfam.org/
-
打開網(wǎng)址:http://www.ebi.ac.uk/interpro/entry/pfam/?search=0477#table
- 點擊進入
PF04775
烁落,下載所有的Proteins序列
以上只是其中的一種方法乘粒,但為獲得FBN基因家族的蛋白序列。下面使用Pfam數(shù)據(jù)中搜索
- 打開網(wǎng)頁伤塌。https://pfam-legacy.xfam.org/
-
搜索
-
進入
- 搜索后獲得PAP_fibrillin
下載Reviewed
的PF04755序列
二灯萍、同源序列檢索預測
對于同源基因的搜索,很多基因家族的文章都使用HMMER進行檢索每聪,也有一些文章是使用BLAST旦棉。你任選其中一個即可,都能獲得你想要的結(jié)果同源基因药薯。在做分析的時候绑洛,我將使用Hmmer尋找同源基因的文章分享在公眾號中,在評論區(qū)有一個大佬對HMMER和BLAST之間的差異給出回答童本。
這兩個方法原理上區(qū)別真屯,balstp是基于序列同源性進行打分的,有打分矩陣巾陕,hmm是基于隱馬爾可夫模型讨跟,對序列結(jié)構(gòu)域進行比對纪他。來自“潑皮混混”的評論。
2.1 HMMER同源結(jié)構(gòu)域搜索
2.1.1 Hmmer的安裝
安裝晾匠,主要是使用源碼安裝或是是使用conda
進行安裝即可茶袒。
- conda安裝
conda install -y hmmer
-
源碼安裝:
官網(wǎng):http://www.hmmer.org/
任意下載一個版本即可,安裝步驟不再做說明凉馆。
2.1.2 使用hmmbuild構(gòu)建.hmm文件
在有些數(shù)據(jù)庫中是有.hmm
文件薪寓,只需要下載即可。但是澜共,這僅僅只限于有些大數(shù)據(jù)庫向叉。對于我們自己使用,不可能全部都有嗦董,這就需要我們自己構(gòu)建母谎,很多教程到這步就是讓你收費了.......。
在本教程京革,講述其中一種方法吧奇唤,希望對大家有所幫助。
hmmbuild構(gòu)建時匹摇,需要使用
.sto
文件進行構(gòu)建咬扇。因此,我們必須獲得.sto
文件廊勃。
- 使用mafft軟件進行間序列進行對齊
mafft --auto --clustalout ../Pfam_PF04755_reviewed.fasta > Hmmbuild_index/Pfam.FBNs.align.clustal
轉(zhuǎn)換:
http://sequenceconversion.bugaco.com/converter/biology/sequences/fasta_to_phylip.php
- hmmbuild構(gòu)建文件
hmmbuild Pfam.FBNs.hmm sample.stockholm
- hmmsearch
hmmsearch Hmmbuild_index/Pfam.FBNs.hmm Potato/DM_1-3_516_R44_potato.v6.1.working_models.pep.fa > ../02_Result/Potao.hmmer.out.txt
- 篩選出最佳的結(jié)果懈贺,E-value值小于
1e-5
,Score值大于“> 90” - 對于篩選結(jié)果,可以直接使用Hmmsearch獲得結(jié)果坡垫;也可以如上所示根據(jù)自己需求進行篩選梭灿,自己做的話,如果搜索的目的基因太多葛虐,而自己不需要這么多的同源基因胎源,自己會進行手動過濾一些同源性較弱的基因。
cat Potato.hmmer.out.txt |grep -v "#" | awk '{if($4 < 1e-5 && $5 > 90) print $9}' | sort | uniq | grep -v "+" > Potato.hmmer.best.out.txt
2.2 提取目的基因序列
日志:通過Hmmsearch獲得同源基因的ID屿脐,那么后面對目的同源基因進行進化樹、結(jié)構(gòu)域宪卿、motif等的分析的诵,這些分析都需使用目的同源基因的序列。
如何獲得同源基因序列佑钾?西疤?
- 使用腳本獲得
- 使用ggffead獲得,需要獲得同源基因的
.gtf
文件等信息休溶。 - 生信工具獲得代赁、如TBtools等扰她。
對于這步、我們就多做講解芭碍,使用自己拿手的方式獲得即可徒役。
問:后面的分析使用核酸序列 or蛋白序列呢?窖壕?
答:都可以忧勿。
FBN 家族的分析日志。使用Pfam瞻讽、擬南芥(11)和水稻的FBN家族基因同源搜索馬鈴薯中的FBN同源基因
## 水稻中的FBN家族基因
cat all.pep | grep ">" | grep fibrillin |awk -F "|" '{print $1}' | awk -F " " '{print $1}' | sed 's/>//g' > O_sativa.FBN.id.txt
##擬南芥中FBN家族基因
可以在擬南芥網(wǎng)址中的同源搜索鸳吸,也可以在擬南芥蛋白數(shù)據(jù)中搜索
cat Araport11_pep_20220914 | grep FBN | awk -F "|" '{print $1}' | sed 's/>//g' > Araport11_FBN.id
2.3 使用TBtools提取目的基因
說實話,TBtools確實是個很牛的生信工具速勇,基本可以讓你不寫代碼獲得你想要的東西晌砾。以及,各種類型的小腳本軟件都一直在開發(fā)烦磁。贊贊Q佟!
2.3.1 TBtools軟件的下載
- 網(wǎng)址:https://github.com/CJ-Chen/TBtools
- 安裝个初。
- 動手運行
2.3.2 提取序列
- 準備作物所有的蛋白序列文件(or基因文件)
-
目的基因的ID
- 打開TBtools乖寒,
Fasta Extract or Filter (Qyick)
-
獲得結(jié)果
2.4 目的同源基因motif分析
2.4.1 使用MEME進行motif預測
-
上傳相關(guān)的fa文件,以及修改相關(guān)的參數(shù)院溺,進行提交
-
輸出結(jié)果
輸出結(jié)果很快楣嘁,有以下幾個結(jié)果文件。
2.4.2 motif可視化
對于motifi分析可以參考一下文章:
- TBtools | 多圖合一至強版教程珍逸!進化樹 + Motifs + 結(jié)構(gòu)域 + 啟動子 + 基因結(jié)構(gòu) + ....,TBtools開發(fā)者本人的教程
- TBtools | 基因家族分析 (進化樹逐虚、Motifs、結(jié)構(gòu)域)
- 或是本篇教程
MEME網(wǎng)址結(jié)果可以給我們的seqlogo信息和motif信息谆膳。
-
Seqlogo
結(jié)果文件中就有seqlogo文件信息叭爱。
也可以自己的下載后繪制。
按以下操作即可下載序列漱病。
也可以下載已有的seqlogo圖片买雾。
下載后所有的motif序列信息。
- 使用R語言對Seqlogo序列進行可視化
這里借用這篇教程杨帽,基因結(jié)構(gòu)及motif分析漓穿。批量生產(chǎn)Seqlogo可視化。
我們可以根據(jù)自己的motifi數(shù)量進行命名注盈,我自己只有10個motif信息晃危。所以命名為motif1-10.txt
。
## 加載所需要的包
library(ggplot2)
#BiocManager::install("ggseqlogo")
library(ggseqlogo)
## 批量生產(chǎn)文件名
filelist = c(paste0('motif',1:10,'.txt'))
filelen <- length(filelist)
##批量讀取
data.list <- list()
for (i in 1:filelen) {
data.list[[paste0('motif',i)]]=scan(filelist[i],what = '')
}
ggseqlogo(data.list,col_scheme="clustalx", ncol = 5)+
theme(axis.line = element_line(colour = 'black'),
axis.text.x = element_blank(),
legend.title = element_blank())
ggplot()+
geom_logo(data.list, col_scheme = "clustalx")+
theme_logo()+
facet_wrap(~seq_group,ncol = 5,scales = "free_x")+
theme(axis.line = element_line(colour = 'black'),
axis.text.x = element_blank())
對比一下MEME網(wǎng)站中的圖形老客。
對于Seqlogo的繪制僚饭,美化震叮,可以根據(jù)很多優(yōu)秀的教程。在網(wǎng)上上一搜鳍鸵,都可以找到苇瓣。
2.4.3 motif的分析
-
下載結(jié)果文件
MAST XML output
,使用TBtools軟件進行可視化权纤。
-
打開TBtools中的
Gene Structure View
,只需上傳MEME中的XML文件即可钓简,上傳上去直接點擊Start
。
--
操作:
結(jié)果:
保存P谙搿外邓!
注意:我們這里保存的時候最好保存為PDF或SVG格式,輸出為矢量圖古掏。
如果我們的教程只是到這里损话,那么就沒有什么意義了。因為槽唾,類似非常優(yōu)秀和詳細的教程很多丧枪。繪制出圖形是一方面、美化可是重頭戲庞萍。
在MEME輸出文件中拧烦,也提供了motif的圖形,也可直接使用钝计。
2.5 基因家族保守結(jié)構(gòu)域分析
- 使用
Batch CD-Search
進行預測恋博,網(wǎng)址:https://www.ncbi.nlm.nih.gov/Structure/bwrpsb/bwrpsb.cgi
-
提交序列信息即可
- Batch CD-search只支持目的基因蛋白序列信息, 以及序列數(shù)量少于1000。
Warning: Batch CD-Search accepts only protein sequences. The maximal number of query sequences per request is 1000. A single query sequence can not exceed a length of 40,000 residues.
可以提供你的郵箱私恬,等運行結(jié)束后债沮,直接發(fā)送到你的郵箱。如果序列較多本鸣,建議提供郵箱疫衩。
-
下載文件
結(jié)果文件:
- 打開TBtools中的
Visualize NCBI CDD DOmainPattern
-
輸入結(jié)果文件和fa文件
-
根據(jù)自己的需求進行調(diào)整即可。
-
輸出文件荣德。
2.6 進化樹分析
進化樹分析闷煤,在基因家族中是必須的,以及在很多圖中都是需要的涮瞻。進化樹分析和繪制曹傀,也有很多教程,參考iqtree+ggtree繪制進化樹教程饲宛、或是你也可以使用MEGA來做分析。
2.6.1 iqtree+ggtree繪制進化樹教程
- iqtree獲得樹文件
所需軟件
- mafft
- iqtree
mafft安裝
我是使用服務器中運行的嗜价,安裝可以使用conda
- iqtree
conda install mafft
iqtree官網(wǎng)
http://www.iqtree.org/
iqtree功能很強大艇抠,大家可以查看軟件的官方文檔幕庐。
安裝
conda install iqtree
軟件安裝好后直接運行即可。
- 序列準備
進化樹序列可以使用蛋白序列或核酸序列即可家淤,格式按其準備即可异剥。
>B2LU34
MTSIAFWNAFTVNPFPAAARRSPPPLTPFTSGALSPARKPRILEISHPRTLPSFRVQAIAEDEWESEKKALKGVVGSVAL
AEDETTGADLVVSDLKKKLIDQLFGTDRGLKATSETRAEVNELITQLEAKNPNPAPTEALSLLNGRWILAYTSFAGLFPL
LGAESLQQLLKVDEISQTIDSEGFTVQNSVRFVGPFSSTSVTTNAKFEVRSPKRVQIKFEEGIIGTPQLTDSIVIPDKFE
FFGQNIDLSPFKGVISSLQDTASSVAKTISSQPPIKFPISNSNAQSWLLTTYLDDELRISRADGGSVFVLIKEGSPLLT
>B4F6G1
MTSIAFCNAFTVNPFLAAARRSPPPLTPLTSVALSPARKPRILAIFHPRTFPSFRVQAIAEDEWESEKKTLKGVVGSVAL
AEDEKTGADLVVSDLKKKLIDQLFGTDRGLKATSETRAEVNELITQLEAKNPNPAPTEALSLLNGKWILAYTSFVGLFPL
LGAESLQQLLKVDEISQTIDSEGFTVQNSVRFVGPFSSTSVTTNAKFEVRSPKRVQIKFEEGIIGTPQLTDSIVIPDKVE
FFGQNIDLSPFKGVISSLQDTASSVAKTISSQPPIKFPISNSNAQSWLLTTYLDDELRISRADGGSVFVLILESSPLLT
>O49629
MATVQLSTQFSCQTRVSISPNSKSISKPPFLVPVTSIIHRPMISTGGIAVSPRRVFKVRATDTGEIGSALLAAEEAIEDV
EETERLKRSLVDSLYGTDRGLSASSETRAEIGDLITQLESKNPTPAPTEALFLLNGKWILAYTSFVNLFPLLSRGIVPLI
KVDEISQTIDSDNFTVQNSVRFAGPLGTNSISTNAKFEIRSPKRVQIKFEQGVIGTPQLTDSIEIPEYVEVLGQKIDLNP
IRGLLTSVQDTASSVARTISSQPPLKFSLPADNAQSWLLTTYLDKDIRISRGDGGSVFVLIKEGSPLLNP
- mafft比對
使用mafft將序列對齊。
mafft test.fa > test.aligend.fa
我們獲得對齊后的數(shù)據(jù)格式絮重。
- iqtree構(gòu)建樹
iqtree -s test.aligend.fa -m MFP -bnni -nt AUTO -cmax 15 -redo -bb 1000
關(guān)于iqtree的使用冤寿,可以看這篇教程IQ-TREE的使用 - 超快速用極大似然法構(gòu)建進化樹,講的很詳細青伤。
必須參數(shù):
-s 輸入多序列比對文件
-nt 多線程督怜,AUTO是自動多線程
-bb 1000 指定了要用快速BS法做1000次
最終,我們可以獲得以下結(jié)果文件狠角。
- ggtree繪制進化樹
這里,我們使用基迪奧的教程,如何繪制添加分類色塊的進化樹即寒?,這個教程也是講解得很詳細报辱。
注意:我們這里使用iqtree輸出文件test.aligend.fa.treefile
作為輸入文件。
#載入相關(guān)的R包立帖;
library(ggtree)
library(treeio)
library(ggplot2)
#讀入newick格式的進化樹文件眼溶;
tr = read.newick("test.aligend.fa.treefile")
ggtree(tr)
#為進化樹添加葉標簽;
p1 <- p0 + geom_tiplab(size=2,color="grey10")
p1
#為進化樹添加圓形頂點晓勇;
p2 <- p0+ geom_tiplab(size=2,offset=0.03, color="grey10")+
geom_tippoint(color="#6bc72b",fill="#6bc72b",
alpha=0.4, size=3,shape=21)
p2
后面的教程參數(shù)調(diào)整堂飞,按著教程即可如何繪制添加分類色塊的進化樹?
2.6.2 MEGA制作進化樹
此部分內(nèi)容來自:TBtools | 基因家族分析 (進化樹宵蕉、Motifs酝静、結(jié)構(gòu)域)
輸入數(shù)據(jù)為目標基因家族的蛋白質(zhì)序列。
先進行多序列比對羡玛,用MUSCLE默認參數(shù)别智。
圖片將比對好的結(jié)果保存為.meg格式。
重新打開比對后的文件稼稿,構(gòu)建進化樹薄榛,使用最大似然法,根據(jù)需要選擇建樹方法让歼。再構(gòu)建之前可以進行模型的預測敞恋,這里節(jié)省時間直接使用默認參數(shù)。
現(xiàn)在就構(gòu)建好了一棵進化樹谋右,導出為.nwk格式硬猫。接下來最后一步就是再TBtools中展示所有結(jié)果。
2.7 使用Figtree繪制進化樹
在2.6
和2.7
小節(jié)中,我們講述了使用ggtree和MEAG繪制進化樹啸蜜,這些軟件都是比較常用的坑雅。在這次作圖過程中,自己的無意間也查詢到使用Figtree
可視化工具繪制進化樹衬横。主要是看到這張圖裹粤,平時自己看到的圖都是矩陣類型或是圓形,類似這個半圓看著是比較好看蜂林。
Figtree網(wǎng)址:http://tree.bio.ed.ac.uk/software/figtree/
軟件下載可以到GitHub中下載:https://github.com/rambaut/figtree/releases
下載后無需安裝遥诉,即可使用(根據(jù)自己的版本調(diào)整)。
將
FigTree v1.4.4
快捷鍵發(fā)送到桌面即可對于Figtree軟件的使用噪叙,全網(wǎng)依舊是很一定數(shù)量的教程矮锈,大家可以自行進行查找,或觀看幫助文檔构眯。
2.7.1 Figtree繪制進化樹基礎圖形
打開Figtree界面是比較簡單愕难,這個軟件的獲得的圖形的類型也是相對比較少,只適合小眾類型的進化樹繪制惫霸。對于很復雜類型進化樹還是不推薦使用Figtree繪制猫缭。
- 點擊
File
-Open
,導入數(shù)據(jù)
-
獲得進化樹
-
調(diào)整。全部參數(shù)可以在左側(cè)調(diào)整即可壹店。包括猜丹,大小、間距硅卢、距離參數(shù)等射窒。
以上參數(shù),僅僅只是必要調(diào)整的參數(shù)将塑,具體看自己的分析進行調(diào)整即可脉顿,無固定模式。
2.7.2 Figtree繪圖的模式
我在前面說過Figtree繪制進化樹的圖類型很少点寥,只有三種大類型
艾疟。具體如下所示。
-
一般的聚類類型
- 圓形
circular
2.7.3 Figtree繪制進化樹美化圖形
如何進行美化敢辩,是我們一直在追求的方向蔽莱。在進化樹中分支的上色是必須的,在Figtree中依舊可以做戚长。注意:我們這里只是簡單的說明如何上色盗冷,具體操作自己進行。
最終圖形可以獲得如下圖所示同廉。
2.7.4 Figtree導出圖形
調(diào)整好圖形參數(shù)仪糖,如何導出圖形呢柑司?操作如下所示。File
-Export JPEG/PNG/PDF.....
乓诽,導出適合的的圖形格式即可帜羊,但是建議導出的矢量圖。后期AI進行調(diào)整鸠天。(通過上面導出圖形,我們可以看到圖形的顏色長度是不同的帐姻,這個問題要如何解決稠集,暫時沒有找到好的方法。在ggtree繪制中自己也遇到這里的問題饥瓷。如果在的圖形軟件中無法解決剥纷,只能通過后期解決。)
2.7.4 重新文章中圖形
那么如何繪制類似的圖形呢呢铆?根據(jù)前期的參數(shù)晦鞋,只需要進一步優(yōu)化即可。
- 主圖
(1) 將圖形性狀選擇圓形
(2) 調(diào)整Root Angle
和Angle Rangle
調(diào)整到適合的形狀棺克。
-
分類附圖
在這個圖中悠垛,我個人將其進化樹分為進化樹分類附圖。這個圖也是使用的Figtree進行繪制娜谊。具體操作如下所示确买。
-
選擇分類圖形
-
調(diào)整參數(shù)
-
樹枝的寬度可以寬1-2個size
- 調(diào)整自己喜歡的
Trabsform Branches
-
繼續(xù)調(diào)整
--
注意:
進化樹的分支,主圖和附圖要一致纱皆。為了進一步確定明確兩個圖的一致性湾趾,建議直接在附圖中,對分支進行填充顏色派草。操作與上述一致搀缠。
2.7.5 AI合并美化
- 打開AI
-
新建圖形
-
導入進化樹圖形
-
Ctrl + R
打開AI中的標尺、拖出x軸或Y軸參考線
-
調(diào)整半圓進化樹近迁,做到“橫平豎直”
-
Ctrl + A
全選艺普,選擇圖形,Ctrl + C
進行復制钳踊,或直接進行拖拽到新建圖形中衷敌。 - 調(diào)整適合的圖形大小,調(diào)整時拓瞪,一直按住
shuft
缴罗,避免圖形橫縱大小改變。
-
建議祭埂,在圖形中如有新的圖形產(chǎn)出面氓,建議每個新的圖形都新建立一個圖層兵钮,利于后期的修改。
-
隨后就進行進化的調(diào)整舌界,我們在這里掘譬,需要對AI有一定的基礎知識,才可以呻拌。比如葱轩,如何隨意修改圖形的形狀,類似圖例所示藐握。這里操作很繁瑣靴拱,具體操作自己進行。
-
導入進化樹分支
-
如何線條太細猾普,可以進行調(diào)整適合粗細袜炕。
-
分支添加顏色
新建圖形
-
選擇橢圓工具
-
繪制橢圓,調(diào)整適合的分支位置和的添加分支顏色
-
適當?shù)恼{(diào)整顏色
-
依次繪繪制即可
-
字體調(diào)整(如果在圖形中梯子較小初家,也可以在AI中調(diào)整)
使用選擇工具偎窘,選擇調(diào)整字體,直接進行修改即可溜在。
-
調(diào)整圖形大小
-
最終出圖
-
也可以直接間監(jiān)矩形進化樹進行進行合并陌知,相比育德圓形或半圓,調(diào)整顏色柱就很容易炕泳,直接拉成一樣長度即可纵诞。
--
細節(jié)自己調(diào)整。
2.8 目的基因結(jié)構(gòu)可視化
需要文件:
- 目的基因注釋文件(GFF or GTF)
- 進化樹文件(可選)
2.8.1 使用ID和基因組注釋文件繪制
- 使用TBtools直接操作培遵,依次點擊:
Gene Structure View
結(jié)果如圖所示:
2.8.2 提取目的基因的注釋文件(推薦)
我們會發(fā)現(xiàn)浙芙,輸入ID
處也是可以輸入進化樹文件信息。因此籽腕,我們推薦直接提取獲得目的基因的注釋文件信息嗡呼,單獨使用GTF文件信息或是GFF信息進行繪制。
- 獲得GFF注釋信息
使用已有的目的基因的ID與基因組注釋文件進行匹配獲得皇耗。
cat Araport11_GTF_genes_transposons.current.gtf | grep -wf TAR11.test.id > TAR11.test.gtf
$ cat Araport11_GTF_genes_transposons.current.gtf | grep -wf TAR11.test.id | head
Chr1 Araport11 mRNA 18935301 18937665 . + . transcript_id "AT1G51110.1"; gene_id "AT1G51110";
Chr1 Araport11 CDS 18935380 18935673 . + 0 transcript_id "AT1G51110.1"; gene_id "AT1G51110";
Chr1 Araport11 CDS 18935743 18935796 . + 0 transcript_id "AT1G51110.1"; gene_id "AT1G51110";
Chr1 Araport11 CDS 18935908 18935982 . + 0 transcript_id "AT1G51110.1"; gene_id "AT1G51110";
Chr1 Araport11 CDS 18936083 18936205 . + 0 transcript_id "AT1G51110.1"; gene_id "AT1G51110";
Chr1 Araport11 CDS 18936278 18936469 . + 0 transcript_id "AT1G51110.1"; gene_id "AT1G51110";
Chr1 Araport11 CDS 18936552 18936635 . + 0 transcript_id "AT1G51110.1"; gene_id "AT1G51110";
Chr1 Araport11 CDS 18936723 18936815 . + 0 transcript_id "AT1G51110.1"; gene_id "AT1G51110";
Chr1 Araport11 CDS 18936903 18936956 . + 0 transcript_id "AT1G51110.1"; gene_id "AT1G51110";
Chr1 Araport11 CDS 18937039 18937118 . + 0 transcript_id "AT1G51110.1"; gene_id "AT1G51110";
進化樹獲得
同上的方法獲得MEMExml or MAST.xml文件
同上-
繪圖
依次提交相關(guān)的文件即可
2.9 進化樹南窗、Motifs、結(jié)構(gòu)域郎楼、基因結(jié)構(gòu)合圖繪制
以上的操作万伤,都可以獲得單張圖形,那么如何多圖繪制在一起呢呜袁?TBtools也提供了相關(guān)的教程,TBtools | 多圖合一至強版教程敌买!進化樹 + Motifs + 結(jié)構(gòu)域 + 啟動子 + 基因結(jié)構(gòu) + ....,我們可以根據(jù)此教程進操作阶界。具體如下:
獲得結(jié)果(來自CJ教程):
2.10 圖形美化
到這里虹钮,我們的整張圖形就可以獲得聋庵。但是,只是這樣的話芙粱,我覺得自己的這個教程就沒有意義祭玉。我前面說過,我的這個教程重點是圖形美化春畔。自己是更喜歡脱货,TBtools單張出圖的類型,然后進行AI或PS美化的拐迁。軟件默認的顏色蹭劈,我自己不是很喜歡,但是也可以自己調(diào)整线召,也是很方便的哦。
2.10.1 TBtools圖形顏色的調(diào)整
我們這里只是隨意進行調(diào)整多矮,圖形無任何意義缓淹。
-
步驟一、點擊圖形中的方塊塔逃、右鍵
- 調(diào)整色塊
3讯壶、選擇先要的色塊、點擊Selecteed
4湾盗、更改成功
但是你會大發(fā)現(xiàn)伏蚊,圖中所有一樣的顏色色塊都會改變。
類似的功能格粪、自己逐漸去摸索躏吊。
2.10.2 單張出圖
如果上面的方式?jīng)]有很好實現(xiàn)自己想要的效果。那么帐萎,我們就只能單張出圖比伏、后面再進行合并。
注意:在繪圖時疆导,我們的要提前想好自己的文章或這張圖的顏色設置赁项,以及圖形的色調(diào)是屬于什么類型的。理論上澈段,一整篇文章圖形色調(diào)和類型要保持一致悠菜。
如果,在后期的調(diào)整中败富。圖形顏色需要重新調(diào)整悔醋,我們可使用AI進行調(diào)整或是重新繪制,少量還是比較方便囤耳,但是圖形又大有多篙顺,重畫是很奔潰的事情偶芍。
三、IA圖形美化
美化德玫,我羅列出單個章節(jié)進行講解匪蟀。表明,是很重要的宰僧。以及材彪,圖形的美化,需要不斷學習和模范大牌期刊的圖形類型琴儿,以及自己要時刻進行總結(jié)和創(chuàng)新段化。對于創(chuàng)新,這個就比較玄學造成,每個人的審美不同显熏,邏輯不同,關(guān)注點不同.......導致最終看到的點也不同晒屎。因此喘蟆,我們在不是很離譜的創(chuàng)作中,結(jié)合自己的審美進行美化即可鼓鲁。我們要堅信:審美蕴轨。首先要符合自己,其次骇吭,再考慮別人橙弱。只有自己先認同,你才有可能讓其他人也認同燥狰!
3.1 使用工具
1.推薦使用的工具:AI棘脐、PS
如果不知道類似軟件的,自己百度碾局。
- 如何安裝
- 有錢人:購買正版
- 窮人(和我一樣):薅羊毛荆残,使用破解版
- 如何獲取安裝包
在本公眾號中回復關(guān)鍵詞獲得。
- PS安裝包關(guān)鍵詞:
PS
- AI安裝包關(guān)鍵詞:
AI
或是你自己尋找相關(guān)版本的安裝包即可净当。
提示:請自己輸入正確的關(guān)鍵詞(每次看到有些同學們的關(guān)鍵詞内斯,真的很無語......)
3.2 實際操作
- 打開AI,新建圖層
A4
-
導入進化樹像啼,適當調(diào)整進化樹的寬度和字體大小
- 依次導入的目的基因的motif俘闯、基因結(jié)構(gòu)域等圖形。并依次按進化樹基因名進行排序即可忽冻。
- 為后期的圖形的整齊性真朗,我們使用參考線進行對齊,便于后期的調(diào)整僧诚。
注意:這里看到我們的motif的圖形顏色很難看遮婶,這就是前期沒有考慮顏色的結(jié)果蝗碎。因此,我一直強調(diào)旗扑,文章圖形顏色統(tǒng)一的重要性祥诽,圖形顏色搭配合理亲雪,你的論文已經(jīng)成功1/3了。
換一種顏色就感覺好多了呀谭跨。 -
添加基因結(jié)構(gòu)圖
添加圖形的操作都是一樣的飘庄,不做多贅述让簿。
- 如何美化
對于美化检吆,每個人的要求不一致种玛,只要符合你的審美即可。我們在這里就直接添加漸變色致燥。 -
新建一個圖層
新建圖層置于最底層登疗。
-
選擇圖形工具
-
利用進化樹的分支,將其進行分類
-
填充顏色(根據(jù)自己的喜好)
-
更改透明圖
-
漸變色
- 不透明度:60
-
中間位置:10-50%
結(jié)合實際情況調(diào)節(jié)嫌蚤。
-
最后圖形
圖形很多細節(jié)需要自己耐心調(diào)節(jié)谜叹,這里只是做示范,相對比較粗糙搬葬。
四、多物種共線分析
共線分析依舊是使用TBtools艳悔,哈哈哈哈急凰,做基因家族TBtools可以幫你完成80%的生信分析。毫不夸張!!!!!
TBtools共線分析的教程很多猜年,我們以零基礎多物種間共線性分析教程作為參考(也不是作為參考了抡锈,是直接按他的步驟進行操作)。其他參考教程:全基因組共線性分析乔外、無限個床三!物種共線性分析結(jié)果可視化、任何人杨幼!一鍵完成物種間的共線性分析與可視化撇簿。
4.1 需要文件
- 參考基因組fa文件
-
注釋文件GFF or GTF
TBtools可以對無限個作物進行共線分析,牛2罟骸K奶薄!
4.2 染色體統(tǒng)一命名
在這個教程中欲逃,有這樣的一個步驟找蜜,如果你需要,你就進行操作稳析。
-
gtf文件進行ID prefix
-
fa文件進行ID prefix
4.3 實操
- 打開
one step MCScanx
小程序
-
輸入兩個作物的文件信息
- 點擊開始
Start
- 如果是多個作物洗做,那么依次進行兩兩比較弓叛。比如:共線結(jié)果是以這樣的順序:Tomato-LA-Arabidopsis
比對順序:
- Tomato-LA
- LA-Arabidopsis
- 比對結(jié)果GFF文件合并
- 打開
Text Merge for MCScanX
程序
合并多個的MCScanX的結(jié)果文件中的GFF文件
拖拽文件
6.比對結(jié)果ChrLayout.tab.xls
文件合并
- 比對結(jié)果
geneLinks.tab.xls
文件合并
同上操作! -
合并文件
最終獲得以下3個文件诚纸,用于繪制圖形撰筷。
- 要在共線中顯色的基因ID
Solyc03g062790.3.1
Solyc10g018590.2.1
Solyc01g104320.4.1
Solyc03g083420.4.1
AT4G22240.1
AT2G35490.1
AT1G51110.1
AT5G53450.3
........
- 繪圖。打開
Multiple synteny plot
輸入?yún)?shù)
輸出圖形
注意咬清,在輸出圖形中闭专,我們可以看到作物染色體位置是有改變的。那么旧烧,如何更改呢影钉?回答:直接更改Chr文件即可。
更改這里的順序即可掘剪!
五平委、同源目標基因元件預測
目標基因的元件預測,我們這里主要介紹使用兩個網(wǎng)站進行夺谁。
5.1 提取目標基因上游2000bp
參考教程順式作用元件預測和新的可視化方式廉赔、植物啟動子-順式作用元件-批量提取-預測-可視化分析,同樣是使用TBtools操作匾鸥。
- 需要文件
- 作物參考基因組fa文件
- 注釋文件GFF or GTF
- 目標基因ID
-
直接使用TBtools中的
Gtf /Gff3 Sequences Extractor
獲得每個基因的fa序列
輸出文件
點擊Initalize
蜡塌,選擇CDS
選擇上游2000bp的fa序列
-
目標基因的fa序列,打開
Fasta Extract or Filter (Quick)
輸出結(jié)果文件:
-
查看信息是否正確勿负,打開
Fasta Stats
-
轉(zhuǎn)換序列(全部為大寫)馏艾,打開
Sequence Manipulate (Rev&Comp
5.2 提交預測網(wǎng)址進行順式作用預測
預測,這里使用兩個網(wǎng)站進行預測奴愉,分別是PlantCare
和PLCAE
琅摩。
5.2.1 使用Plantcare進行預測
網(wǎng)址:http://bioinformatics.psb.ugent.be/webtools/plantcare/html/
-
上傳序列后,Plant可以提供你自己的郵箱锭硼,運行結(jié)束后房资,結(jié)果直接發(fā)送到你的郵箱中。
-
郵箱中獲得結(jié)果檀头,根據(jù)你的序列多少轰异,10分鐘以上吧!
-
結(jié)果
-
使用execl打開后
1. 基因ID鳖擒;
2. 順式作用元件名稱溉浙;
3. 順式作用元件序列;
4. 順式作用元件的起始位置蒋荚;
5. 順式作用元件的長度戳稽;
6. 順式作用元件所在的鏈的方向;
7. 物種名;
8. 順式作用元件所在的功能分類惊奇;
刪除某些不需要的結(jié)果:
需要刪除:
1. 剔除第2列為空的行
2. 剔除第2列為unnamed的行
3. 最后一列互躬,無功能作用的
具體刪除的數(shù)據(jù),根據(jù)自己的分析來做颂郎。
最后吼渡,可以刪除掉1000行以內(nèi)
--
來自順式作用元件預測和新的可視化方式,這個意見有重要的參考意義乓序。如果不合并寺酪,導致元件的作用太多,繪制出的圖形顏色太雜替劈,且不好看寄雀。
-
繪圖
繪圖前還需要準備基因的長度文件
輸入數(shù)據(jù),設置參數(shù)
結(jié)果:
在TBtools中也可以輸入進化樹文件陨献。
我們這里也可以使用的起那么AI中的呢進化樹進行模板進行美化盒犹。
5.2.2 PLACE進行預測
網(wǎng)址:https://www.dna.affrc.go.jp/PLACE/?action=newplace
- 缺點:PLACE一次最大只能輸入20條基因序列,有一定的限制性眨业。獲得結(jié)果為網(wǎng)頁版急膀,如要整理,只能手動整理或使用腳本進行整理龄捡。
- 優(yōu)點:速度快卓嫂!
-
獲得結(jié)果
每個基因為單獨的,需要自己整理聘殖。
- 只給元件名稱命黔、開始位置、序列就斤、功能(SITE,需要點擊進去才可以看到)
- 整理蘑辑,單獨粘貼復制到execl中洋机,并使用腳本進行整理。
選擇哪個網(wǎng)站進行預測洋魂,取決于自己绷旗。只要結(jié)果符合我們自己的預期結(jié)果即可!8笨场衔肢!
5.2.3 熱圖可視化
輸入數(shù)據(jù)格式如下(可以根據(jù)自己的情況篩選):
腳本:
install.packages('tidyverse')
intall.packages('RColorBrewer')
# 加載包
library(tidyverse)
library(RColorBrewer)
# 1.讀取數(shù)據(jù)
df <- read_tsv('data.txt', col_names = F) %>% select(1,2)
# 2.整理數(shù)據(jù)
tidy <- df %>%
group_by(X1, X2) %>%
summarise(number = n()) %>%
arrange(desc(number))
# 3.查看數(shù)量分布,確定配色個數(shù)
summary(tidy$number)
# 最大值為9豁翎,所以下面的代碼 hcl.colors(9, "RdYlGn")中為9
# 4.畫圖
ggplot(tidy, aes(x = X2, y = X1, fill = number)) +
geom_tile(color = 'black') +
geom_text(aes(label = number),col='black',cex = 1.5) +
scale_fill_gradientn(colors = rev(hcl.colors(9, "RdYlGn"))) +
scale_x_discrete(position = "top")+
theme_bw() +
theme(axis.text.x = element_text(angle = 90, hjust = 0),
axis.title = element_blank(),
axis.text = element_text(size = 7, color = 'black'))
# 通過修改 scale_fill_gradientn參數(shù)給每一個值指定顏色
cc <- c('#d9d9d9', '#f7fcb9', '#d9f0a3', '#addd8e', '#78c679', '#feb24c', '#fd8d3c', '#fc4e2a', '#b10026')
ggplot(tidy, aes(x = X2, y = X1, fill = number)) +
geom_tile(color = 'black') +
geom_text(aes(label = number),col='black',cex = 2.5) +
scale_fill_gradientn(colors = cc) +
scale_x_discrete(position = "top")+
theme_bw() +
theme(axis.text.x = element_text(angle = 90, hjust = 0),
axis.title = element_blank(),
axis.text = element_text(size = 7, color = 'black'))
5.2.4 美化
基于AI進行美化角骤,方法同上
六 ENDING
說實話,基因家族的文章分析確實消耗的時間和精力不算是很多。生信部分就差不多這些吧邦尊!再加上一些組學的數(shù)據(jù)來驗證即可背桐。除了生信的部分,剩余就是實驗來驗證蝉揍,將兩者進行結(jié)合链峭,好一點的文章也可以發(fā)。我自己前面沒有接觸過基因家族的分析又沾,因此弊仪,本次就是現(xiàn)學現(xiàn)做,做的還是比較簡單杖刷。
本次來接觸基因家族的分析励饵,感觸最深的就是,TBtools真的很強大挺勿∏幔基因家族的分析、畫圖都可以使用它來完成不瓶。不得了啊禾嫉,真的是將做生信的門檻一降再降,點贊點贊
本期內(nèi)容是自己的做了一個整理蚊丐,算是“教程搬運工”熙参,也是自己在做分析后做的總結(jié)。自己不知道麦备,這次分析后孽椰,多久以后還能涉及基因家族的分析×莞荩總結(jié)總結(jié)J蜇摇! 但是呛梆,說實話锐涯!這個總結(jié)也花費自己很長的時間,如果你想獲得這個教程的文本文檔填物,可以“喜歡點贊纹腌,支持”,我在后臺看到后會第一時間將文檔鏈接發(fā)給你V突恰升薯!
小杜的生信筆記,主要發(fā)表或收錄生物信息學的教程击困,以及基于R的分析和可視化(包括數(shù)據(jù)分析涎劈,圖形繪制等);分享感興趣的文獻和學習資料!!