寫在前面
如果說在濕實驗的主要研究方向上米碰,我還有沒太接觸的窝革,那么就是“跑大版膠”,開發(fā)分子標記吕座。于是虐译,這一塊相關功能,我并沒有太多想法開發(fā)吴趴。只是最近開始接觸一些群體遺傳相關教學漆诽,似乎不涉及也不行。講完課之后锣枝,有老師帶著可能是 10年前買的筆記本厢拭,問我一個 SSR 標記開發(fā)的軟件,為什么跑不起來撇叁。對這個老師不熟悉蚪腐,問了下,是校外其他單位的老師....咋說呢税朴?我還是有點驚訝,但也有點難受家制。
這個感覺跟久前寫「Sanger Check」的感覺類似正林。明明說好的,「TBtools」是「要降低生物信息數據分析門檻」颤殴,但仍然有很多人觅廓,因為這些簡單的問題,卡住了許久涵但,相關科研工作無法進一步杈绸,或者無法高效開展。到底還是我們工作沒做好矮瘟。索性瞳脓,趁著假期,我干脆就寫了一個澈侠。
SSR 微衛(wèi)星分子標記開發(fā)
SSR (Simple Sequence Repeats)劫侧,簡單來說,就是簡單序列重復,主要存在形式為 AAAAAAAAAA烧栋,TTTTTTTTTT写妥,.... 或 ATATATATAATATAT,ACACACACACACACACAC审姓,即由幾個核苷酸(一般為1~6個)為重復單位組成的長達幾十個核苷酸的串聯(lián)重復序列珍特。這類序列在不同材料中容易出現(xiàn)缺失插入。這個很好理解魔吐,DNA復制本身就容易出錯扎筒,尤其在這類簡單重復的序列上。如部分序列從某種角度來說画畅,容易形成一個相對復雜的二級結構砸琅,如 CCCGGGCCCGGGCCCGGGCCCGGG....。
依此轴踱,SSR分子標記設計時症脂,常見的操作,即擴增這段序列淫僻,以序列長度變化來區(qū)分不同材料诱篷。網絡上找了個圖,感興趣的可以看看
目前雳灵,大多數物種甚至一個物種內的不同材料都已經有基因組序列棕所,我們完全可以基于這些序列,直接從文本的角度挖掘出來這些位點悯辙,用于后續(xù)分子標記引物設計琳省。這塊相關功能的軟件,似乎有一些的躲撰,常見的是一款 misa.pl 的軟件针贬。這個軟件,在實現(xiàn)上拢蛋,有一定的缺陷桦他;運行上也比較慢。其他軟件谆棱,目前沒用過快压。
但事實上,這個工作很簡單垃瞧,本身就是一個正則表達式的問題蔫劣。當然,需要稍微處理一些比如一條1Gb大小的染色體進去个从,如何處理拦宣?
對于我來說,這個工作更簡單。前面已經寫過 “Sequence Pattern Locate”功能鸵隧,于是現(xiàn)在只需要指定 Pattern 就可以完成這個工作绸罗。當然,最重要的是豆瘫,咱們「TBtools」這個功能跑起來快珊蟀。
在測試上,一個擬南芥基因組序列進去外驱,64秒就挖掘出全部 SSR 了育灸。
SSRminer 的使用
Emmm,感覺最近寫的功能使用比以前都簡單... 打開方式如下
可以看到界面中參數幾乎只有一個
此處以擬南芥基因組為輸入來演示
大概 1 分鐘后昵宇,可以看到輸出目錄有對應輸出文件磅崭,單開可查看具體內容
事實上,這個文件瓦哎,微調一下砸喻,其實可以用 TBtools 的 Gene Location Advanced 或 Advanced Circos 功能進行全基因組可視化。此處不演示蒋譬。
寫在最后
于是割岛,「TBtools」的功能,又增加了一個犯助。無論如何癣漆,還是一個事情。當然「TBtools」希望降低生信數據分析門檻剂买;但「TBtools」的作者時間精力有限惠爽,對軟件感興趣的朋友,或許應該更多的先看一看「TBtools Cookbook」
《TBtools Cookbook》 - 寫給「TBtools」所有用戶的參考手冊
https://www.yuque.com/cjchen/hirv8i
你想知道的瞬哼,都在里面了:
- 軟件/數據庫的下載/更新
- 對應功能的使用說明與具體示例
- 常見問題 FAQ 及解決方案
- 如何有效提出 TBtools 使用問題從而快速獲得回復并得到解決