本文是“transvar變異坐標轉(zhuǎn)換 - Linux篇”http://www.reibang.com/p/0aa5cb6eefe2的姊妹篇徐鹤,專門寫給不熟悉Linux軟件的童鞋~
坐標轉(zhuǎn)換困境
一些公開發(fā)表的論文中及很多數(shù)據(jù)庫中經(jīng)常提到變異垃环,一般變異的表現(xiàn)形式有三種:1)基因組坐標:2)cDNA 坐標;3)蛋白氨基酸坐標返敬。舉個例子TP53上的某個變異的基因組坐標是g.chr17:74026C>A遂庄,cDNA坐標是c.1001G>T,蛋白氨基酸坐標是p.G334V劲赠。在數(shù)據(jù)分析的過程中經(jīng)常會遇到這三種坐標相關轉(zhuǎn)換的情況涛目,例如你從文獻或者某個數(shù)據(jù)庫中收集到了幾百個腫瘤靶向藥的用藥位點,而你在你樣本中檢測到了很多變異凛澎,想知道你的樣本中包含多少收集到的已知的用藥位點霹肝。但通常文獻或者數(shù)據(jù)庫會以第二種或者第三種形式表示變異,而我們自己檢測的變異通常會以vcf格式存儲塑煎,這樣就無法直接匹配沫换。當然可以對vcf格式的變異進行ANNOVAR注釋,然后對cDNA或者蛋白氨基酸坐標形式的變異進行比較最铁,但嘗試過的人都表示特別痛苦:需要考慮的規(guī)則太多讯赏!嘗試兩次垮兑,還是放棄了:一是匹配規(guī)則不通用;二是總擔心有沒有考慮到過的情況漱挎。所以急需一個能完成這種坐標轉(zhuǎn)換的工具系枪。15年發(fā)表在NATURE METHODS上的題為:TransVar: a multilevel variant annotator for precision genomics的文章中推出了一款名為TransVar的軟件成了解決不同層面變異坐標轉(zhuǎn)換的神器。下面小編就介紹一下這款軟件(Linux版)磕谅,沒有Linux基礎的也不用擔心私爷,后續(xù)會寫一篇基于Web版TransVar進行注釋(坐標轉(zhuǎn)換)的文章。
TransVar軟件簡介
Transvar 是一款多種方向的突變/坐標轉(zhuǎn)換工具怜庸,它支持基因組坐標当犯、cDNA 坐標以及蛋白氨基酸坐標之間的轉(zhuǎn)換。
如上圖所示割疾,該軟件的功能可細分為下面3種:
1)正向注釋:對于基因組坐標的變異進行mRNA(cDNA)和蛋白注釋嚎卫,這款工具會提供所有的可能結果;
2)反向注釋:將mRNA(cDNA)坐標和蛋白坐標的變異轉(zhuǎn)換成所有可能基因組坐標形式的變異宏榕;
3)等價注釋:對于某一給定的蛋白坐標的變異拓诸,搜索所有可能的與其為相同基因組坐標,但在不同轉(zhuǎn)錄本上的蛋白坐標變異麻昼。
網(wǎng)址
https://bioinformatics.mdanderson.org/transvar/
首頁如下:
使用介紹
1.正向注釋
所謂的“正向”就是將基因組坐標形式的變異作為檢索詞進行檢索奠支,我們以chr7:55259515T>G為例:
簡單介紹一下,1區(qū)域選擇哪種注釋方式抚芦;2區(qū)域選擇參考基因組版本倍谜;3區(qū)域選擇轉(zhuǎn)錄本注釋數(shù)據(jù)庫,可以選單個或者多個叉抡;4區(qū)如果需要批量注釋把檢索詞放到文件里尔崔,一行一個變異,然后上傳褥民;5區(qū)如果單個或少量位點進行檢索季春,就在該區(qū)域直接書寫;6都寫好了點submit提交消返。
如果不清檢索詞格式载弄,可以下拉主頁面,會有檢索詞示例:
檢索結果如下:
其中第一列為輸入的檢索詞撵颊;第2列為轉(zhuǎn)錄本名宇攻;第3列基因名;第4列表上該轉(zhuǎn)錄本是在正鏈還是負鏈倡勇;第5列就是具體的突變信息逞刷,有基因坐標的,cDNA坐標的以及蛋白氨基酸坐標的,可以看出基因坐標和我們檢索詞一致亲桥;第6列表示該變異在基因上的位置;第7列展示了其他信息固耘,其中最后一個字段source=XXX對應檢索頁面的數(shù)據(jù)庫题篷;
2.反向注釋
反向注釋包括以cDNA坐標為檢索詞和以蛋白氨基酸坐標為檢索詞兩種:
數(shù)據(jù)庫等其他選擇與正向一致,在這里就不贅述了厅目。需要強調(diào)的一點是檢索詞的格式番枚,cDNA的示例如下:
蛋白的示例如下:
3.等價注釋
等價注釋就是這里的codon search:
檢索詞還是要蛋白格式的,示例如下:
例如我們以“CDKN2A:p.R87P”為檢索詞损敷,結果如下: