坐標(biāo)轉(zhuǎn)換困境
一些公開(kāi)發(fā)表的論文中及很多數(shù)據(jù)庫(kù)中經(jīng)常提到變異荣刑,一般變異的表現(xiàn)形式有三種:1)基因組坐標(biāo):2)cDNA 坐標(biāo)谦纱;3)蛋白氨基酸坐標(biāo)沉颂。舉個(gè)例子TP53上的某個(gè)變異的基因組坐標(biāo)是g.chr17:74026C>A个初,cDNA坐標(biāo)是c.1001G>T沈堡,蛋白氨基酸坐標(biāo)是p.G334V。在數(shù)據(jù)分析的過(guò)程中經(jīng)常會(huì)遇到這三種坐標(biāo)相關(guān)轉(zhuǎn)換的情況浪听,例如你從文獻(xiàn)或者某個(gè)數(shù)據(jù)庫(kù)中收集到了幾百個(gè)腫瘤靶向藥的用藥位點(diǎn)螟碎,而你在你樣本中檢測(cè)到了很多變異,想知道你的樣本中包含多少收集到的已知的用藥位點(diǎn)迹栓。但通常文獻(xiàn)或者數(shù)據(jù)庫(kù)會(huì)以第二種或者第三種形式表示變異抚芦,而我們自己檢測(cè)的變異通常會(huì)以vcf格式存儲(chǔ),這樣就無(wú)法直接匹配迈螟。當(dāng)然可以對(duì)vcf格式的變異進(jìn)行ANNOVAR注釋叉抡,然后對(duì)cDNA或者蛋白氨基酸坐標(biāo)形式的變異進(jìn)行比較,但嘗試過(guò)的人都表示特別痛苦:需要考慮的規(guī)則太多答毫!嘗試兩次褥民,還是放棄了:一是匹配規(guī)則不通用;二是總擔(dān)心有沒(méi)有考慮到過(guò)的情況洗搂。所以急需一個(gè)能完成這種坐標(biāo)轉(zhuǎn)換的工具消返。15年發(fā)表在NATURE METHODS上的題為:TransVar: a multilevel variant annotator for precision genomics的文章中推出了一款名為TransVar的軟件成了解決不同層面變異坐標(biāo)轉(zhuǎn)換的神器。下面小編就介紹一下這款軟件(Linux版)耘拇,沒(méi)有Linux基礎(chǔ)的也不用擔(dān)心撵颊,后續(xù)會(huì)寫一篇基于Web版TransVar進(jìn)行注釋(坐標(biāo)轉(zhuǎn)換)的文章。
TransVar軟件簡(jiǎn)介
Transvar 是一款多種方向的突變/坐標(biāo)轉(zhuǎn)換工具惫叛,它支持基因組坐標(biāo)倡勇、cDNA 坐標(biāo)以及蛋白氨基酸坐標(biāo)之間的轉(zhuǎn)換。
如上圖所示嘉涌,該軟件的功能可細(xì)分為下面3種:
1)正向注釋:對(duì)于基因組坐標(biāo)的變異進(jìn)行mRNA(cDNA)和蛋白注釋妻熊,這款工具會(huì)提供所有的可能結(jié)果;
2)反向注釋:將mRNA(cDNA)坐標(biāo)和蛋白坐標(biāo)的變異轉(zhuǎn)換成所有可能基因組坐標(biāo)形式的變異仑最;
3)等價(jià)注釋:對(duì)于某一給定的蛋白坐標(biāo)的變異扔役,搜索所有可能的與其為相同基因組坐標(biāo),但在不同轉(zhuǎn)錄本上的蛋白坐標(biāo)變異警医。
軟件下載和安裝:
軟件下載地址:
1亿胸,舊版(最近沒(méi)有在更新):https://bitbucket.org/wanding/transvar/src/master/
2坯钦,新版(一直在更新):https://github.com/zwdzwd/transvar
按照方法如下:
sudo pip install transvar ## 全局安裝,需要root權(quán)限
或者:
pip install --user transvar ##用戶安裝侈玄,沒(méi)有root權(quán)限的用此方法
軟件更新:
pip install -U transvar
這款軟件在安裝后要自己配置數(shù)據(jù)庫(kù)操作起來(lái)也比較簡(jiǎn)單:
# set up databases
transvar config --download_anno --refversion hg19 #默認(rèn)的hg19的 dbSNP 數(shù)據(jù)庫(kù)是2016年的婉刀,部分?jǐn)?shù)據(jù)庫(kù)如dbSNP新版數(shù)據(jù)庫(kù)收錄內(nèi)容有很大變化(主要是數(shù)量的提升),所以建議自行重新下載
# in case you don't have a reference
transvar config --download_ref --refversion hg19
# in case you do have a reference to link
transvar config -k reference -v [path_to_hg19.fa] --refversion hg19
需要注意的是直接使用Transvar的命令下載數(shù)據(jù)庫(kù)容易因網(wǎng)絡(luò)問(wèn)題出錯(cuò)拗馒,導(dǎo)致下載的數(shù)據(jù)庫(kù)是不完整的(不報(bào)錯(cuò)的路星,是個(gè)深坑K萁帧)可以到http://transvar.info/transvar_user/annotations/直接下載后進(jìn)行配置诱桂。
軟件的使用
這款軟件即可以單點(diǎn)注釋,也可以批量處理呈昔,下面分別介紹一下:
單點(diǎn)注釋用 -i傳入待注釋位點(diǎn)挥等,包括3種:
# 基因組正向注釋
transvar ganno --ccds -i 'chr3:g.178936091G>A'
# cDNA反向注釋
transvar canno --ccds -i 'PIK3CA:c.1633G>A'
# 氨基酸反向注釋
transvar panno -i 'PIK3CA:p.E545K' --ensembl
# 其中--ccds、--ensembl為使用不同的數(shù)據(jù)庫(kù)堤尾,如網(wǎng)頁(yè)版肝劲,可以同時(shí)多選,\
# 如 --ccds --ensembl --refseq --ucsc 來(lái)進(jìn)行多選
批量注釋:
/*/software/anaconda3/bin/transvar canno -l mutiation.canno.list -m 1 -o 2 --refseq --longestcoding --gseq
###
canno:指cDNA反向注釋郭宝,備選包括panno( 蛋白氨基酸反向注釋)和ganno(基因組正向注釋)
-l:輸入文件辞槐,變異與canno、panno粘室、ganno對(duì)應(yīng)榄檬。格式示例如下:
![image.png](https://upload-images.jianshu.io/upload_images/22041438-ba466242c2050f60.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
-m:-l指定的輸入文件可以有多列,通過(guò)-m指定哪列是待注釋列衔统,不加-m參數(shù)默認(rèn)是第一列
-o:同時(shí)可以通過(guò)-o來(lái)指定-l中的那一列作為輸出文件的首列鹿榜,不加-o,默認(rèn)是第一列
--refseq:使用哪個(gè)數(shù)據(jù)庫(kù)的轉(zhuǎn)錄本進(jìn)行注釋锦爵,還有其他數(shù)據(jù)庫(kù)可選如 ensembl/gencode/ucsc/ccds/aceview等舱殿。
--longestcoding: 有多個(gè)轉(zhuǎn)錄本時(shí),僅選擇最長(zhǎng)的轉(zhuǎn)錄本险掀。如果不加這個(gè)參數(shù)會(huì)把涉及到的所有轉(zhuǎn)錄本都輸出出來(lái)沪袭,這時(shí)候你就要自己制定標(biāo)準(zhǔn)進(jìn)行篩選了
--gseq :在輸出文件中增加類似VCF格式的變異信息,包括染色體樟氢,起始位置枝恋,終止位置,參考基因組序列嗡害,突變后的序列焚碌。
軟件官方教程
官網(wǎng):https://transvar.readthedocs.io/en/latest/
這里有對(duì)軟件詳細(xì)的介紹,這里就不贅述了霸妹,想深入研究的可以去官網(wǎng)看看十电。
說(shuō)在最后的
transvar 在轉(zhuǎn)換時(shí)總會(huì)有很多損失,個(gè)人經(jīng)驗(yàn)損失主要來(lái)自于兩部分:
1,輸出結(jié)果中沒(méi)有該變異鹃骂,直接被丟掉了台盯;
2,輸出結(jié)果中有該變異畏线,但在你選擇的數(shù)據(jù)庫(kù)中沒(méi)有這個(gè)轉(zhuǎn)錄本静盅,提示“no_valid_transcript_found”。
為了盡量提高成功轉(zhuǎn)換的比例可以做如下嘗試:
1寝殴,用所有能用的庫(kù)去注釋蒿叠,不過(guò)還是建議以一個(gè)庫(kù)的結(jié)果為準(zhǔn),把其它庫(kù)包含但該庫(kù)不包含的變異加上蚣常;
2市咽,對(duì)于longestcoding沒(méi)有成功去掉該參數(shù)后再嘗試,然后自行選一個(gè)靠譜的轉(zhuǎn)錄本抵蚊,如果不知道該怎么選就隨機(jī)選一個(gè)施绎;
3,如果你拿到的變異信息有對(duì)應(yīng)的轉(zhuǎn)錄本贞绳,選取與所提供的轉(zhuǎn)錄本一致的數(shù)據(jù)庫(kù)谷醉,分析時(shí)不加--longestcoding,然后根據(jù)轉(zhuǎn)錄本信息對(duì)轉(zhuǎn)換結(jié)果進(jìn)行匹配冈闭,這種是準(zhǔn)確性最高的俱尼。
原創(chuàng)文字,如果覺(jué)得對(duì)你有幫助留下你的贊哦~