transvar變異坐標(biāo)轉(zhuǎn)換 - Linux篇

坐標(biāo)轉(zhuǎn)換困境

一些公開(kāi)發(fā)表的論文中及很多數(shù)據(jù)庫(kù)中經(jīng)常提到變異荣刑,一般變異的表現(xiàn)形式有三種:1)基因組坐標(biāo):2)cDNA 坐標(biāo)谦纱;3)蛋白氨基酸坐標(biāo)沉颂。舉個(gè)例子TP53上的某個(gè)變異的基因組坐標(biāo)是g.chr17:74026C>A个初,cDNA坐標(biāo)是c.1001G>T沈堡,蛋白氨基酸坐標(biāo)是p.G334V。在數(shù)據(jù)分析的過(guò)程中經(jīng)常會(huì)遇到這三種坐標(biāo)相關(guān)轉(zhuǎn)換的情況浪听,例如你從文獻(xiàn)或者某個(gè)數(shù)據(jù)庫(kù)中收集到了幾百個(gè)腫瘤靶向藥的用藥位點(diǎn)螟碎,而你在你樣本中檢測(cè)到了很多變異,想知道你的樣本中包含多少收集到的已知的用藥位點(diǎn)迹栓。但通常文獻(xiàn)或者數(shù)據(jù)庫(kù)會(huì)以第二種或者第三種形式表示變異抚芦,而我們自己檢測(cè)的變異通常會(huì)以vcf格式存儲(chǔ),這樣就無(wú)法直接匹配迈螟。當(dāng)然可以對(duì)vcf格式的變異進(jìn)行ANNOVAR注釋叉抡,然后對(duì)cDNA或者蛋白氨基酸坐標(biāo)形式的變異進(jìn)行比較,但嘗試過(guò)的人都表示特別痛苦:需要考慮的規(guī)則太多答毫!嘗試兩次褥民,還是放棄了:一是匹配規(guī)則不通用;二是總擔(dān)心有沒(méi)有考慮到過(guò)的情況洗搂。所以急需一個(gè)能完成這種坐標(biāo)轉(zhuǎn)換的工具消返。15年發(fā)表在NATURE METHODS上的題為:TransVar: a multilevel variant annotator for precision genomics的文章中推出了一款名為TransVar的軟件成了解決不同層面變異坐標(biāo)轉(zhuǎn)換的神器。下面小編就介紹一下這款軟件(Linux版)耘拇,沒(méi)有Linux基礎(chǔ)的也不用擔(dān)心撵颊,后續(xù)會(huì)寫一篇基于Web版TransVar進(jìn)行注釋(坐標(biāo)轉(zhuǎn)換)的文章。

TransVar軟件簡(jiǎn)介

Transvar 是一款多種方向的突變/坐標(biāo)轉(zhuǎn)換工具惫叛,它支持基因組坐標(biāo)倡勇、cDNA 坐標(biāo)以及蛋白氨基酸坐標(biāo)之間的轉(zhuǎn)換。


image.png

如上圖所示嘉涌,該軟件的功能可細(xì)分為下面3種:
1)正向注釋:對(duì)于基因組坐標(biāo)的變異進(jìn)行mRNA(cDNA)和蛋白注釋妻熊,這款工具會(huì)提供所有的可能結(jié)果;
2)反向注釋:將mRNA(cDNA)坐標(biāo)和蛋白坐標(biāo)的變異轉(zhuǎn)換成所有可能基因組坐標(biāo)形式的變異仑最;
3)等價(jià)注釋:對(duì)于某一給定的蛋白坐標(biāo)的變異扔役,搜索所有可能的與其為相同基因組坐標(biāo),但在不同轉(zhuǎn)錄本上的蛋白坐標(biāo)變異警医。

軟件下載和安裝:

軟件下載地址:
1亿胸,舊版(最近沒(méi)有在更新):https://bitbucket.org/wanding/transvar/src/master/
2坯钦,新版(一直在更新):https://github.com/zwdzwd/transvar
按照方法如下:

sudo pip install transvar ## 全局安裝,需要root權(quán)限
或者:
pip install --user transvar ##用戶安裝侈玄,沒(méi)有root權(quán)限的用此方法
軟件更新:
pip install -U transvar

這款軟件在安裝后要自己配置數(shù)據(jù)庫(kù)操作起來(lái)也比較簡(jiǎn)單:

# set up databases
transvar config --download_anno --refversion hg19 #默認(rèn)的hg19的 dbSNP 數(shù)據(jù)庫(kù)是2016年的婉刀,部分?jǐn)?shù)據(jù)庫(kù)如dbSNP新版數(shù)據(jù)庫(kù)收錄內(nèi)容有很大變化(主要是數(shù)量的提升),所以建議自行重新下載

# in case you don't have a reference
transvar config --download_ref --refversion hg19

# in case you do have a reference to link
transvar config -k reference -v [path_to_hg19.fa] --refversion hg19

需要注意的是直接使用Transvar的命令下載數(shù)據(jù)庫(kù)容易因網(wǎng)絡(luò)問(wèn)題出錯(cuò)拗馒,導(dǎo)致下載的數(shù)據(jù)庫(kù)是不完整的(不報(bào)錯(cuò)的路星,是個(gè)深坑K萁帧)可以到http://transvar.info/transvar_user/annotations/直接下載后進(jìn)行配置诱桂。

軟件的使用

這款軟件即可以單點(diǎn)注釋,也可以批量處理呈昔,下面分別介紹一下:
單點(diǎn)注釋用 -i傳入待注釋位點(diǎn)挥等,包括3種:

# 基因組正向注釋
transvar ganno --ccds -i 'chr3:g.178936091G>A' 
 # cDNA反向注釋
transvar canno --ccds -i 'PIK3CA:c.1633G>A'
# 氨基酸反向注釋
transvar panno -i 'PIK3CA:p.E545K' --ensembl 
# 其中--ccds、--ensembl為使用不同的數(shù)據(jù)庫(kù)堤尾,如網(wǎng)頁(yè)版肝劲,可以同時(shí)多選,\
# 如 --ccds --ensembl --refseq --ucsc 來(lái)進(jìn)行多選

批量注釋:

/*/software/anaconda3/bin/transvar canno -l mutiation.canno.list  -m 1 -o 2  --refseq --longestcoding --gseq 
###
canno:指cDNA反向注釋郭宝,備選包括panno( 蛋白氨基酸反向注釋)和ganno(基因組正向注釋)
-l:輸入文件辞槐,變異與canno、panno粘室、ganno對(duì)應(yīng)榄檬。格式示例如下:
![image.png](https://upload-images.jianshu.io/upload_images/22041438-ba466242c2050f60.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
-m:-l指定的輸入文件可以有多列,通過(guò)-m指定哪列是待注釋列衔统,不加-m參數(shù)默認(rèn)是第一列
-o:同時(shí)可以通過(guò)-o來(lái)指定-l中的那一列作為輸出文件的首列鹿榜,不加-o,默認(rèn)是第一列
--refseq:使用哪個(gè)數(shù)據(jù)庫(kù)的轉(zhuǎn)錄本進(jìn)行注釋锦爵,還有其他數(shù)據(jù)庫(kù)可選如 ensembl/gencode/ucsc/ccds/aceview等舱殿。
--longestcoding: 有多個(gè)轉(zhuǎn)錄本時(shí),僅選擇最長(zhǎng)的轉(zhuǎn)錄本险掀。如果不加這個(gè)參數(shù)會(huì)把涉及到的所有轉(zhuǎn)錄本都輸出出來(lái)沪袭,這時(shí)候你就要自己制定標(biāo)準(zhǔn)進(jìn)行篩選了
--gseq :在輸出文件中增加類似VCF格式的變異信息,包括染色體樟氢,起始位置枝恋,終止位置,參考基因組序列嗡害,突變后的序列焚碌。

軟件官方教程

官網(wǎng):https://transvar.readthedocs.io/en/latest/
這里有對(duì)軟件詳細(xì)的介紹,這里就不贅述了霸妹,想深入研究的可以去官網(wǎng)看看十电。

image.png

說(shuō)在最后的

transvar 在轉(zhuǎn)換時(shí)總會(huì)有很多損失,個(gè)人經(jīng)驗(yàn)損失主要來(lái)自于兩部分:
1,輸出結(jié)果中沒(méi)有該變異鹃骂,直接被丟掉了台盯;
2,輸出結(jié)果中有該變異畏线,但在你選擇的數(shù)據(jù)庫(kù)中沒(méi)有這個(gè)轉(zhuǎn)錄本静盅,提示“no_valid_transcript_found”。
為了盡量提高成功轉(zhuǎn)換的比例可以做如下嘗試:
1寝殴,用所有能用的庫(kù)去注釋蒿叠,不過(guò)還是建議以一個(gè)庫(kù)的結(jié)果為準(zhǔn),把其它庫(kù)包含但該庫(kù)不包含的變異加上蚣常;
2市咽,對(duì)于longestcoding沒(méi)有成功去掉該參數(shù)后再嘗試,然后自行選一個(gè)靠譜的轉(zhuǎn)錄本抵蚊,如果不知道該怎么選就隨機(jī)選一個(gè)施绎;
3,如果你拿到的變異信息有對(duì)應(yīng)的轉(zhuǎn)錄本贞绳,選取與所提供的轉(zhuǎn)錄本一致的數(shù)據(jù)庫(kù)谷醉,分析時(shí)不加--longestcoding,然后根據(jù)轉(zhuǎn)錄本信息對(duì)轉(zhuǎn)換結(jié)果進(jìn)行匹配冈闭,這種是準(zhǔn)確性最高的俱尼。

原創(chuàng)文字,如果覺(jué)得對(duì)你有幫助留下你的贊哦~

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末拒秘,一起剝皮案震驚了整個(gè)濱河市号显,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌躺酒,老刑警劉巖押蚤,帶你破解...
    沈念sama閱讀 218,122評(píng)論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異羹应,居然都是意外死亡揽碘,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,070評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門园匹,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)雳刺,“玉大人,你說(shuō)我怎么就攤上這事裸违∫磋耄” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 164,491評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵供汛,是天一觀的道長(zhǎng)枪汪。 經(jīng)常有香客問(wèn)我涌穆,道長(zhǎng),這世上最難降的妖魔是什么雀久? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,636評(píng)論 1 293
  • 正文 為了忘掉前任宿稀,我火速辦了婚禮,結(jié)果婚禮上赖捌,老公的妹妹穿的比我還像新娘祝沸。我一直安慰自己,他們只是感情好越庇,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,676評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布罩锐。 她就那樣靜靜地躺著,像睡著了一般悦荒。 火紅的嫁衣襯著肌膚如雪唯欣。 梳的紋絲不亂的頭發(fā)上嘹吨,一...
    開(kāi)封第一講書(shū)人閱讀 51,541評(píng)論 1 305
  • 那天搬味,我揣著相機(jī)與錄音,去河邊找鬼蟀拷。 笑死碰纬,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的问芬。 我是一名探鬼主播悦析,決...
    沈念sama閱讀 40,292評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼此衅!你這毒婦竟也來(lái)了强戴?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,211評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤挡鞍,失蹤者是張志新(化名)和其女友劉穎骑歹,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體墨微,經(jīng)...
    沈念sama閱讀 45,655評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡道媚,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,846評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了翘县。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片最域。...
    茶點(diǎn)故事閱讀 39,965評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖锈麸,靈堂內(nèi)的尸體忽然破棺而出镀脂,到底是詐尸還是另有隱情,我是刑警寧澤忘伞,帶...
    沈念sama閱讀 35,684評(píng)論 5 347
  • 正文 年R本政府宣布薄翅,位于F島的核電站钞馁,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏匿刮。R本人自食惡果不足惜僧凰,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,295評(píng)論 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望熟丸。 院中可真熱鬧训措,春花似錦、人聲如沸光羞。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,894評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)纱兑。三九已至呀闻,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間潜慎,已是汗流浹背捡多。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,012評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留铐炫,地道東北人垒手。 一個(gè)月前我還...
    沈念sama閱讀 48,126評(píng)論 3 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像倒信,于是被迫代替她去往敵國(guó)和親科贬。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,914評(píng)論 2 355