GEMINI軟件使用介紹--連續(xù)純合子片段分析

軟件名:GEMINI

版本號(hào):0.20.2-dev

1. 軟件用途綜述

GEMINI (GEnome MINIng)是一款基因組變異挖掘軟件。該軟件依賴強(qiáng)大的注釋文件毫别,故僅適用于人基因組分析。該軟件在進(jìn)行分析時(shí)是將遺傳變異、表型该编、基因型及注釋信息整合形成SQLite數(shù)據(jù)庫(kù)向抢,在此基礎(chǔ)上進(jìn)行種類(lèi)多樣的分析蔓涧。改軟件使用范圍很廣:家系分析(新生突變、常染色體顯性遺傳突變笋额、常染色體銀杏果遺傳突變)、群體分析篷扩、成對(duì)樣本腫瘤分析兄猩。

網(wǎng)址:http://gemini.readthedocs.io/en/latest/content/installation.html

2. 分析原理

該軟件上游可以是VCF也可以使PED格式。該軟件在進(jìn)行分析時(shí)是將遺傳變異鉴未、表型枢冤、基因型及注釋信息整合形成SQLite數(shù)據(jù)庫(kù),在此基礎(chǔ)上進(jìn)行種類(lèi)多樣的分析铜秆。該軟件自帶很多數(shù)據(jù)庫(kù)淹真,如ENCODE tracks, UCSC tracks, OMIM, dbSNP, KEGG, HPRD等,整合了注釋功能连茧。

image.png

3. 實(shí)現(xiàn)方法

3.1 使用示例

1)軟件安裝:

wget https://github.com/arq5x/gemini/raw/master/gemini/scripts/gemini_install.py
python gemini_install.py $tools  $data
PATH=$tools/bin:$data/anaconda/bin:$PATH
$ gemini update --dataonly --extra cadd_score
$ gemini update --dataonly --extra gerp_bp
#其中$tools是軟件安裝路徑核蘸,$data是軟件數(shù)據(jù)庫(kù)所在路徑。

2)分析前準(zhǔn)備:

GEMINI的上游輸入文件為VCF或者ped文件啸驯。0.12.2以后的版本需要對(duì)VCF文件進(jìn)行預(yù)處理客扎,如分解多于兩個(gè)allele的變異位點(diǎn)并用VT工具包進(jìn)行格式化。該數(shù)據(jù)庫(kù)也對(duì)將用于VCF注釋的數(shù)據(jù)庫(kù)文件進(jìn)行了同樣的處理罚斗,具體如下:

  1. If working with GATK VCFs, you need to correct the AD INFO tag definition to play nicely with vt.
  2. Decompose the original VCF such that variants with multiple alleles are expanded into distinct variant records; one record for each REF/ALT combination.
  3. Normalize the decomposed VCF so that variants are left aligned and represented using the most parsimonious alleles.
  4. Annotate with VEP or snpEff.
  5. bgzip and tabix.

流程如下:

*# setup*
VCF=/path/to/my.vcf
NORMVCF=/path/to/my.norm.vcf.gz
REF=/path/to/human.b37.fasta
SNPEFFJAR=/path/to/snpEff.jar
*# decompose, normalize and annotate VCF with snpEff.*
*# NOTE: can also swap snpEff with VEP*
zless $VCF  **\**
 | sed 's/ID=AD,Number=./ID=AD,Number=R/'  **\**
 | vt decompose -s - **\**
 | vt normalize -r $REF - **\**
 | java -Xmx4G -jar $SNPEFFJAR GRCh37.75 **\**
 | bgzip -c > $NORMVCF
tabix -p vcf $NORMVCF
*# load the pre-processed VCF into GEMINI*
gemini load --cores 3 -t snpEff -v $NORMVCF  $db
*# query away*
gemini query -q "select chrom, start, end, ref, alt, (gts).(*) from variants"  **\**
 --gt-filter "gt_types.mom == HET and \
 gt_types.dad == HET and \
 gt_types.kid == HOM_ALT"  **\**
 $db

3)使用示例

將待分析VCF導(dǎo)入 數(shù)據(jù)庫(kù):

gemini load -v snp.filter.vcf --cores 8 test.db

ROH分析:

gemini roh --min-snps 50 --min-gt-depth 20 --min-size 1000000 -s S138 test.db

3.2 程序說(shuō)明

該程序可以輸入文件可以是VCF格式(單樣本或者群體均可)或者是ped格式徙鱼,該程序可調(diào)用VEP 或者snpEff進(jìn)行注釋?zhuān)士山邮芪醋⑨尩奈募部梢越邮茏⑨尯蟮奈募胱耍饕獏?shù)說(shuō)明如下

-v 待分析VCF袱吆;
--cores 導(dǎo)入vcf時(shí)使用的線程數(shù)
Roh roh分析

3.3軟件參數(shù)詳細(xì)說(shuō)明

gemini roh --min-snps 50 \ROH****包含的****SNP****數(shù)
--min-gt-depth 20 *樣本的最低深度*
--min-size 1000000 \ROH****的最小片段長(zhǎng)度
-s S138 *樣本名*
roh_run.db \vcf****導(dǎo)入后的數(shù)據(jù)庫(kù)名

3.4 結(jié)果展示及說(shuō)明

chrom start end sample num_of_snps density_per_kb run_length_in_bp
chr2 233336080 234631638 S138 2583 1.9953 1295558
chr2 238341281 239522281 S138 2899 2.4555 1181000

注:結(jié)果是屏幕輸出,中間還夾雜著log日志距淫,如下圖所示:


image.png
  1. chrom:染色體
  2. start:變異位點(diǎn)在染色體上的起始位置
  3. end:變異位點(diǎn)在染色體上的終止位置
  4. sample:樣本名
  5. num_of_snps:roh內(nèi)的snp數(shù)目
  6. density_per_kb:?jiǎn)挝婚L(zhǎng)度上的密度
  7. run_length_in_bp:roh長(zhǎng)度

4. 注意事項(xiàng)

a) GEMINI solely supports human genetic variation mapped to build 37 (aka hg19) of the human genome.
b) GEMINI is very strict about adherence to VCF format 4.1.
c) For best performance, load and query GEMINI databases on the fastest hard drive to which you have access.
d) 軟件安裝時(shí)需要下載數(shù)據(jù)庫(kù)绞绒,安裝時(shí)自帶月15G數(shù)據(jù)庫(kù),額外還需要下載兩個(gè)數(shù)據(jù)庫(kù):CADD(39G)和GERP(7G)
e) 該軟件注釋需要VEP 或者snpEff
f) 該軟件要輸入VCF嚴(yán)格要求vcf4.1
g) 該軟件在分析前需要將VCF導(dǎo)入SQL數(shù)據(jù)庫(kù)榕暇,一個(gè)723M的vcf需要16h处铛!
h) 該軟件安裝需要依賴

  1. Python 2.7.x
  2. git
  3. wget
  4. a working C / C++ compiler such as gcc
  5. zlib (including headers)

5. 軟件相關(guān)文獻(xiàn)引用

Paila U, Chapman BA, Kirchner R, Quinlan AR (2013)GEMINI: Integrative Exploration of Genetic Variation and Genome Annotations.PLoS Comput Biol 9(7): e1003153. doi:10.1371/journal.pcbi.1003153

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市拐揭,隨后出現(xiàn)的幾起案子撤蟆,更是在濱河造成了極大的恐慌,老刑警劉巖堂污,帶你破解...
    沈念sama閱讀 212,816評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件家肯,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡盟猖,警方通過(guò)查閱死者的電腦和手機(jī)讨衣,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,729評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門(mén)换棚,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人反镇,你說(shuō)我怎么就攤上這事固蚤。” “怎么了歹茶?”我有些...
    開(kāi)封第一講書(shū)人閱讀 158,300評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵夕玩,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我惊豺,道長(zhǎng)燎孟,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,780評(píng)論 1 285
  • 正文 為了忘掉前任尸昧,我火速辦了婚禮揩页,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘烹俗。我一直安慰自己爆侣,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,890評(píng)論 6 385
  • 文/花漫 我一把揭開(kāi)白布幢妄。 她就那樣靜靜地躺著累提,像睡著了一般。 火紅的嫁衣襯著肌膚如雪磁浇。 梳的紋絲不亂的頭發(fā)上斋陪,一...
    開(kāi)封第一講書(shū)人閱讀 50,084評(píng)論 1 291
  • 那天,我揣著相機(jī)與錄音置吓,去河邊找鬼无虚。 笑死,一個(gè)胖子當(dāng)著我的面吹牛衍锚,可吹牛的內(nèi)容都是我干的友题。 我是一名探鬼主播,決...
    沈念sama閱讀 39,151評(píng)論 3 410
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼戴质,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼度宦!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起告匠,我...
    開(kāi)封第一講書(shū)人閱讀 37,912評(píng)論 0 268
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤戈抄,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后后专,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體划鸽,經(jīng)...
    沈念sama閱讀 44,355評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,666評(píng)論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了裸诽。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片嫂用。...
    茶點(diǎn)故事閱讀 38,809評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖丈冬,靈堂內(nèi)的尸體忽然破棺而出嘱函,到底是詐尸還是另有隱情,我是刑警寧澤埂蕊,帶...
    沈念sama閱讀 34,504評(píng)論 4 334
  • 正文 年R本政府宣布往弓,位于F島的核電站,受9級(jí)特大地震影響粒梦,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜荸实,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,150評(píng)論 3 317
  • 文/蒙蒙 一匀们、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧准给,春花似錦泄朴、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,882評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至畔规,卻和暖如春局扶,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背叁扫。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,121評(píng)論 1 267
  • 我被黑心中介騙來(lái)泰國(guó)打工三妈, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人莫绣。 一個(gè)月前我還...
    沈念sama閱讀 46,628評(píng)論 2 362
  • 正文 我出身青樓畴蒲,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親对室。 傳聞我的和親對(duì)象是個(gè)殘疾皇子模燥,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,724評(píng)論 2 351

推薦閱讀更多精彩內(nèi)容