kggseq軟件用于測序后下游分析

  • 官網(wǎng):http://grass.cgs.hku.hk/limx/kggseq/

  • kggseq軟件是一款功能強(qiáng)大的測序后下游分析軟件党晋,現(xiàn)簡要列舉其功能如下,以備查詢授段。

1. 質(zhì)控(Quality Control)

  1. 對基因型的質(zhì)控(Genotype QC)
    參數(shù)如下:


  2. 對位點(diǎn)的質(zhì)控(Variant QC)
    參數(shù)如下:


    image.png

    image.png
  3. 對樣本的質(zhì)控(Sample QC)
    可以使用kggseq軟件把vcf轉(zhuǎn)換為plink格式進(jìn)行質(zhì)控,包括 (pairwise relatedness, mendel error rate and sex check)
java -jar kggseq.jar --vcf-file path-to-file1 --ped-file path/to/file2 <Variants and Genotype QC Settings> --db-merge <Reference genotype set> --o-plink-bed 
plink --bfile kggseq.merged --genome
plink --bfile kggseq --mendel
plink --bfile kggseq --check-sex
  • 也可以畫MAF分布圖
java -jar kggseq.jar --vcf-file path-to-file1 --out path/to/prefixname --mafplot
java -jar kggseq.jar --vcf-file path-to-file1 --ped-file path/to/file2  --db-filter hg18_dbsnp138,hg18_dbsnp141 --allele-freq 0,0.01 --o-vcf path/to/file3

2. 過濾(Filtering)

  1. 使用--genotype-filter參數(shù),后面加上數(shù)字伏尼,數(shù)字對應(yīng)意義如下:


    image.png
  • 使用--double-hit-gene-trio-filter 或 --double-hit-gene-phased-filter參數(shù)提取復(fù)合雜合或者隱形突變位點(diǎn)
java -jar ./kggseq.jar --buildver hg19 --vcf-file path/to/file1 --ped-file path/to/file2 --db-gene refgene --gene-feature-in 0,1,2,3,4,5,6 --db-filter 1kg201204,dbsnp137,ESP6500AA,ESP6500EA  --rare-allele-freq 0.033 --db-score dbnsfp --mendel-causing-predict best --double-hit-gene-trio-filter (OR --double-hit-gene-phased-filter)
  1. 使用基因特征過濾(Gene feature filtering)
    參數(shù):--db-gene & --gene-feature-in (兩個(gè)參數(shù)分別選擇數(shù)據(jù)庫和基因特征)
java -jar ./kggseq.jar  --buildver hg19 --vcf-file path/to/file1 --ped-file path/to/file2 --dgv-cnv-annot --splicing 6 --db-gene refgene,gencode,knowngene --gene-feature-in 0,1,2,3,4,5,6 

基因特征代號如下:


image.png
  1. 使用公共數(shù)據(jù)庫的基因型頻率進(jìn)行過濾(--db-filter)
java -jar ./kggseq.jar --buildver hg19 --vcf-file path/to/file1 --ped-file path/to/file2  --db-filter 1kg201204,dbsnp141,ESP6500AA,ESP6500EA  --rare-allele-freq 0.005 --db-filter-hard dbsnp138nf

也可以對本地?cái)?shù)據(jù)進(jìn)行頻率過濾(--local-filter-hard)

  1. 過濾掉重復(fù)區(qū)域(--superdup-filter)或者注釋這些區(qū)域(--superdup-annot)
java -jar ./kggseq.jar --buildver hg19 --vcf-file path/to/file1 --ped-file path/to/file2 --superdup-filter
  1. 過濾掉indel,某些基因或某些區(qū)域
  • --ignore-indel
  • --ignore-snv
  • --genes-out
  • --regions-out
  1. 過濾掉假基因等其他因素造成的變異位點(diǎn)過多的基因(--gene-var-filter)
java -jar ./kggseq.jar --buildver hg19 --vcf-file path/to/file1 --ped-file path/to/file2 [options to filter out common and neutral variants] --gene-var-filter 4
  1. 過濾掉實(shí)驗(yàn)組/對照組獨(dú)有的位點(diǎn)(--filter-model case-unique or --filter-model control-unique)
java -jar ./kggseq.jar --buildver hg19  --vcf-file path/to/file1 --ped-file path/to/file2 --filter-model case-unique 

3. 注釋(Annotation)

  • 能注釋的信息包括:
  1. SNP rs號(--rsid)
  2. 選擇性剪切位點(diǎn)(--scsnv-annot)
  3. 該位點(diǎn)是否位于CNV區(qū)域(--dgv-cnv-annot)
  4. 該位點(diǎn)是否與感興趣的基因在同一蛋白通路上(--candi-list gene1,gene2,...,geneN --ppi-annot ppiDatabase )
  5. 該位點(diǎn)是否與感興趣的基因在同一基因通路上(--candi-list gene1,gene2,...,geneN --geneset-annot GenesetDatabase )
  6. 該位點(diǎn)最近的基因?qū)?yīng)的小鼠表型(--mouse-pheno)
  7. 該位點(diǎn)最近的基因?qū)?yīng)的斑馬魚表型(--zebrafish-pheno)
  8. 該位點(diǎn)最近的基因?qū)?yīng)的疾病表型(--ddd-annot)
  9. 該位點(diǎn)最近的基因在pubmed數(shù)據(jù)庫中的相關(guān)文獻(xiàn)(--phenotype-term searchTerm and --pubmed-mining)
java -jar kggseq.jar --vcf-file path/to/file1 --ped-file path/to/file2 --phenotype-term search+Term1,search+Term2 --pubmed-mining

PubMedIDIdeogram : PubMed ID of articles in which the term and the cytogeneic position of the variant are co-mentioned
PubMedIDGene : PubMed ID of articles in which the term and the gene containing the variant are co-mentioned
  1. 該位點(diǎn)對應(yīng)基因在OMIM數(shù)據(jù)庫中的疾病術(shù)語( --omim-annot)
  2. 該位點(diǎn)在COSMIC數(shù)據(jù)庫中的注釋信息(--cosmic-annot)

4. 位點(diǎn)功能的預(yù)測(Prediction at variant)

主要包括數(shù)據(jù)庫:i.e., SIFT, PolyPhen2, GWAVA and CADD

  1. 預(yù)測孟德爾疾病致病位點(diǎn)(--db-score dbnsfp --mendel-causing-predict)
java -jar kggseq.jar --vcf-file path/to/file1 --ped-file path/to/file2 --db-score dbnsfp --mendel-causing-predict best --filter-nondisease-variant

該方法通過對位點(diǎn)進(jìn)行邏輯回歸建模尉尾,評估前10個(gè)AUC曲線來確定候選位點(diǎn)爆阶。
也可以指定數(shù)據(jù)庫進(jìn)行打分預(yù)測(--mendel-causing-predict 4,6,7)

  1. 預(yù)測癌癥中的高頻體細(xì)胞突變(--db-score dbnsfp --cancer-mut-predict)
  2. 預(yù)測復(fù)雜疾病的致病位點(diǎn)
  • 對非編碼位點(diǎn)使用10個(gè)數(shù)據(jù)庫進(jìn)行打分預(yù)測(--db-score dbncfp_known [or dbncfp_all] --regulatory-causing-predict )
    10個(gè)數(shù)據(jù)庫包括:SuRFR、GWAS3D、FunSeq2辨图、FATHMM-MKL班套、FunSeq、DANN故河、CADD_CScore吱韭、 GWAVA_Unmatched、GWAVA_TSS鱼的、GWAVA_Region理盆。
  • 通過添加細(xì)胞類型特異性調(diào)控甲基化分子標(biāo)記預(yù)測致病基因(--db-score dbncfp_known [or dbncfp_all] --regulatory-causing-predict all --cell)
  • 數(shù)據(jù)庫資源包括(1)16 ENCODE cell types,默認(rèn)采用GM12878細(xì)胞系凑阶。
    (2)127 RoadMap human reference epigenomes 猿规,默認(rèn)采用E116 (GM12878 Lymphoblastoid Cell Line)
java -jar kggseq.jar --vcf-file path/to/file1 --db-score dbncfp_known --regulatory-causing-predict all --cell GM12878 
java -jar kggseq.jar --vcf-file path/to/file1 --db-score dbncfp_known --regulatory-causing-predict all --cell E116 
  1. 基因特征特異性模型(--db-score dbncfp_known [or dbncfp_all] --ldgf-func-predict)
    用10個(gè)數(shù)據(jù)庫的打分預(yù)測非編碼區(qū)位點(diǎn)的致病情況

5. 針對基因的預(yù)測(Prediction at gene)

  1. 基因的致病性預(yù)測(--patho-gene-predict)
    通過對Clinical Genomic Database數(shù)據(jù)庫的打分耿焊,得到基因的致病打分软驰。
java -jar kggseq.jar --vcf-file path/to/file1 --ped-file path/to/file2 --out path/to/prefixname --excel --db-gene refgene --patho-gene-predict 
  1. 表型挖掘(--phenotype-term searchTerm and --phenolyzer-prediction)
    通過使用phenolyzer工具對表型相關(guān)基因進(jìn)行排序族淮,尋找到候選基因庶溶。
java -jar kggseq.jar --vcf-file path/to/file1 --ped-file path/to/file2 --out path/to/prefixname --excel --db-gene refgene --phenotype-term searchTerm1,searchTerm2 --phenolyzer-prediction
  1. 組織特異性表達(dá)(--tissue-spec-annot)
    使用GTEx數(shù)據(jù)庫注釋基因的表達(dá)情況截歉。
java -jar kggseq.jar --vcf-file path/to/file1 --ped-file path/to/file2 --out path/to/prefixname --excel --db-gene refgene --tissue-spec-annot 

6. 統(tǒng)計(jì)檢驗(yàn)

  1. 癌癥驅(qū)動(dòng)基因的負(fù)荷檢驗(yàn)-ITER或者WITER或者WITER-ref方法(--iter-gene-coding)
java -jar witer.jar --maf-file path/to/file1.maf --out path/to/prefixname [other tags] --iter-gene-coding
java -jar witer.jar --maf-file path/to/file1.maf --out path/to/prefixname [other tags] --witer-gene-coding
java -jar witer.jar --maf-file path/to/file1.maf --out path/to/prefixname [other tags] --witer-gene-coding  --ref-mut-file path/to/referenceDataset --cancer-label XXX
  1. 復(fù)雜疾病易感基因罕見突變位點(diǎn)負(fù)荷檢驗(yàn)RUNER方法(--runer-gene-coding)
java -jar witer.jar --nt 6 [or more threads] --vcf-file path/to/file1 --ped-file path/to/file2 \
--out path/to/prefixname [or other tags] --excel --qqplot --gty-qual 20.0 --gty-sec-pl 20 --gty-dp 8 --gty-af-ref 0.05 \
--gty-af-het 0.25 --gty-af-alt 0.75 --ignore-indel --vcf-filter-in PASS --min-obs-rate 0.9 --hwe-all 0.001 \
--max-allele 3 --db-gene refgene,gencode  --db-filter gadexome.[an ancestry tag],gadgenome.[an ancestry tag],1kgeas201305 \
--rare-allele-freq 0.01   --gene-freq-score [an ancestry tag] \
--db-score dbnsfp --disease-causing-predict best --runer-gene-coding 
  • 也可以選擇編碼區(qū)等位點(diǎn)進(jìn)行分析( --response-gene-feature 2,3,4,5,6)
  • 負(fù)荷檢驗(yàn)后可以挖掘最相關(guān)的文獻(xiàn)(--phenotype-term [disease name] --pubmed-mining-top-gene 10)
  • 不將位點(diǎn)功能打分加入負(fù)荷檢驗(yàn)?zāi)P停?-uwruner-gene-coding)
  • 使用本地control樣本的頻率進(jìn)行檢驗(yàn)(--gene-freq-score CONTROL)
  • 加入其它協(xié)變量進(jìn)行檢驗(yàn)( --gene-cov-file),如:
Gene    score1  score1 ...
SAMD11  2.114   0.076914032 ...
NOC2L   2.345   0.046528595 ...
KLHL17  1.989   0.026329064 ...
PLEKHN1 2.2 0.047853652 ...
... ... ... ...

7. 對位點(diǎn)的關(guān)聯(lián)分析

  1. 卡方檢驗(yàn)(--var-assoc)
java -jar ./kggseq.jar --buildver hg19  --var-assoc --p-value-cutoff 0.01 --multiple-testing benfdr --qqplot
  1. 使用 Rvtests軟件的score, wald, exact, dominantExact, famLRT, famScore, famGrammarGamma 和 firth models等模型進(jìn)行檢驗(yàn)( --rvtest-var)
java -jar ./kggseq.jar --rvtest-var score,wald,exact,... --rvtest-vcf --rvtest-remove-set \
--vcf-file path/to/vcf/file --ped-file path/to/pedigree/file --phe phenotypeName \
--cov covariateName1,covariateName2,...,covariateNameN \
--out path/to/prefixname --excel --db-gene refgene 

8. 對基因的關(guān)聯(lián)分析

  1. 使用SKAT軟件以基因?yàn)閱挝贿M(jìn)行檢驗(yàn)(--skat-gene)
    包括SKAT,SKATO 和 Burden test算法厢绝。
java -jar ./kggseq.jar  --skat-gene --vcf-file path/to/vcf/file --ped-file path/to/pedigree/file \
--phe phenotypeName --cov covariateName1,covariateName2,...,covariateNameN \
--out path/to/prefixname --excel \
--db-gene refgene [--p-value-cutoff 0.01 --multiple-testing benfdr --qqplot]
  1. 使用Rvtests(--rvtest-gene)軟件進(jìn)行檢驗(yàn)
java -jar ./kggseq.jar --rvtest-gene cmc,cmat,price,skat[nPerm=1000:alpha=0.001:beta1=1:beta2=20],... --rvtest-vcf \
--rvtest-remove-set --vcf-file path/to/vcf/file --ped-file path/to/pedigree/file --phe phenotypeName \
--cov covariateName1,covariateName2,...,covariateNameN \
--out path/to/prefixname --excel --db-gene refgene 
  1. 使用SKAT軟件進(jìn)行基因通路分析(--skat-geneset)
java -jar ./kggseq.jar  --skat-geneset --geneset-file path/to/geneset/file --vcf-file path/to/vcf/file \
--ped-file path/to/pedigree/file --phe phenotypeName \
--cov covariateName1,covariateName2,...,covariateNameN \
--out path/to/prefixname --excel \
--db-gene refgene [--p-value-cutoff 0.01 --multiple-testing benfdr --qqplot]

基因通路需要存放在一個(gè)txt文件中炸庞,格式如下:
注:如果報(bào)錯(cuò)最欠,可能是因?yàn)槲募竺嬗锌招信缓酰堄?--lib-update命令更新KGGSeq到最新版积担,或直接刪除空行即可。

[Column 1: GeneSet ID]
[Column 2: GeneSet URL]
[Column 3..N: Gene Symbols in the geneset; separated by spaces].
No title row is required!!!
e.g.,
----------------------------------------------
KEGG_GLYCOLYSIS_GLUCONEOGENESIS http://www.broadinstitute.org/KEGG_GLYCOLYSIS_GLUCONEOGENESIS.html LDHC LDHB LDHA
KEGG_CITRATE_CYCLE_TCA_CYCLE http://www.broadinstitute.org/KEGG_CITRATE_CYCLE_TCA_CYCLE.html GJB1 OGDHL OGDH PDHB IDH3G LDHB
...
...
  1. 使用RVTEST軟件進(jìn)行基因通路分析(--rvtest-geneset)
    最新版的 kggseq增加了參數(shù)--rvtest-min-var 2 可以去除位點(diǎn)小于2的基因猬仁。
java -jar ./kggseq.jar  --rvtest-geneset cmc,skato[nPerm=1000:alpha=0.001:beta1=1:beta2=20],... --rvtest-vcf \
--rvtest-remove-set --geneset-file path/to/geneset/file --vcf-file path/to/vcf/file \
--ped-file path/to/pedigree/file --phe phenotypeName --cov covariateName1,covariateName2,...,covariateNameN \
--out path/to/prefixname --excel \
--db-gene refgene [--p-value-cutoff 0.01 --multiple-testing benfdr --qqplot]

  1. 基因富集分析(--geneset-enrichment-test)
    查看給定的基因是否在某些給定的基因通路上排在前列
java -jar kggseq.jar --vcf-file path/to/file1 --ped-file path/to/file2 --out path/to/prefixname [other tags] --geneset-enrichment-test
java -jar kggseq.jar --vcf-file path/to/file1 --ped-file path/to/file2 --out path/to/prefixname --db-filter 1kg201204,dbsnp137,ESP6500AA,ESP6500EA  --rare-allele-freq 0.01  --db-gene refgene --gene-mutation-rate-test --geneset-enrichment-test --geneset-db <GenesetDatabase>

可以自己設(shè)定通路基因(--geneset-file path/to/geneset/file)

9. 簡單的畫圖功能

  1. MAF柱形圖(reference dataset --mafplot-ref or in sample --mafplot-sample)
java -jar kggseq.jar --vcf-file path/to/file1 --ped-file path/to/file2 --out path/to/prefixname --db-filter 1kg201204,dbsnp141,ESP6500AA,ESP6500EA  --allele-freq 0,1  --mafplot-ref
java -jar kggseq.jar --vcf-file path/to/file1 --ped-file path/to/file2 --out path/to/prefixname  --mafplot-sample
  1. QQ圖
java -jar kggseq.jar --vcf-file path/to/file --out path/to/prefixname --qqplot --skat-gene [or] --var-assoc

10. 其他一些實(shí)用功能

  1. 計(jì)算LD和基因型相關(guān)性(--calc-ld)
java -Xmx15g -jar kggseq.jar --vcf-file path/to/file --ped-file path/to/file --out path/to/prefixname \
--calc-ld --db-filter 1kg201204,dbsnp141,ESP6500AA,ESP6500EA  \
--allele-freq 0.05,0.95   --regions-in chr4:21212-233454
  1. 刪除高LD的位點(diǎn)(--ld-prune X)
java -Xmx15g -jar kggseq.jar --vcf-file path/to/file \
--ped-file path/to/file --out path/to/prefixname \
--ld-prune 0.9 --filter-sample-maf-le 0.05 --o-svcf 
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末帝璧,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子湿刽,更是在濱河造成了極大的恐慌的烁,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件诈闺,死亡現(xiàn)場離奇詭異渴庆,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)雅镊,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進(jìn)店門襟雷,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人仁烹,你說我怎么就攤上這事耸弄。” “怎么了卓缰?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵计呈,是天一觀的道長砰诵。 經(jīng)常有香客問我,道長捌显,這世上最難降的妖魔是什么茁彭? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮苇瓣,結(jié)果婚禮上尉间,老公的妹妹穿的比我還像新娘。我一直安慰自己击罪,他們只是感情好哲嘲,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著媳禁,像睡著了一般眠副。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上竣稽,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天囱怕,我揣著相機(jī)與錄音,去河邊找鬼毫别。 笑死娃弓,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的岛宦。 我是一名探鬼主播台丛,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼砾肺!你這毒婦竟也來了挽霉?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤变汪,失蹤者是張志新(化名)和其女友劉穎侠坎,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體裙盾,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡实胸,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了闷煤。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片童芹。...
    茶點(diǎn)故事閱讀 37,997評論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖鲤拿,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情署咽,我是刑警寧澤近顷,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布生音,位于F島的核電站,受9級特大地震影響窒升,放射性物質(zhì)發(fā)生泄漏缀遍。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一饱须、第九天 我趴在偏房一處隱蔽的房頂上張望域醇。 院中可真熱鬧,春花似錦蓉媳、人聲如沸譬挚。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽减宣。三九已至,卻和暖如春玩荠,著一層夾襖步出監(jiān)牢的瞬間漆腌,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工阶冈, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留闷尿,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓女坑,卻偏偏與公主長得像填具,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子堂飞,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容

  • 劉小澤寫于18.9.22今天先更新一半??不管是轉(zhuǎn)錄組绰筛,還是芯片數(shù)據(jù)枢泰,或者其他有關(guān)基因的組學(xué)分析,每當(dāng)數(shù)據(jù)分析到后面...
    劉小澤閱讀 5,733評論 4 25
  • 一.對今日學(xué)人力資源管理的總結(jié): 打招聘電話及面試技巧: 1.接通電話后問是否方便接電話铝噩,工作是否落實(shí) 2.邀請來...
    上海細(xì)胞治療小雅閱讀 155評論 0 0
  • 有多少物,不舍得丟棄具被,暫時(shí)存放于某處玻募,卻在歲月的長河中漸漸被遺忘。被遺忘還是好的一姿,若哪一天又被翻到七咧,仍是帶來苦惱跃惫,...
    甘棠夜話閱讀 232評論 0 0
  • 為什么會(huì)有橋? 路走到頭了艾栋,沒有路便有了橋爆存。 聽說,人死后也要走過一座奈何橋蝗砾,忘記塵世的所有記憶先较,那一輩子翻篇了,...
    夏若禪閱讀 535評論 0 3
  • 人這一生啊,總要堅(jiān)持一些東西 堅(jiān)持做一些事情 堅(jiān)持喜歡一些人 盡管有時(shí)候 這些堅(jiān)持看起來有點(diǎn)傻 可是誰沒有傻傻的時(shí)...
    納西奇麒閱讀 211評論 0 0