biostar handbook(十)|如何進(jìn)行變異檢測

變異檢測流程

什么是基因組變異

基因組變異是一個(gè)定義比較模糊的概念. 所謂的變異是相對(duì)于一個(gè)完美的“參考基因組”而言萝映。但是其實(shí)完美的“參考基因組”并不存在,因?yàn)槲覀冎皇沁x擇某一個(gè)物種里的其中似乎比較正常的個(gè)體進(jìn)行測序組裝痢法,然后基于它進(jìn)行后續(xù)的研究萨脑。簡單的說究西,參考和變異是相對(duì)而言,變異也可能完全正常图云。

常見的基因組變異一般可以歸為如下幾類:

  • SNP惯悠, 單核苷酸多態(tài)性, 一個(gè)堿基的變化
  • INDEL,插入或缺失, 一個(gè)堿基的增加或移除
  • SNV竣况, 單核苷酸變異克婶,一個(gè)堿基的改變,可以是SNP,也可以是INDEL
  • MNP情萤, 多核苷酸多態(tài)性鸭蛙,一個(gè)區(qū)塊中有多個(gè)保守的SNP
  • MNV,多核苷酸變異筋岛,一個(gè)區(qū)塊中有多個(gè)SNP或INDEL
  • short variations, 小于50bp的變異
  • large-scale variation, 大于50bp的大規(guī)模變異
  • SV, 結(jié)構(gòu)變異娶视,通常是上千個(gè)堿基,甚至是染色體級(jí)別上的變異

研究這些變異需要用到不同的手段睁宰,其中普通的DNA二代測序在尋找20bp以下的變異比較靠譜肪获,對(duì)于大于1kb的結(jié)構(gòu)變異而言,采用光學(xué)圖譜(Bionanogenomics)可能更加靠譜一點(diǎn)柒傻。因此孝赫,對(duì)于目前最常用的二代測序而言,還是盡量就找SNP和INDEL吧红符,幾個(gè)堿基的變化找起來還是相對(duì)容易些和靠譜些青柄。

對(duì)于SNP的定義這里也要注意下,最初的SNP的定義指的是單個(gè)堿基導(dǎo)致的多態(tài)性违孝,在群體中廣泛存在(1%)刹前,可用來作為分子標(biāo)記來區(qū)分不同個(gè)體。目前的定義比較粗暴一點(diǎn)雌桑,就是那個(gè)和“參考基因組”不同的單個(gè)位點(diǎn)。值得注意的是祖今,這個(gè)概念可能不同人還有不同的定義校坑,當(dāng)你和別人就某個(gè)問題爭執(zhí)的時(shí)候,最好問問他是如何定義這個(gè)基本概念千诬。由于SNP的廣泛存在耍目,并且變異可能會(huì)導(dǎo)致疾病,也就是存在某些SNP會(huì)導(dǎo)致疾病徐绑。Online Mendelian Inheritance in Man,就是一個(gè)人類遺傳疾病數(shù)據(jù)庫邪驮,建議去看下。

最后說下genotype和haplotype傲茄。genotype毅访,基因型指的是一個(gè)個(gè)體的遺傳組成。但是對(duì)于基因組變異而言盘榨,基因型通常指的是個(gè)體在某個(gè)位點(diǎn)上的等位基因情況喻粹。haplotype, 單倍型最初指的是從單個(gè)親本中遺傳的一組基因,而在基因組變異背景下草巡,則是指一組變異守呜。

一次簡單的變異檢測實(shí)戰(zhàn)

變異檢測(variant calling)即通過比較參考序列和比對(duì)結(jié)果來找到兩者的不同并記錄,基本上可以分為如下幾步:

  • 序列比對(duì)
  • 比對(duì)后處理(可選)
  • 從聯(lián)配中確定變異
  • 根據(jù)某些標(biāo)準(zhǔn)進(jìn)行過濾
  • 對(duì)過濾的變異注釋

這里面的每一個(gè)可選的工具都有很多,不同工具組合后的分析流程得到的結(jié)果可能會(huì)有很大差異查乒。在變異檢測這一部分目前就有很多軟件弥喉,但是常用并且相對(duì)比較可靠的工具有如下幾個(gè):

當(dāng)然這些工具最初都是用于人類基因組。

以埃博拉基因組為例完成一次簡單的Variant Calling玛迄,所需工具為efetch, fastq-dump, emboss/seqret档桃,bwa, samtoolsFreeBayessnpEff。這些都可以通過conda快速安裝憔晒。

第一步: 獲取參考基因組序列藻肄,并建立索引

# 建立文件夾
mkdir -p refs
# 根據(jù)Accession下載
ACC=AF086833
REF=refs/$ACC.fa
efetch -db=nuccore -format=fasta -id=$ACC | seqret -filter -sid $ACC > $REF
bwa index $REF

第二步: 獲取需要比對(duì)的測序數(shù)據(jù), 以前10w條為例

# 僅要前10w條read
SRR=SRR1553500
fastq-dump -X 100000 --split-files $SRR

第三步:序列比對(duì)

BAM=$SRR.bam
R1=${SRR}_1.fastq
R2=${SRR}_2.fastq
TAG="@RG\tID:$SRR\tSM:$SRR\tLB:$SRR"
bwa mem -R $TAG $REF $R1 $R2 | samtools sort > $BAM
samtools index $BAM

第四步:使用freebayes或HaplotypeCaller(GATK4)檢測變異

freebayes -f $REF $BAM > ${SRR}_freebayes.vcf
gatk HaplotypeCaller -R $REF-I $BAM -stand-call-conf 30 \
    -bamout bamout.bam
    --genotyping-mode DISCOVERY
    -O ${SRR}_haplotypecaller.vcf

用IGV可視化的效果如下:

IGV對(duì)BAM和VCF文件進(jìn)行可視化

這是最簡單的變異檢測流程拒担,對(duì)于找到的變異還可以進(jìn)一步過濾嘹屯,這一部分內(nèi)容見call variant中關(guān)于snp篩選的一些思考

第五步:變異標(biāo)準(zhǔn)化(可選)

由于VCF文件的靈活性,同一種變異可以通過不同的形式表示, 如下圖

出自 "Unified representation of genetic variants"

變異標(biāo)準(zhǔn)化按照如下規(guī)則對(duì)變異位點(diǎn)表示進(jìn)行簡化

  • 盡可能以少的字符表示變異
  • 無等位基因可以標(biāo)識(shí)為長度為0
  • 變異位點(diǎn)必須左對(duì)齊

看起來很復(fù)雜从撼,其實(shí)操作起來很簡單

bcftools norm -f $REF SRR1553500_freebayes.vcf  > SRR1553500_freebayes_norm.vcf
# Lines   total/split/realigned/skipped:    493/0/0/0

大部分軟件州弟,如GATK, freebayes已經(jīng)是標(biāo)準(zhǔn)化的結(jié)果低零。

變異檢測那么簡單嗎婆翔?

經(jīng)過簡單的實(shí)戰(zhàn)之后,似乎變異檢測是一件非常容易的事情掏婶,只要敲幾行命令就行了啃奴。當(dāng)然最開始我也是想的,畢竟無知者無畏雄妥,但是了解的越多最蕾,你就會(huì)發(fā)現(xiàn)事情并沒有那么簡單。**大部分基因組相關(guān)的DNA序列有一些特性是人類的直覺所不能理解的老厌,因?yàn)檫@需要考慮一些背景瘟则。

  1. DNA序列可以非常的長
  2. A/T/G/C能夠構(gòu)建任意組合的DNA序列,因此在完全隨機(jī)情況下枝秤,即使隨機(jī)分配也能產(chǎn)生各種各樣的模式醋拧。
  3. DNA序列只有部分會(huì)受到隨機(jī)影響,基本上這部分序列都是有功能的淀弹。
  4. 不同物種的不同的DNA序列受到不同的隨機(jī)性影響
  5. 我們按照實(shí)驗(yàn)流程將大片段DNA破碎成小的部分丹壕,并嘗試通過和參考基因組比對(duì)找到原來的位置。只有它依舊和原來的位置非晨岩常靠近雀费,才能進(jìn)一步尋找變異。

因此即便序列和基因組某個(gè)序列非常接近痊焊,從算法的角度是正確比對(duì)盏袄,但其實(shí)偏離了原來正確的位置忿峻,那么從這部分找到的變異也是錯(cuò)誤的。那我們有辦法解決這個(gè)問題嘛辕羽?基本上不可能逛尚,除非技術(shù)進(jìn)步后,我們可以一次性通讀所有序列刁愿。當(dāng)然目前比較常用的方法是找到最優(yōu)變異绰寞,并且那個(gè)變異能更好的解釋問題,且和每條read中的變異都是一致的铣口。這就是目前變異檢測軟件常用策略:realignment或probabilistic alignment滤钱。

變異注釋

變異注釋意味著猜測遺傳變異(SNP, INDEL, CNY, SV)對(duì)基因功能,轉(zhuǎn)錄本和蛋白序列以及調(diào)控序列的影響脑题。為了對(duì)變異進(jìn)行預(yù)測件缸,預(yù)測軟件需要你提供基因組注釋信息,并且注釋信息的完善程度決定了預(yù)測的準(zhǔn)確性叔遂。變異預(yù)測一般會(huì)提供如下結(jié)果

  • 變異位點(diǎn)所在基因組注釋的位置他炊,是轉(zhuǎn)錄本上游,還是編碼區(qū)已艰,還是非編碼RNA
  • 列舉出收到影響的轉(zhuǎn)錄本和基因
  • 確定變異在蛋白序列上的影響痊末, 如stop_gained(終止密碼子提前), missense(錯(cuò)義), stop_lost(終止密碼子缺失), frameshift(移碼)等
  • 對(duì)于人類,還可以和已知的位點(diǎn)進(jìn)行匹配

這些效應(yīng)的定義可以在序列本體論查詢.

變異注釋常用軟件有:VEP, snpEFF, AnnoVar, VAAST2. 其中VEP是網(wǎng)頁工具http://asia.ensembl.org/Tools/VEP, 使用很方便哩掺,可惜支持的物種有限凿叠。snpEFF可以說是支持物種最多的工具,這里使用它疮丛。

snpEff databases > listing.txt
# 確認(rèn)物種名
grep -i ebola databases
# 下載
snpEff download ebola_zaire

下載之后還需要檢查一下snpEFF提供的注釋是否和我們所使用參考基因組一致.

snpEff dump ebola_zaire | less

很不幸的是幔嫂,snpEFF提供的是基于KJ660346構(gòu)建的數(shù)據(jù)庫,而我們使用的是AF086833誊薄。因此需要重新下載對(duì)應(yīng)的參考基因組重新比對(duì),進(jìn)行注釋锰茉。對(duì)飲參考基因組的地址為https://www.ncbi.nlm.nih.gov/nuccore/KJ660346.1?report=fasta

snpEff ebola_zaire ${SRR}_freebayes.vcf > ${SRR}_annotated.vcf

最終會(huì)生成注釋后的VCF文件以及變異位點(diǎn)的描述性報(bào)告呢蔫。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市飒筑,隨后出現(xiàn)的幾起案子片吊,更是在濱河造成了極大的恐慌,老刑警劉巖协屡,帶你破解...
    沈念sama閱讀 206,013評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件俏脊,死亡現(xiàn)場離奇詭異,居然都是意外死亡肤晓,警方通過查閱死者的電腦和手機(jī)爷贫,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門认然,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人漫萄,你說我怎么就攤上這事卷员。” “怎么了腾务?”我有些...
    開封第一講書人閱讀 152,370評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵毕骡,是天一觀的道長。 經(jīng)常有香客問我岩瘦,道長未巫,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,168評(píng)論 1 278
  • 正文 為了忘掉前任启昧,我火速辦了婚禮叙凡,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘箫津。我一直安慰自己狭姨,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,153評(píng)論 5 371
  • 文/花漫 我一把揭開白布苏遥。 她就那樣靜靜地躺著饼拍,像睡著了一般。 火紅的嫁衣襯著肌膚如雪田炭。 梳的紋絲不亂的頭發(fā)上师抄,一...
    開封第一講書人閱讀 48,954評(píng)論 1 283
  • 那天,我揣著相機(jī)與錄音教硫,去河邊找鬼叨吮。 笑死,一個(gè)胖子當(dāng)著我的面吹牛瞬矩,可吹牛的內(nèi)容都是我干的茶鉴。 我是一名探鬼主播,決...
    沈念sama閱讀 38,271評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼景用,長吁一口氣:“原來是場噩夢啊……” “哼涵叮!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起伞插,我...
    開封第一講書人閱讀 36,916評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤割粮,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后媚污,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體舀瓢,經(jīng)...
    沈念sama閱讀 43,382評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,877評(píng)論 2 323
  • 正文 我和宋清朗相戀三年耗美,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了京髓。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片航缀。...
    茶點(diǎn)故事閱讀 37,989評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖朵锣,靈堂內(nèi)的尸體忽然破棺而出谬盐,到底是詐尸還是另有隱情,我是刑警寧澤诚些,帶...
    沈念sama閱讀 33,624評(píng)論 4 322
  • 正文 年R本政府宣布飞傀,位于F島的核電站,受9級(jí)特大地震影響诬烹,放射性物質(zhì)發(fā)生泄漏砸烦。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,209評(píng)論 3 307
  • 文/蒙蒙 一绞吁、第九天 我趴在偏房一處隱蔽的房頂上張望幢痘。 院中可真熱鬧,春花似錦家破、人聲如沸颜说。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽门粪。三九已至,卻和暖如春烹困,著一層夾襖步出監(jiān)牢的瞬間玄妈,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評(píng)論 1 260
  • 我被黑心中介騙來泰國打工髓梅, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留拟蜻,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,401評(píng)論 2 352
  • 正文 我出身青樓枯饿,卻偏偏與公主長得像酝锅,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子奢方,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,700評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容