2020-08-11-體細(xì)胞calling 算法綜述

體細(xì)胞calling 算法綜述 somatic single nucleotide variant calling algorithms

paper基本信息

paper name: A review of somatic single nucleotide variant calling algorithms for next-generation sequencing data doi :10.1016/j.csbj.2018.01.003

總結(jié)

call 變異的主要步驟為 mapping -> call 變異 mapping 的DNA工具主要為BWA RNA 工具為star 本文著重介紹了目前市面上的call變異的工具的原理 算法可以歸納為四類: 匹配腫瘤正常變異癌压、單樣本變異腰耙、基于 umi 的變異和 RNA-seq 變異

詳細(xì)介紹一些算法

1.預(yù)處理

預(yù)處理的主要目的是防止低質(zhì)量的讀取進(jìn)入不同的評價(jià)過程蚤假。讀取質(zhì)量通常是通過平均基礎(chǔ)質(zhì)量得分老客、mapping質(zhì)量得分和參考基因組的錯(cuò)配次數(shù)等來衡量的

gatkindelrealigner 和 BQSR (基準(zhǔn)質(zhì)量得分重新校準(zhǔn))

-提高識(shí)別插入的準(zhǔn)確性 samtools 與 picard

-去除PCR重復(fù)(但在基于 pcr 的擴(kuò)增序列測序應(yīng)用中铣焊,不推薦使用這種方法,因?yàn)椴煌?DNA 片段可以共享相同的基因組坐標(biāo)末贾。此步驟中還包括降采樣,在此期間隨機(jī)選擇讀取的子集以繼續(xù)進(jìn)行下一步潘拱。如果在特定區(qū)域進(jìn)行降采樣,則可以節(jié)省計(jì)算時(shí)間并提高覆蓋的一致性拧略,但也會(huì)使結(jié)果不確定芦岂。)

2.call 變異

各種軟件使用各自的算法call 變異

3.后期篩選處理

測序有些情況會(huì)欺騙統(tǒng)計(jì)模型將它們作為真正的變異傳遞。大多數(shù)變量調(diào)用方應(yīng)用閾值來識(shí)別這些位置辑鲤,從而提高特異性盔腔。例如杠茬,鏈偏置過濾月褥,捕獲只有或主要觀察到一條鏈的讀數(shù),在 Illumina 公司的一個(gè)常見錯(cuò)誤讀瓢喉,鏈偏好過濾器依賴于fisher宁赤,以確定不平衡的鏈分布。許多過濾器集中于重復(fù)區(qū)域栓票,如homopolymer, microsatellite, or low complexity regions决左,這些區(qū)域已知會(huì)由于排列和排序錯(cuò)誤而導(dǎo)致錯(cuò)誤。硬過濾器用于大多數(shù)變異調(diào)用者走贪,要么完全拒絕某些區(qū)域的變異佛猛,要么依賴于經(jīng)驗(yàn)硬閾值。

4.匹配正常腫瘤來call 變異

下面介紹一下文章中介紹的各個(gè)軟件的原理

其基本思想是利用腫瘤鑒定潛在的變異坠狡,并利用匹配的正常樣本區(qū)分體細(xì)胞變異和germline變異丟失(LOH)继找。 VarScan2、 qSNP逃沿、 Shimmer婴渡、 RADIA、 SOAPsnv 和 VarDict 對于一個(gè)潛在的 SNV凯亮,VarScan2需要至少兩個(gè)支持讀操作和8% 的 VAF (可由用戶調(diào)整)边臼。其他call 變異軟件在他們的算法中有類似的閾值,這些閾值通常設(shè)置在一般 NGS 數(shù)據(jù)的噪聲水平之上假消,并且期望過濾掉低水平的人為影響柠并。接下來,在匹配的正常情況下分析潛在的 SNV 位點(diǎn)富拗,以過濾掉非體細(xì)胞變異臼予。2,Shimmer媒峡,SOAPsnv瘟栖,和 VarDict 應(yīng)用 Fisher 的精確測試22列聯(lián)表的讀數(shù)(參考值、非參考值和腫瘤值谅阿、正常值)半哟。一個(gè)小的 p 值表明非參考讀數(shù)不成比例地分布在兩個(gè)樣本中酬滤,因此提示體細(xì)胞變異。qSNP 和 RADIA 應(yīng)用一系列啟發(fā)式規(guī)則來標(biāo)記在腫瘤中被充分觀察到但在正常情況下弱或未被觀察到的體細(xì)胞變異體寓涨。如果同一患者的 RNA-seq 數(shù)據(jù)可用盯串,RADIA 將在綜合分析中包括基因表達(dá)數(shù)據(jù),以進(jìn)一步減少假陽性戒良。

聯(lián)合基因型分析体捏,SomaticSniper,F(xiàn)aSD-somatic糯崎,SAMtools几缭,JointSNVMix2,Virmid沃呢,SNVSniffer年栓,Seurat,和 CaVEMan 采用這種方式,假設(shè)腫瘤和正常的二倍體薄霜,并評估關(guān)節(jié)的可能性某抓。突變calling是基因推理的必然結(jié)果。這些算法的核心是聯(lián)合基因型的后驗(yàn)概率惰瓜,由貝葉斯規(guī)則計(jì)算否副,即,

其中GT、 GN 為腫瘤基因型崎坊,DT 為正潮纲鳎基因型,DN 為腫瘤和正沉髑浚基因型痹届。先驗(yàn)基因型概率 p (GT,GN)可能依賴于全基因組 SNP 率打月、體細(xì)胞突變率队腐、 Ti-Tv 比值等。數(shù)據(jù)的聯(lián)合似然 p (DT奏篙,DN | GT柴淘,GN)可以通過二項(xiàng)式概率計(jì)算,將覆蓋一個(gè)站點(diǎn)的基地視為獨(dú)立的伯努利試驗(yàn)秘通,其成功概率取決于基因型和排序錯(cuò)誤率为严。一旦連接基因型被推斷出來,體細(xì)胞的變異就自然而然地發(fā)生了肺稀。突變和體細(xì)胞突變用“評分”概括了突變的證據(jù)第股,這實(shí)質(zhì)上是腫瘤與正常人具有相同基因型的對數(shù)轉(zhuǎn)化概率。其中 GT ∈{ AA话原,AC夕吻,AG诲锹,AT,CC涉馅,CG归园,CT,GG稚矿,GT庸诱,TT }。體細(xì)胞分?jǐn)?shù)較高的部位在腫瘤和正常組織中更可能有不同的基因型晤揣,并被鑒定為可能的體細(xì)胞變異體桥爽。 SAMtools 采用了同樣的策略,但沒有使用后驗(yàn)概率碉渡,而是使用對數(shù)似然比作為變體評分聚谁。 JointSNVMix2母剥,Virmid 和 SNVSniffer 將這10個(gè)外顯基因型分解為 AA滞诺,AB 和 BB (a 為參考基因,b 為非參考基因) 环疼,因此將聯(lián)合基因型分解為33表习霹。體細(xì)胞變異調(diào)用等價(jià)于計(jì)算 p (Somatic) = p (AA,AB) + p (AA炫隶,BB) 淋叶,腫瘤中正常和雜合或純合非參照的純合參照概率。具體來說伪阶,JointSNVMix2應(yīng)用一個(gè)分層貝葉斯模型來估計(jì)聯(lián)合基因型概率煞檩。 Virmid 將腫瘤視為正常組織和體細(xì)胞突變的混合物,提供了腫瘤中正常組織的聯(lián)合基因型和比例的聯(lián)合估計(jì)栅贴。 SNVsniffer 采用啟發(fā)式和聯(lián)合基因型分析的混合方法斟湃。啟發(fā)式分析中的高可信體細(xì)胞變異被直接報(bào)道,低可信變異需要進(jìn)一步的聯(lián)合基因型概率估計(jì)檢驗(yàn)檐薯。 CaVEMan 應(yīng)用期望最大化算法估計(jì)基因型概率凝赛。

由于腫瘤樣本中存在罕見的異質(zhì)亞克隆,二倍體假設(shè)可能過于簡單坛缕。為了發(fā)現(xiàn)復(fù)雜腫瘤基因組中的變異墓猎,尤其是罕見亞克隆中的變異體,一些人放棄了二倍體假設(shè)和模型聯(lián)合等位基因頻率(fT赚楚,fN) 毙沾,而代之以聯(lián)合基因型(GT,GN)宠页。等位基因頻率分析方法由斯 MuTect左胞、 LoFreq膨俐、 EBCall、 deepSNV罩句、 lololopicker 和 MuSE 使用焚刺。

MuTect 將體細(xì)胞變異調(diào)用定義為兩個(gè)模型選擇問題。在腫瘤方面门烂,對兩種模型進(jìn)行了評價(jià)和比較: 野生型模型 M0和突變型模型 Mf乳愉,前者假定所有非參考讀數(shù)均來自技術(shù)偽造,后者假定變異等位基因以未知頻率存在屯远。通過計(jì)算對數(shù)似然比(LOD score)來選擇更好的擬合模型蔓姚。潛在突變位點(diǎn)(高 LOD 值) ,另一個(gè)模型選擇正常進(jìn)行比較廣型模型 M0和雜合子模型 M0.5慨丐。如果 M0強(qiáng)烈優(yōu)于 M0.5坡脐,則該變異被標(biāo)記為軀體變異。LoFreq房揭、 EBCall备闲、 deepSNV 和 lolololopicker 將調(diào)用的變量表示為一個(gè)假設(shè)檢驗(yàn)問題,其中零假設(shè)是野生型的捅暴,替代假設(shè)是變異的恬砂,檢驗(yàn)統(tǒng)計(jì)量是觀察到的非參考讀數(shù) nT。

LoFreq 將每個(gè)基地視為一個(gè)獨(dú)立的 Bernoulli 試驗(yàn)蓬痒,具有不同的“成功”概率泻骤,其中成功被定義為非參考,而成功的概率由質(zhì)量得分決定梧奢。在這種情況下狱掂,nT 服從泊松-二項(xiàng)分布,p 值可以作為觀察到比 nT 更多的非參考讀數(shù)的概率來計(jì)算亲轨。

由于已知體細(xì)胞變異在某些熱點(diǎn)趋惨、序列上下文和非編碼區(qū)域富集,所以 EBCall瓶埋、 deepSNV 和 LoLoPicker 可以估計(jì)特定位點(diǎn)的錯(cuò)誤率希柿,因此可以在每個(gè)位點(diǎn)設(shè)置明確和更準(zhǔn)確的檢測限。尤其是养筒,deepSNV 和 lololopicker 被設(shè)計(jì)用于調(diào)用具有目標(biāo)測序數(shù)據(jù)的低頻變異曾撤。和 deepSNV 并不依賴于質(zhì)量分?jǐn)?shù)來推斷出錯(cuò)誤率,而是假設(shè)在每個(gè)目標(biāo)位置晕粪,錯(cuò)誤率是一個(gè)隨機(jī)變量挤悉,遵循一個(gè) Β分布。在無效假設(shè)下巫湘,nT 遵循一個(gè) β-二項(xiàng)式分布装悲,并相應(yīng)地計(jì)算 p 值昏鹃。在 EBCall 中,Β分布參數(shù)是從其他獨(dú)立控制樣本的序列中獲得的诀诊。在 deepSNV 中洞渤,利用腫瘤樣本和正常樣本進(jìn)行參數(shù)估計(jì)。

LoLoPicker 也采用了類似的策略属瓣,但對站點(diǎn)特定的錯(cuò)誤率假定為固定值進(jìn)行了重要修改载迄。對于福爾馬林固定和石蠟包埋(FFPE)等低質(zhì)量樣品的變異調(diào)用,特定地點(diǎn)的錯(cuò)誤率特別有用抡蛙,因?yàn)榕c新鮮樣品相比护昧,這些地點(diǎn)之間的錯(cuò)誤率更高,更不平衡粗截。然而惋耙,估計(jì)特定地點(diǎn)的錯(cuò)誤率需要對大量樣本進(jìn)行排序,這并不總是可行的熊昌。

MuSE 將體細(xì)胞 SNVs 視為 DNA 的結(jié)果绽榛,并用狀態(tài)空間為 a,t浴捆,g蒜田,c 的連續(xù)時(shí)間馬爾可夫過程建模。非參考等位基因的平衡頻率比較樣本特定的閾值從獨(dú)立的公共數(shù)據(jù)集选泻。

基于單體類型的策略(相對于主流的基于位置的策略)被結(jié)構(gòu)變異calling軟件廣泛采用,這些calling 軟件需要將讀取的內(nèi)容組合起來以重建長變異美莫。這也是Platypus页眯、 HapMuC、 LocHap厢呵、 FreeBayes 和 mutett2使用的檢測 SNV 的強(qiáng)大策略窝撵。這些算法在局部集合讀取一個(gè)區(qū)域并生成候選單體類型,這些候選單體類型可以用 de Bruijn-like 圖表示襟铭。每個(gè)單體類型的可能性是通過將每個(gè)讀到的單體類型對齊并計(jì)算讀支持度來估計(jì)的碌奉。基于單倍型的變異調(diào)用方在變異密集區(qū)域具有優(yōu)勢寒砖,因?yàn)樗鼈儾灰蕾囉诰植繉R赐劣,而局部對齊在困難區(qū)域是容易出錯(cuò)的×ǘ迹基于單倍型的調(diào)用方還提供了關(guān)于變體共存的額外信息魁兼。對于基于單體類型的調(diào)用方,indel 重新對齊不再有效漠嵌,因?yàn)樵嫉谋镜貙R信息被丟棄咐汞,讀操作被組裝和重新對齊盖呼。

機(jī)器學(xué)習(xí)方法在分類方面發(fā)展迅速,而變異調(diào)用本質(zhì)上是一個(gè)分類問題化撕。變異 seq几晤,SomaticSeq,snoop 和 BAYSIC 是應(yīng)用機(jī)器學(xué)習(xí)方法的典型變異調(diào)用方植阴。變異 seq 提取每個(gè)站點(diǎn)的相關(guān)特征锌仅,并基于這些特征和一組“基本事實(shí)”的體細(xì)胞變體訓(xùn)練4個(gè)分類器(隨機(jī)森林、貝葉斯自適應(yīng)回歸樹墙贱、支持向量機(jī)和 Logit模型)热芹。然后在測試數(shù)據(jù)集上測試訓(xùn)練后的分類器。

SNooPer 訓(xùn)練一個(gè)隨機(jī)森林分類器惨撇,用于處理低覆蓋率數(shù)據(jù)伊脓。

SomaticSeq 遵循相同的有監(jiān)督的訓(xùn)練測試過程,但在兩個(gè)方面不同于 MutationSeq 或 snoop魁衙。首先报腔,采用自適應(yīng) boosting 算法進(jìn)行分類。其次剖淀,它是一個(gè)集成變量調(diào)用程序纯蛾,需要將來自其他軟件(MuTect、 SomaticSniper纵隔、 VarScan2翻诉、 JointSNVMix2和 VarDict)的變量調(diào)用聯(lián)合起來作為起點(diǎn),然后應(yīng)用自己的分類器去除假陽性捌刮。

BAYSIC 也是一個(gè)集合變量調(diào)用程序碰煌,它使用一個(gè)無監(jiān)督的潛在類模型來組合多個(gè)調(diào)用。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末绅作,一起剝皮案震驚了整個(gè)濱河市芦圾,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌俄认,老刑警劉巖个少,帶你破解...
    沈念sama閱讀 217,277評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異眯杏,居然都是意外死亡夜焦,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評論 3 393
  • 文/潘曉璐 我一進(jìn)店門役拴,熙熙樓的掌柜王于貴愁眉苦臉地迎上來糊探,“玉大人,你說我怎么就攤上這事】破剑” “怎么了褥紫?”我有些...
    開封第一講書人閱讀 163,624評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長瞪慧。 經(jīng)常有香客問我髓考,道長,這世上最難降的妖魔是什么弃酌? 我笑而不...
    開封第一講書人閱讀 58,356評論 1 293
  • 正文 為了忘掉前任氨菇,我火速辦了婚禮,結(jié)果婚禮上妓湘,老公的妹妹穿的比我還像新娘查蓉。我一直安慰自己,他們只是感情好榜贴,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,402評論 6 392
  • 文/花漫 我一把揭開白布豌研。 她就那樣靜靜地躺著,像睡著了一般唬党。 火紅的嫁衣襯著肌膚如雪鹃共。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,292評論 1 301
  • 那天驶拱,我揣著相機(jī)與錄音霜浴,去河邊找鬼。 笑死蓝纲,一個(gè)胖子當(dāng)著我的面吹牛阴孟,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播驻龟,決...
    沈念sama閱讀 40,135評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼温眉,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了翁狐?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,992評論 0 275
  • 序言:老撾萬榮一對情侶失蹤凌蔬,失蹤者是張志新(化名)和其女友劉穎露懒,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體砂心,經(jīng)...
    沈念sama閱讀 45,429評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡懈词,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,636評論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了辩诞。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片坎弯。...
    茶點(diǎn)故事閱讀 39,785評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出抠忘,到底是詐尸還是另有隱情撩炊,我是刑警寧澤,帶...
    沈念sama閱讀 35,492評論 5 345
  • 正文 年R本政府宣布崎脉,位于F島的核電站拧咳,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏囚灼。R本人自食惡果不足惜骆膝,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,092評論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望灶体。 院中可真熱鬧阅签,春花似錦、人聲如沸蝎抽。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,723評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽织中。三九已至锥涕,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間狭吼,已是汗流浹背层坠。 一陣腳步聲響...
    開封第一講書人閱讀 32,858評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留刁笙,地道東北人破花。 一個(gè)月前我還...
    沈念sama閱讀 47,891評論 2 370
  • 正文 我出身青樓,卻偏偏與公主長得像疲吸,于是被迫代替她去往敵國和親座每。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,713評論 2 354