引言
今分享基因組結(jié)構(gòu)變異檢測的教程传透,大家常用的軟件基本是minimap2
軟件耘沼,這個(gè)軟件也是出自李恒大佬
之手,但是對(duì)于新手小白朱盐,或是沒有服務(wù)器的同學(xué)而言群嗤,直接在本地使用minimap2
是不現(xiàn)實(shí)的。
然而
托享,今天可以啦骚烧。
這個(gè)主要是歸功于CJ老師開發(fā)的TBtools軟件。非常厲害的一個(gè)生信化軟件闰围,TBtools問世以來真是造福了多少生信小白赃绊。用過以后,你會(huì)一直使用下去的
羡榴。自己在19年開始了解TBtools碧查,一直到現(xiàn)在,中間換過多臺(tái)電腦校仑,但是首選安裝的軟件中一定會(huì)有它忠售。
我們前面做過基于TBtools做基因家族分析 | 生信部分,繪制Circos基因圈圖 | TBtools等幾個(gè)教程。
今天迄沫,我本想直接使用minimap2
來跑一下稻扬,抱著TBtools可能會(huì)有的心情,就去搜索了一下教程羊瘩,結(jié)果真的有哦泰佳!
那么也就是記錄一下,這個(gè)分析過程尘吗,詳細(xì)的教程和參數(shù)CJ老師逝她,也在對(duì)應(yīng)教程推送過。我們也在推文中記錄一下睬捶,方便你我他!
參考:
基因組結(jié)構(gòu)變異檢測
1. 打開TBtools黔宛,安裝Genome VarScan
插件
2. 找到Sequence analysis
文件夾
3. 找到P00560**
4. 點(diǎn)擊install
5. 打開插件
在這里,我們直接使用CJ老師教程內(nèi)容擒贸,介紹對(duì)應(yīng)參數(shù)臀晃。參考:TBtools | 基因組結(jié)構(gòu)變異檢測插件 Genome VarScan 參數(shù)說明
- 調(diào)用Minimap2進(jìn)行兩個(gè)基因組的比對(duì)觉渴,生成一個(gè)paf文件
- 基于paf文件,提取編譯积仗,其中包括SV和SNP疆拘,一般我們就關(guān)注SV
其中第一步?jīng)]有過多調(diào)整空間,第二步可以理解為 paftools.js 的 java 實(shí)現(xiàn)寂曹。所以整體參數(shù)和效果哎迄,跟 minimap2+paftools.js 鑒定結(jié)構(gòu)變異幾乎一樣。詳解如下:
- CPU:線程數(shù)隆圆,默認(rèn)是2 漱挚,進(jìn)行兩基因組全序列比對(duì)時(shí)可使用,注意到渺氧,越多線程會(huì)使用越多內(nèi)存旨涝,我測試大體水稻基因組的比對(duì),那么一個(gè)線程大概要4G 內(nèi)存侣背。其實(shí)具體跟后續(xù)BatchSize參數(shù)有關(guān)系白华;
- Diff:三個(gè)基因組序列分歧度標(biāo)準(zhǔn),如果似乎非常近源甚至是同個(gè)物種或品種贩耐,那么 OneInThousand弧腥,指代1000個(gè)堿基只有1個(gè)堿基不同;OneInHundred潮太,指代100個(gè)堿基會(huì)有1個(gè)堿基不同管搪。基本上铡买,這兩個(gè)可以處理絕大多數(shù)物種材料更鲁。當(dāng)然,對(duì)于比如一些園藝作物奇钞,多年生澡为,高雜合材料等等,不同材料的基因組差異可能會(huì)比較大景埃,比如 FiveInHundread媒至,指代100個(gè)堿基會(huì)有5個(gè)不同,這個(gè)已經(jīng)支持了跨物種的比對(duì)纠亚,比如甜橙比對(duì)到荔枝... 按照需要來調(diào)整,這個(gè)可以提高靈敏度和準(zhǔn)確性
- VarRange:共兩個(gè)參數(shù)筋夏,一般如果是做多態(tài)性引物開發(fā)蒂胞,30~200以及足夠,再長也不方便跑PCR電泳區(qū)分
- BatchSize:每次讀入內(nèi)存条篷,用于比對(duì)到數(shù)據(jù)塊大小骗随,會(huì)直接影響內(nèi)存占用蛤织,500Mb 每次默認(rèn)。如果發(fā)現(xiàn)基因組比較大鸿染,可以考慮降低指蚜,比如做到 200。
- Min Align Length for Cov Calc:如果一個(gè) Alignment 長度低于給定值涨椒,比如 10000 摊鸡,就不參與覆蓋度的計(jì)算。邏輯上對(duì)于兩個(gè)物種單倍型比對(duì)蚕冬,最好的比對(duì)結(jié)果 Cov 是 1 免猾。不然可能是假陽性比對(duì),對(duì)應(yīng)了假SV囤热。過濾長度猎提,避免比對(duì)碎片影響 Cov 計(jì)算。
- Min Align Length for Var Calling:如果一個(gè) Alignment 長度低于給定值旁蔼,比如 50000锨苏,就不進(jìn)行 SV 檢測。邏輯上棺聊,過短的比對(duì)伞租,也不適合做 SV 檢測。當(dāng)然躺屁,檢測了SV肯夏,那么也考慮Cov的問題。
- MaqQ:如果比對(duì)質(zhì)量低于給定值犀暑,那么不進(jìn)行變異檢測驯击。邏輯上,可以只用 MapQ 60 耐亏。畢竟這個(gè)對(duì)應(yīng)最高質(zhì)量徊都。需要注意的是,MapQ = 60 很容易達(dá)成广辰。從某個(gè)角度來說暇矫,比對(duì)質(zhì)量是基于 Query 來說的,查詢序列沒有更好或者相對(duì)較好的比對(duì)位置時(shí)择吊,那么就會(huì)有 MapQ60李根。所以對(duì)于Subject來說,同一個(gè)位置可以有多個(gè)MapQ 的比對(duì)几睛,但其中最好房轿,邏輯上只有一個(gè)。當(dāng)然那這個(gè)是展開。
- PrintSeq:結(jié)果文件中是否要包含SV相關(guān)序列囱持,注意到如果 INS 或 DEL 非常大夯接,那么這個(gè)序列會(huì)很長。
6. 比對(duì)
結(jié)合自己的需求將對(duì)應(yīng)的基因組fa文件拖進(jìn)去即可纷妆。比對(duì)還是很快的盔几,我這里使用15個(gè)CUP,基因組小一點(diǎn)掩幢,幾分鐘就可以完成逊拍。
7. 使用PAF Viz
進(jìn)行可視化
直接在搜索框搜索PAF Viz
即可。
將其輸出的PAF文件拖進(jìn)去即可進(jìn)行可視化粒蜈。
感嘆
時(shí)間飛逝顺献,我們可能一轉(zhuǎn)眼碩士,博士就畢業(yè)了枯怖,亦或是一轉(zhuǎn)眼畢業(yè)好多年注整。但是,回頭想一想度硝,我們在以往的時(shí)間中又留下了什么呢肿轨?難道真的如《再別康橋》中所說,輕輕的我走了蕊程,正如我輕輕的來椒袍,我輕輕的招手,作別西天的云彩藻茂。
自己做分享驹暑,亦或是自己的學(xué)習(xí)筆記,馬上3年辨赐。你問我优俘,這3年,你分享了什么呢掀序?若是帆焕,沒有推文,自己也很難回答不恭。但叶雹,回頭一看自己的文件夾,嗯换吧,還是有點(diǎn)痕跡
的折晦。好比,TBtools沾瓦,就是一個(gè)生信軟件满着,但是你深挖一下打颤,給你的感覺就是:哇哦,很有干貨哦漓滔!不虧是CJ老師。(PS:這里并不是吹捧TBtools乖篷,只是自己使用后的感悟响驴。此外,這也不是我第一次推薦TBtools撕蔼。)
往期部分文章
1. 最全WGCNA教程(替換數(shù)據(jù)即可出全部結(jié)果與圖形)
推薦大家購買最新的教程豁鲤,若是已經(jīng)購買以前WGNCA教程的同學(xué),可以在對(duì)應(yīng)教程留言鲸沮,即可獲得最新的教程琳骡。(注:此教程也僅基于自己理解,不僅局限于此讼溺,難免有不恰當(dāng)?shù)胤介购牛埥Y(jié)合自己需求,進(jìn)行改動(dòng)怒坯。)
2. 精美圖形繪制教程
3. 轉(zhuǎn)錄組分析教程
4. 轉(zhuǎn)錄組下游分析
小杜的生信筆記 炫狱,主要發(fā)表或收錄生物信息學(xué)教程,以及基于R分析和可視化(包括數(shù)據(jù)分析剔猿,圖形繪制等)视译;分享感興趣的文獻(xiàn)和學(xué)習(xí)資料!!