前言
更多內(nèi)容,請訪問我的 個人博客盖桥。
soap 是 華大基因 開發(fā)的一款短序列比對軟件,軟件主頁是 http://soap.genomics.org.cn/soapaligner.html 题翻。不過很可惜,這個網(wǎng)址已經(jīng)沒人維護了嵌赠。
由于我現(xiàn)在承接了一個古老的項目(2012年的)塑荒,項目中就是用的soap比對,因此這里整理了網(wǎng)上對該比對軟件的結(jié)果文件介紹姜挺。
soap格式文件可以用純文本編輯器打開齿税,部分內(nèi)容如下所示:
CL100152537L1C001R001_82 TTATAAATAAAACTCCCATCTCCCTGGGACAGAGC FFEGGEFGDGGGFGFGGFGGGFGGF;@BAFF;E@E 18 a 35 + chr8 89537925 0 35M 35
CL100152537L1C001R001_100 AGAAAACACTCCCTCAGGGAAGTGCCAGCCCTCCT >8@F?DGFGGEGGFGB7?7FAAF>GF9BBGFGGGF 1 a 35 + chr11 65819516 1 G->15A2 35M 15G19
...
從左至右凌箕,依次表示:
- 編號:read的編號牵舱。
- read序列:如果read比對上參考序列的負鏈,會被反向互補為正鏈慧妄。
- 質(zhì)量值:序列的質(zhì)量值,和序列順序一致饱普,如果read反向互補,質(zhì)量值也會隨著改變费彼。
- 比對次數(shù):比對上的次數(shù)箍铲。沒有比對上的read將被忽略鬓椭。
- a/b:pair-end比對的標記, 表示read屬于來自哪個文件。
- 長度:read長度调榄,如果是容缺失的比對每庆,長度將是加上缺失片斷的長度今穿。
- +/-:比對上參考序列的正鏈或負鏈。
- 染色體名稱:參考序列的染色體名稱胚嘲。
- 位點:第一個堿基在染色體上的位置剩燥,從1開始。
- 錯配的個數(shù):默認為0变擒。
-
錯配的詳細信息:
G->15A2
意思是一個錯配,在參考序列的位置是的位置+15(從0開始),在參考序列上是G材部,read上是A苦丁,質(zhì)量值是2产上。 -
比對上的數(shù)目:
35M
意思是35個堿基比對上了晋涣。 -
對比的細節(jié):
15G19
意思是前15個比對上了留凭,第16(參考序列上位置+16)個是錯配翠订,后面19個還是比對上了。