簡潔 | 優(yōu)雅地整理 BLAST 比對結果

寫在前面

用過 BLAST 進行基因功能注釋的朋友應該常常遇到兩個問題:

  1. BLAST 輸出格式較多对蒲,選擇哪一類輸出格式更為實用?
  2. 輸出結果信息較多含滴,如果方便下游數據分析?

BLAST 的輸出文件格式建議

基于我個人生信數據分析項目經驗碑韵,一般用戶會選擇以下四種格式:

  1. pairwise
  2. blast tab ,即 -outfmt 6
  3. ASN
  4. XML

以下逐個解讀联喘。

Pairwise 格式

這一個是常見于絕大多數網站自行搭建的 BLAST 服務。比如擬南芥 TAIR 的 Blast 輸出蓖谢,大體如下,



清晰明了,對于少量序列腊嗡,比如 一兩個序列的 比對結果查看燕少,那么這一格式非常合適崇决。但一旦數據較多恒傻,比如我們上千個差異表達基因或者是關聯出來的基因列表盈厘,那么就不太合適注簿。于是一般會用 Table (--outfmt 6 或 7 )

Blast Tab 格式

Blast Tab 格式诡渴,這個名字惑灵,是我自己給的泣棋。因為這個格式其實就是純粹的 制表符分隔 的 表格。一般情況下澈吨,blast+ 設置輸出格式為 -outfmt 6 或者 7 (后者包含表頭)即可。大體格式可以看看下方桑阶,



直接在 Excel 中查看即可。可以看出玛歌,一列一列擺放,以 HSP (也就是 高度相似片片段)為單位译荞。這個序列的比對結果不太直觀(具體見下文)。

ASN 格式

說實話篙骡,我估計絕大部分號稱自己搞數據分析的,其實也不知道有這個格式得湘。



ASN格式臼闻,類似 JSON述呐,是 NCBI 自定義的格式思犁,存儲信息最全面褐着,可以直接使用 Blast 軟件轉換為其他格式含蓉。唯一麻煩的可能是,用戶需要轉換一次差油,有些人不喜歡。當然我也不喜歡妆偏,畢竟...XML相對容易解析挪鹏。

XML 格式

一直以來讨盒,我最新換的就是 XML 格式返顺。主要原因有:

  1. 相比于 Pairwise 和 ASN 格式來說伦忠,XML 更容易使用 程序解析
  2. 相比于 Table 格式來說气忠,XML 信息更全面

具體可看


對應所有 TBtools 用戶來說吨娜,我個人是建議陪毡,如果只是一兩條序列的 BLAST ,那么建議 Pairwise 格式桅滋,而其他所有情況,直接輸出 XML 格式。因為 TBtools 下面有系列功能可以可視化解析定庵。

大體功能介紹

XML 轉換為 BLAST Tab 格式

所有 BLAST XML 輸出文件找岖,可以直接使用 TBtools许布,轉換為 BLAST Tab。非常方便袁余。



TBtools Table 格式

正如前面體積掩完,BLAST 默認的輸出以 HSP 為單位且蓬,有時候并不太合適。比如冯事,有些時候比對結果是這樣的(即超過 1 個 HSP)



這種情況下,如果是 NCBI BLAST 默認的 表格輸出,那么就是



我們完全可以想想,有不少時候渴析,可能有 N 個hsp吮龄。而這些信息,本身冗余母债。此外毡们,也無法直接看到比對覆蓋率昧辽。為此.... 很久很久以前,我就開放了一個功能红氯,自定義了一個 TBtools Table。具體如下,


可以看出,多個 HSP 的信息被整合為一行块仆,也補充了覆蓋率的計算等等庄敛。每行就是一個 Hit 科汗,更符合實際用戶觀測數據需求头滔。

僅僅如此?

當然不是兴猩。這兩天早歇,我又在折騰一些生物學問題相關的課題箭跳。于是需要看一堆基因大體注釋信息。盡管上述說到的 TBtoosl Table 相對簡潔拯刁。但還是不夠直觀逝段,畢竟一個人序列還是對應了多個 hits奶躯。所以最好的做法就是,進一步把所有的 hits 整合成 一行(這個想法在三四年前账嚎,夏老師提過,不過...我一直懶得實現)疼邀。索性寫了一下旁振,輸出結果如下涨岁。



說實話梢薪,不能太完美...
而且具體使用一樣簡單:

  1. 輸入BLAST的XML格式輸出文件,支持 DIAMOND XML甜攀,建議比對到 Swissprot
  2. 輸出文件路徑

具體界面如下赴邻,注意到新版本的 TBtools啡捶,直接整合了 三個表格轉換功能




一切瞎暑,就這么簡單....
當然了赌,其實新版本修復了一小部分 BLAST XML to Table 的小bug,建議各位更新袄秩,盡管之剧,我已經推送了自動更新.....

寫在后面

TBtools 的序列提取 和 BLAST 相關功能砍聊,是最老的功能,意味著他們的具體界面化和實現邏輯蟹肘,都是一個具有不到半年 Java 編程經驗(接觸編程剛過一年)的小孩子寫的。現在看來贰盗,多少顯得粗糙舵盈。但回過頭來胸完,這個跟不少大佬說的一樣:

  • 以前赊窥,有時間狸页,但是沒經費
  • 現在芍耘,有經費,但是沒時間

而大佬終歸是大佬嘛倔约。對于我,那么情況是:沒時間坝初,也沒經費浸剩。
哈哈哈哈哈哈哈哈

?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市鳄袍,隨后出現的幾起案子绢要,更是在濱河造成了極大的恐慌,老刑警劉巖拗小,帶你破解...
    沈念sama閱讀 216,372評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件重罪,死亡現場離奇詭異,居然都是意外死亡哀九,警方通過查閱死者的電腦和手機剿配,發(fā)現死者居然都...
    沈念sama閱讀 92,368評論 3 392
  • 文/潘曉璐 我一進店門阅束,熙熙樓的掌柜王于貴愁眉苦臉地迎上來惨篱,“玉大人,你說我怎么就攤上這事围俘≡一洌” “怎么了琢融?”我有些...
    開封第一講書人閱讀 162,415評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長簿寂。 經常有香客問我漾抬,道長,這世上最難降的妖魔是什么常遂? 我笑而不...
    開封第一講書人閱讀 58,157評論 1 292
  • 正文 為了忘掉前任纳令,我火速辦了婚禮,結果婚禮上克胳,老公的妹妹穿的比我還像新娘平绩。我一直安慰自己,他們只是感情好漠另,可當我...
    茶點故事閱讀 67,171評論 6 388
  • 文/花漫 我一把揭開白布捏雌。 她就那樣靜靜地躺著,像睡著了一般笆搓。 火紅的嫁衣襯著肌膚如雪性湿。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,125評論 1 297
  • 那天满败,我揣著相機與錄音肤频,去河邊找鬼。 笑死算墨,一個胖子當著我的面吹牛宵荒,可吹牛的內容都是我干的。 我是一名探鬼主播净嘀,決...
    沈念sama閱讀 40,028評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼报咳,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了面粮?” 一聲冷哼從身側響起少孝,我...
    開封第一講書人閱讀 38,887評論 0 274
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎熬苍,沒想到半個月后稍走,有當地人在樹林里發(fā)現了一具尸體,經...
    沈念sama閱讀 45,310評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡柴底,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,533評論 2 332
  • 正文 我和宋清朗相戀三年婿脸,在試婚紗的時候發(fā)現自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片柄驻。...
    茶點故事閱讀 39,690評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡狐树,死狀恐怖,靈堂內的尸體忽然破棺而出鸿脓,到底是詐尸還是另有隱情抑钟,我是刑警寧澤涯曲,帶...
    沈念sama閱讀 35,411評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站在塔,受9級特大地震影響幻件,放射性物質發(fā)生泄漏。R本人自食惡果不足惜蛔溃,卻給世界環(huán)境...
    茶點故事閱讀 41,004評論 3 325
  • 文/蒙蒙 一绰沥、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧贺待,春花似錦徽曲、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至喘垂,卻和暖如春甜刻,著一層夾襖步出監(jiān)牢的瞬間绍撞,已是汗流浹背正勒。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評論 1 268
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留傻铣,地道東北人章贞。 一個月前我還...
    沈念sama閱讀 47,693評論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像非洲,于是被迫代替她去往敵國和親鸭限。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,577評論 2 353

推薦閱讀更多精彩內容