寫在前面
IGV是目前廣泛使用的基因組瀏覽器谈跛。但在前述的推文中央拖,我們已經(jīng)提到過,其并沒有較多我們做小RNA數(shù)據(jù)分析或可視化所需的特性惦界。為此,我們已經(jīng)介紹了四處我們課題組對(duì)IGV修改咙冗。我的意思是沾歪,我們做了的IGV特性增強(qiáng),遠(yuǎn)遠(yuǎn)不止于此雾消。
今天抽空灾搏,擺出一個(gè)非常簡單,卻非常有用的特性立润。
小RNA測序數(shù)據(jù)特征
小RNA狂窑,長度往往在30bp以下。十年前的讀長桑腮,足以一次將小RNA成熟體測通泉哈。換言之,我們得到的都是sRNA全長轉(zhuǎn)錄本。高度重復(fù)是小RNA數(shù)據(jù)固有特征丛晦。除去較多重復(fù)區(qū)域產(chǎn)生的sRNA奕纫,剩余的sRNA仍然在數(shù)據(jù)中表現(xiàn)出高豐度。有可能烫沙,在10M數(shù)據(jù)中匹层,某個(gè)micro RNA的豐度是1M+。
小RNA數(shù)據(jù)快速分析邏輯與不足
基于這一數(shù)據(jù)特征锌蓄,我們進(jìn)行miRNA或者phasiRNA挖掘等分析時(shí)又固,我們常常會(huì)先進(jìn)行數(shù)據(jù)的collaspe,大體是煤率,如果一個(gè)sRNA的豐度是1000仰冠,那么我們會(huì)合并這個(gè)reads,并記錄為
>id-1000
CGATCGATCAGTGTTGGTTTT
隨后再進(jìn)行讀段回帖和下游分析蝶糯。這是一個(gè)非常機(jī)智的做法洋只,
-
因?yàn)閷?duì)于一套“高重復(fù)”的數(shù)據(jù),直接比對(duì)昼捍,我們需要處理10M個(gè)reads的比對(duì)识虚,而collaspe之后,我們只需要處理可能只有10K個(gè)reads的比對(duì)妒茬。(截圖不全担锤,時(shí)間數(shù)倍,對(duì)于更高深度乍钻,如目前最建議的30M肛循,那么會(huì)有更明顯的時(shí)間縮短)
-
collapsed之后,數(shù)據(jù)將占用更少的硬盤银择,比對(duì)結(jié)果文件同樣減少許多多糠。(數(shù)據(jù)量較少,對(duì)于更高深度浩考,如目前最建議的30M夹孔,那么會(huì)有更明顯的硬盤空間節(jié)省)
一切看起來都沒有問題析孽,但當(dāng)我們想要在IGV上展示時(shí)搭伤,我們會(huì)發(fā)現(xiàn),問題出現(xiàn)了袜瞬。collasped的reads比對(duì)到genome的bam怜俐,無法在IGV上正常顯示出reads的豐度。
如下吞滞,
可以看到Collasped之后佑菩,看到的覆蓋率盾沫,事實(shí)上是uniqreads的數(shù)目,從左側(cè)殿漠,40+赴精,而實(shí)際數(shù)據(jù)應(yīng)該是 1700+。錯(cuò)誤的展示覆蓋率绞幌,會(huì)影響我們做真實(shí)的判斷蕾哟。
改造IGV使其實(shí)時(shí)解析.collasped.fa.bam
解決這個(gè)問題,其實(shí)一樣比較簡單莲蜘,我們可以改造IGV(而事實(shí)上谭确,我們已經(jīng)在之前的版本支持了,只是沒有推文)票渠。改造之后逐哈,我們可以直接在IGV導(dǎo)入collasped之后的bam文件,同時(shí)可以得到實(shí)際數(shù)據(jù)應(yīng)該有的覆蓋率问顷。
不止于此昂秃!為了加速IGV,事實(shí)上杜窄,我們需要使用其downsample的特性肠骆,然而,使用這一特性意味著塞耕,低豐度的reads會(huì)被忽略蚀腿,如左圖missing部分。我們可以看到 扫外,當(dāng)我們進(jìn)行實(shí)時(shí)解析mc.fa的時(shí)候莉钙,就沒有這種問題。因?yàn)槲覀冃枰睦L圖時(shí)間畏浆。
修改版IGV的獲取方式
近日有多個(gè)朋友聯(lián)系過來胆胰,想要使用這個(gè)改造后的IGV。嗯...
我個(gè)人的想法是:
- 付費(fèi)刻获,如資助XiaLab課題組出游一次写半,大體價(jià)格是3K褐望,那么將獲得本年度(如果還有更細(xì)的話)的我經(jīng)手的IGV更新功能。
- 直接聯(lián)系課題組PI即RX獲取抛寝,課題組主頁為 http://xialab.scau.edu.cn/
寫在最后
這兩天氧枣,總還是有傷感沐兵。或許只有做一些事情便监,會(huì)感到平靜一些扎谎。