使用MISO進(jìn)行可變剪切的分析

歡迎關(guān)注”生信修煉手冊”!

MISO是一款經(jīng)典的可變剪切分析工具磅废,和rmats類似锅棕,該軟件也支持對可變剪切事件進(jìn)行定量和差異分析拙泽,網(wǎng)址如下

https://miso.readthedocs.io/en/fastmiso/index.html#

這個軟件支持exon和transcript兩種水平的可變剪切分析,在rmats的文章中裸燎,我們也提到了rmats是從exon水平給出的可變剪切結(jié)果顾瞻,因為二代測序讀長短的特點,無法有效得到轉(zhuǎn)錄本全長德绿,從exon水平得到的結(jié)果更加的準(zhǔn)確荷荤,而且陽性結(jié)果更容易通過RT-PCR驗證出來,但是無法詳細(xì)的探究某個基因不同isoform之間的變化移稳;transcript水平直接給出不同isoform間的定量和差異蕴纳,能有效的探究基因不同isofrm的變化情況,但是結(jié)果準(zhǔn)確性較差个粱。

該軟件是一個python包古毛,直接通過pip就可以安裝,分析的pipeline如下

1. 對參考基因組的GFF文件建索引

對于transcript水平的分析而言,只需要提供轉(zhuǎn)錄本的GFF文件稻薇,可以從Ensembl等數(shù)據(jù)庫下載參考基因組的gtf文件嫂冻,然后自己轉(zhuǎn)換成GFF3格式;對于exon水平而言塞椎,需要提供已知的可變剪切事件的GFF格式文件桨仿,示意如下

chr1 ?SE ? ? ?gene ? ?4772649 4775821 . ? ? ? - ? ? ? . ? ? ? ID=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-;Name=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-
chr1 ?SE ? ? ?mRNA ? ?4772649 4775821 . ? ? ? - ? ? ? . ? ? ? ID=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.A;Parent=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-
chr1 ?SE ? ? ?mRNA ? ?4772649 4775821 . ? ? ? - ? ? ? . ? ? ? ID=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.B;Parent=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-
chr1 ?SE ? ? ?exon ? ?4775654 4775821 . ? ? ? - ? ? ? . ? ? ? ID=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.A.up;Parent=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.A
chr1 ?SE ? ? ?exon ? ?4774032 4774186 . ? ? ? - ? ? ? . ? ? ? ID=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.A.se;Parent=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.A
chr1 ?SE ? ? ?exon ? ?4772649 4772814 . ? ? ? - ? ? ? . ? ? ? ID=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.A.dn;Parent=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.A
chr1 ?SE ? ? ?exon ? ?4775654 4775821 . ? ? ? - ? ? ? . ? ? ? ID=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.B.up;Parent=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.B
chr1 ?SE ? ? ?exon ? ?4772649 4772814 . ? ? ? - ? ? ? . ? ? ? ID=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.B.dn;Parent=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.B

第二列表示可變剪切的類型,以外顯子跳躍為例案狠,ID的格式如下

chr1:4775654:4775821:-@chr1:4774032:4774186:@chr1:4772649:4772814

包含了用@符號隔開的3個外顯子服傍,中間的exon的跳過的外顯子,第一個為上游的外顯子骂铁,第二個為下游的外顯子吹零,對應(yīng)如下示意圖中的3個exon

transcript水平的GFF文件從數(shù)據(jù)庫中下載即可,而exon水平的GFF文件是需要自己先識別可變剪切的不同isoform,然后整理得到的从铲,對于人和小鼠等常見物種瘪校,官網(wǎng)提供了exon水平的GFF文件,鏈接如下

https://miso.readthedocs.io/en/fastmiso/annotation.html

準(zhǔn)備好GFF文件之后名段,就可以建立索引了,命令如下

index_gff --index ensGene.gff3 index_db

index_db為索引保存的目錄泣懊。

2. 運(yùn)行miso

運(yùn)行miso需要第一步建好的索引以及樣本對應(yīng)的bam文件伸辟,該bam文件必須是經(jīng)過排序處理的,而且有對應(yīng)的bai索引馍刮,對于雙端數(shù)據(jù)信夫,用法如下

miso --run
index_db \
algin.sorted.bam \ ?
--output-dir out_dir \
--read-len 150 \
--paired-end 250 15 \
--settings-filename miso_settings.txt

read-len是reads的平均長度,paired-end代表插入片段長度的平均值和方差卡啰,miso_settings.txt是配置文件静稻,內(nèi)容如下

[data]
filter_results = True
min_event_reads = 20
strand = fr-unstranded
[sampler]
burn_in = 500
lag = 10
num_iters = 5000
num_processors = 4

配置文件中的參數(shù)很多,就不一一解釋了匈辱,每個參數(shù)的意義請參考官方文檔振湾。
通過上述方式得到的結(jié)果可以直接用于后續(xù)的差異分析,但是這個結(jié)果不利于我們查看亡脸,所以官方提供了匯總程序押搪,用法如下

summarize_miso \
--summarize-samples \
raw_out/ \
summary_out1

3. 樣本間的差異分析

進(jìn)行樣本間差異分析的代碼如下

compare_miso --compare-samples control case/ comparisons/

在輸出目錄,會生成一個后綴為bf的文件浅碾。

4. 對結(jié)果進(jìn)行過濾

用法如下

filter_events \
--filter ?case_vs_control.miso_bf \
--num-inc 1 \
--num-exc 1 \
--num-sum-inc-exc 10 \
--delta-psi 0.20 \
--bayes-factor 10 \
--output-dir filter_dir

5. 可視化

用法如下

sashimi_plot \
--plot-event "chr1:7778:7924:-@chr1:7096:7605:-@chr1:6717:6918:-" \
index_db/ \
sashimi_plot_settings.txt ?\
--output-dir out_dir

sashimi_plot_settings.txt是配置文件大州,其中設(shè)置了樣本的bam文件和可變剪切的輸出結(jié)果,示例如下

[data]
# directory where BAM files are
bam_prefix = ./test-data/bam-data/
# directory where MISO output is
miso_prefix = ./test-data/miso-data/

bam_files = [
 ? ?"heartWT1.sorted.bam",
 ? ?"heartWT2.sorted.bam",
 ? ?"heartKOa.sorted.bam",
 ? ?"heartKOb.sorted.bam"]

miso_files = [
 ? ?"heartWT1",
 ? ?"heartWT2",
 ? ?"heartKOa",
 ? ?"heartKOb"]

[plotting]
# Dimensions of figure to be plotted (in inches)
fig_width = 7
fig_height = 5
# Factor to scale down introns and exons by
intron_scale = 30
exon_scale = 4
# Whether to use a log scale or not when plotting
logged = False
font_size = 6

# Max y-axis
ymax = 150

# Whether to plot posterior distributions inferred by MISO
show_posteriors = True

# Whether to show posterior distributions as bar summaries
bar_posteriors = False

# Whether to plot the number of reads in each junction
number_junctions = True

resolution = .5
posterior_bins = 40
gene_posterior_ratio = 5

# List of colors for read denisites of each sample
colors = [
 ? ?"#CC0011",
 ? ?"#CC0011",
 ? ?"#FF8800",
 ? ?"#FF8800"]

# Number of mapped reads in each sample
# (Used to normalize the read density for RPKM calculation)
coverages = [
 ? ?6830944,
 ? ?14039751,
 ? ?4449737,
 ? ?6720151]

# Bar color for Bayes factor distribution
# plots (--plot-bf-dist)
# Paint them blue
bar_color = "b"

# Bayes factors thresholds to use for --plot-bf-dist
bf_thresholds = [0, 1, 2, 5, 10, 20]

最終會產(chǎn)生如下所示的結(jié)果

這種圖稱之為sashimi plot , 是一種專用于可變剪切可視化的圖表垂谢,上述示意圖表示的是一個外顯子跳躍事件在不同樣本中的表達(dá)情況厦画,左下方是GFF文件中共的exon結(jié)構(gòu),左上方是每個樣本中比對上exon的reads的可視化滥朱,采用了RPKM表示根暑,不同剪切方式用曲線鏈接力试,曲線上標(biāo)記的是比對上該區(qū)域的reads數(shù)目,不同分組的樣本用不同顏色表示购裙,右側(cè)的圖片是樣本中對應(yīng)的可變剪切的表達(dá)量值懂版。

從這種圖中,可以直觀的看到兩組樣本間的可變剪切表達(dá)有無差異躏率,上圖中heartWT組中的表達(dá)量高于heartKO組躯畴。

實際分析時,由于需要手動整理可變剪切isofrom對應(yīng)的gff文件薇芝,所以使用的難度較大蓬抄,但是其提供的可視化功能是非常值得借鑒的。

·end·

—如果喜歡夯到,快分享給你的朋友們吧—


掃描關(guān)注微信號嚷缭,更多精彩內(nèi)容等著你!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末耍贾,一起剝皮案震驚了整個濱河市阅爽,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌荐开,老刑警劉巖付翁,帶你破解...
    沈念sama閱讀 218,682評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異晃听,居然都是意外死亡百侧,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評論 3 395
  • 文/潘曉璐 我一進(jìn)店門能扒,熙熙樓的掌柜王于貴愁眉苦臉地迎上來佣渴,“玉大人,你說我怎么就攤上這事初斑⌒寥螅” “怎么了?”我有些...
    開封第一講書人閱讀 165,083評論 0 355
  • 文/不壞的土叔 我叫張陵越平,是天一觀的道長频蛔。 經(jīng)常有香客問我,道長秦叛,這世上最難降的妖魔是什么晦溪? 我笑而不...
    開封第一講書人閱讀 58,763評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮挣跋,結(jié)果婚禮上三圆,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好舟肉,可當(dāng)我...
    茶點故事閱讀 67,785評論 6 392
  • 文/花漫 我一把揭開白布修噪。 她就那樣靜靜地躺著,像睡著了一般路媚。 火紅的嫁衣襯著肌膚如雪黄琼。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,624評論 1 305
  • 那天整慎,我揣著相機(jī)與錄音脏款,去河邊找鬼。 笑死裤园,一個胖子當(dāng)著我的面吹牛撤师,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播拧揽,決...
    沈念sama閱讀 40,358評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼剃盾,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了淤袜?” 一聲冷哼從身側(cè)響起痒谴,我...
    開封第一講書人閱讀 39,261評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎铡羡,沒想到半個月后闰歪,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,722評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡蓖墅,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了临扮。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片论矾。...
    茶點故事閱讀 40,030評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖杆勇,靈堂內(nèi)的尸體忽然破棺而出贪壳,到底是詐尸還是另有隱情,我是刑警寧澤蚜退,帶...
    沈念sama閱讀 35,737評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站钻注,受9級特大地震影響蚂且,放射性物質(zhì)發(fā)生泄漏幅恋。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,360評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望淑翼。 院中可真熱鬧腐巢,春花似錦玄括、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,941評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至洁墙,卻和暖如春蛹疯,著一層夾襖步出監(jiān)牢的瞬間热监,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,057評論 1 270
  • 我被黑心中介騙來泰國打工列吼, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留苦始,地道東北人。 一個月前我還...
    沈念sama閱讀 48,237評論 3 371
  • 正文 我出身青樓陌选,卻偏偏與公主長得像,于是被迫代替她去往敵國和親您炉。 傳聞我的和親對象是個殘疾皇子役电,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,976評論 2 355

推薦閱讀更多精彩內(nèi)容