Motif Discovery | DREME

寫在前面

文獻(xiàn)中常用的有DREME和HOMER壤短,這次先搞定DREME缤剧,下次再寫HOMER客叉。

使用MEME套件中的DREME乃戈,用于鑒定meRIP-Seq數(shù)據(jù)中peak的motif屡立。motif是序列中反復(fù)出現(xiàn)的由幾個(gè)堿基組成的小片段直晨,可能有特定的生物學(xué)意義。不過看meRIP-seq的文章里,這塊的分析在結(jié)果中一般體現(xiàn)為一句話勇皇,交代找到的顯著motif與已有報(bào)道一致罩句,或者說多個(gè)發(fā)育階段鑒定的保守motif是什么。

DREME的原理(http://meme-suite.org/doc/dreme-tutorial.html?man_type=web):

  • 輸入文件:positive sequences和negative sequences(背景序列敛摘,如果沒有提供门烂,會(huì)根據(jù)positive sequences自動(dòng)生成);
  • 尋找positive sequences中的3-8bp(默認(rèn)長(zhǎng)度)片段, 計(jì)算每個(gè)片段在positive和negative中出現(xiàn)的次數(shù)着撩,通過Fisher's exact test 確定顯著性诅福,按照P-value排序成regular expression motifs.
  • 選取前100個(gè)motif,將其中1個(gè)堿基替換成ambiguity code,重新計(jì)算p-value拖叙;重復(fù)該過程氓润,使得每個(gè)堿基都可以有ambiguity code,得到generalized RE motifs.(相當(dāng)于consensus sequences)
  • 針對(duì)上一步得到的generalized RE motifs,計(jì)算每個(gè)motif在positive和negative中出現(xiàn)的次數(shù)薯鳍,通過Fisher's exact test 確定顯著性,按照設(shè)定的E-value值輸出motif及相應(yīng)的頻率矩陣咖气。

實(shí)戰(zhàn)

01 安裝
下載軟件:http://meme-suite.org/doc/download.html

#install
mkdir meme
tar zxf meme_5.0.1.tar.gz 
cd meme_5.0.1
./configure --prefix=/root/cc/biosoft/bin/meme --with-url=http://meme-suite.org --enable-build-libxml2 --enable-build-libxslt
make
make test
make install

#加入PATH(~/.bash_profile)
PATH=/root/cc/biosoft/bin/meme/bin:$PATH
source ~/.bash_profile
#test
dreme 

#根據(jù)提示需要安裝imagemagick
yum install ImageMagick
convert -version

02 實(shí)戰(zhàn)
輸入文件:fasta格式的序列文件

dreme -p input.fa -oc outDir -dna -png -eps -e 0.05 -t 18000 -m 20 
#-dna, -rna : 默認(rèn)是dna
#-png, -eps : 輸出圖片格式
# -e, -t, -m : 是設(shè)置軟件結(jié)束運(yùn)行的參數(shù),不設(shè)置的話挖滤,默認(rèn)在e-value>e時(shí)停止崩溪,否則會(huì)一直運(yùn)行下去。
# -e: e-value斩松,0.05(default)  一直search伶唯,直到下一個(gè)motif 的e-value >e
# -t: 運(yùn)行時(shí)間 一直search,直到達(dá)到這個(gè)時(shí)間
# -m: 找到的motif數(shù)目 一直search惧盹,直到找到的motif數(shù)目達(dá)到這個(gè)值
#還可以設(shè)置Core Motif Width:--mink 最小值乳幸;--maxk 最大值

設(shè)置為-dna時(shí),可以識(shí)別U(等同于T),但輸出LOGO時(shí)使用T.
設(shè)置為-rna時(shí)钧椰,仍然能識(shí)別T(等同于U)粹断,但輸出LOGO時(shí)使用U. 同樣的序列和參數(shù),設(shè)置為-dna-rna嫡霞,找到的motif是不一樣的瓶埋。Why? 沒找到說明

是不是灰常簡(jiǎn)單?嘻嘻(#.#)

03 LOGO編輯
DREME生成的xml文件中诊沪,有每個(gè)motif的PWM matrix养筒,里面有motif的每個(gè)位置上每種堿基的probability《艘Γ可以用來直接畫LOGO晕粪,方便的工具有如下幾個(gè)。

seqLogo可以調(diào)整橫縱坐標(biāo)寄锐、堿基高度按比例/絕對(duì)大小展示等兵多。

source("https://bioconductor.org/biocLite.R")
biocLite("seqLogo")
require(seqLogo)
mFile <- read.table("inp")
mFile
#  V1       V2 V3 V4 V5       V6
#1  0 0.000000  1  0  1 0.000000
#2  0 0.000000  0  1  0 0.000000
#3  1 0.907213  0  0  0 0.636825
#4  0 0.092787  0  0  0 0.363175

p<-makePWM(m)
seqLogo(p)  
seqLogo(p,ic.scale=FALSE)
seqLogo(p)
seqLogo(p)

seqLogo(p,ic.scale=FALSE)
seqLogo(p,ic.scale=FALSE)

不足:目前seqLogo只能識(shí)別DNA alphabet尖啡,無法識(shí)別RNA,Protein剩膘。

motifStack用途更廣泛衅斩,這里僅用于把motif中的T替換成U。
需要安裝ghostscript怠褐,然后將安裝路徑設(shè)置為環(huán)境變量R_GSCMD.
比如我安裝的是64位的畏梆,安裝在C:\Program Files\gs\gs9.23,按如下設(shè)置:

Sys.setenv(R_GSCMD=file.path("C:", "Program Files", "gs", 
                             "gs9.23", "bin", "gswin64c.exe"))

將矩陣中的T換成U奈懒。

source("https://bioconductor.org/biocLite.R")
biocLite("motifStack")
require(motifStack)
Sys.setenv(R_GSCMD=file.path("C:", "Program Files", "gs", 
                             "gs9.23", "bin", "gswin64c.exe"))

pcm=read.table("inp")
#0 0.000000  1  0  1 0.000000
#0 0.000000  0  1  0 0.000000
#1 0.907213  0  0  0 0.636825
#0 0.092787  0  0  0 0.363175

rownames(pcm) <- c("A","C","G","U")
motif <- new("pcm", mat=as.matrix(pcm), name="KD")
plot(motif,ncex=2,xaxis=F)  #ncex: fond size of name; xaxis 不顯示橫坐標(biāo)
T--> U
T--> U

04 Note
meRIP-seq的數(shù)據(jù)奠涌,分析得到的peak有時(shí)會(huì)跨區(qū)域。比如兩個(gè)相鄰的exon都是peak磷杏,但是得到的是一個(gè)包含這兩個(gè)exon的區(qū)域溜畅,那么,提取序列時(shí)极祸,應(yīng)該提取的是真實(shí)的peak區(qū)域慈格,即相應(yīng)的exon區(qū)域。如果是exomePeak的結(jié)果遥金,生成的BED12文件里包含block的信息浴捆,可以利用bedtools getfasta -split直接提取相應(yīng)block的序列,再“串聯(lián)”起來稿械;如果是普通的BED文件(chr start end)选泻,那么就需要結(jié)合exon的坐標(biāo)(比如GTF,GFF等注釋文件),自己生成相應(yīng)的BED12文件了美莫。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末页眯,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子茂嗓,更是在濱河造成了極大的恐慌餐茵,老刑警劉巖科阎,帶你破解...
    沈念sama閱讀 216,919評(píng)論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件述吸,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡锣笨,警方通過查閱死者的電腦和手機(jī)蝌矛,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,567評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來错英,“玉大人入撒,你說我怎么就攤上這事⊥盅遥” “怎么了茅逮?”我有些...
    開封第一講書人閱讀 163,316評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵璃赡,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我献雅,道長(zhǎng)碉考,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,294評(píng)論 1 292
  • 正文 為了忘掉前任挺身,我火速辦了婚禮侯谁,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘章钾。我一直安慰自己墙贱,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,318評(píng)論 6 390
  • 文/花漫 我一把揭開白布贱傀。 她就那樣靜靜地躺著惨撇,像睡著了一般。 火紅的嫁衣襯著肌膚如雪府寒。 梳的紋絲不亂的頭發(fā)上串纺,一...
    開封第一講書人閱讀 51,245評(píng)論 1 299
  • 那天,我揣著相機(jī)與錄音椰棘,去河邊找鬼纺棺。 笑死,一個(gè)胖子當(dāng)著我的面吹牛邪狞,可吹牛的內(nèi)容都是我干的祷蝌。 我是一名探鬼主播,決...
    沈念sama閱讀 40,120評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼帆卓,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼巨朦!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起剑令,我...
    開封第一講書人閱讀 38,964評(píng)論 0 275
  • 序言:老撾萬榮一對(duì)情侶失蹤糊啡,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后吁津,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體棚蓄,經(jīng)...
    沈念sama閱讀 45,376評(píng)論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,592評(píng)論 2 333
  • 正文 我和宋清朗相戀三年碍脏,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了梭依。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,764評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡典尾,死狀恐怖役拴,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情钾埂,我是刑警寧澤河闰,帶...
    沈念sama閱讀 35,460評(píng)論 5 344
  • 正文 年R本政府宣布科平,位于F島的核電站,受9級(jí)特大地震影響姜性,放射性物質(zhì)發(fā)生泄漏匠抗。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,070評(píng)論 3 327
  • 文/蒙蒙 一污抬、第九天 我趴在偏房一處隱蔽的房頂上張望汞贸。 院中可真熱鬧,春花似錦印机、人聲如沸矢腻。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,697評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽多柑。三九已至,卻和暖如春楣责,著一層夾襖步出監(jiān)牢的瞬間竣灌,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,846評(píng)論 1 269
  • 我被黑心中介騙來泰國(guó)打工秆麸, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留初嘹,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,819評(píng)論 2 370
  • 正文 我出身青樓沮趣,卻偏偏與公主長(zhǎng)得像屯烦,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子房铭,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,665評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容