Motif Discovery | DREME

寫在前面

文獻(xiàn)中常用的有DREME和HOMER壤短，這次先搞定DREME缤剧，下次再寫HOMER客叉。

使用MEME套件中的DREME乃戈，用于鑒定meRIP-Seq數(shù)據(jù)中peak的motif屡立。motif是序列中反復(fù)出現(xiàn)的由幾個(gè)堿基組成的小片段直晨，可能有特定的生物學(xué)意義。不過看meRIP-seq的文章里，這塊的分析在結(jié)果中一般體現(xiàn)為一句話勇皇，交代找到的顯著motif與已有報(bào)道一致罩句，或者說多個(gè)發(fā)育階段鑒定的保守motif是什么。

DREME的原理（http://meme-suite.org/doc/dreme-tutorial.html?man_type=web）：

輸入文件：positive sequences和negative sequences(背景序列敛摘，如果沒有提供门烂，會(huì)根據(jù)positive sequences自動(dòng)生成）；
尋找positive sequences中的3-8bp(默認(rèn)長(zhǎng)度)片段, 計(jì)算每個(gè)片段在positive和negative中出現(xiàn)的次數(shù)着撩，通過Fisher's exact test 確定顯著性诅福，按照P-value排序成regular expression motifs.
選取前100個(gè)motif，將其中1個(gè)堿基替換成ambiguity code,重新計(jì)算p-value拖叙；重復(fù)該過程氓润，使得每個(gè)堿基都可以有ambiguity code，得到generalized RE motifs.（相當(dāng)于consensus sequences）
針對(duì)上一步得到的generalized RE motifs,計(jì)算每個(gè)motif在positive和negative中出現(xiàn)的次數(shù)薯鳍，通過Fisher's exact test 確定顯著性,按照設(shè)定的E-value值輸出motif及相應(yīng)的頻率矩陣咖气。

實(shí)戰(zhàn)

01 安裝
下載軟件：http://meme-suite.org/doc/download.html

#install
mkdir meme
tar zxf meme_5.0.1.tar.gz 
cd meme_5.0.1
./configure --prefix=/root/cc/biosoft/bin/meme --with-url=http://meme-suite.org --enable-build-libxml2 --enable-build-libxslt
make
make test
make install

#加入PATH(~/.bash_profile)
PATH=/root/cc/biosoft/bin/meme/bin:$PATH
source ~/.bash_profile
#test
dreme 

#根據(jù)提示需要安裝imagemagick
yum install ImageMagick
convert -version

02 實(shí)戰(zhàn)
輸入文件：fasta格式的序列文件

dreme -p input.fa -oc outDir -dna -png -eps -e 0.05 -t 18000 -m 20 
#-dna, -rna : 默認(rèn)是dna
#-png, -eps ： 輸出圖片格式
# -e, -t, -m : 是設(shè)置軟件結(jié)束運(yùn)行的參數(shù)，不設(shè)置的話挖滤，默認(rèn)在e-value>e時(shí)停止崩溪，否則會(huì)一直運(yùn)行下去。
# -e: e-value斩松，0.05（default)  一直search伶唯，直到下一個(gè)motif 的e-value >e
# -t: 運(yùn)行時(shí)間 一直search，直到達(dá)到這個(gè)時(shí)間
# -m: 找到的motif數(shù)目 一直search惧盹，直到找到的motif數(shù)目達(dá)到這個(gè)值
#還可以設(shè)置Core Motif Width：--mink 最小值乳幸；--maxk 最大值

設(shè)置為-dna時(shí)，可以識(shí)別U(等同于T）,但輸出LOGO時(shí)使用T.
設(shè)置為-rna時(shí)钧椰，仍然能識(shí)別T(等同于U）粹断，但輸出LOGO時(shí)使用U. 同樣的序列和參數(shù)，設(shè)置為-dna和-rna嫡霞，找到的motif是不一樣的瓶埋。Why? 沒找到說明

是不是灰常簡(jiǎn)單？嘻嘻(#^.#)

03 LOGO編輯
DREME生成的xml文件中诊沪，有每個(gè)motif的PWM matrix养筒，里面有motif的每個(gè)位置上每種堿基的probability《艘Γ可以用來直接畫LOGO晕粪，方便的工具有如下幾個(gè)。

seqLogo可以調(diào)整橫縱坐標(biāo)寄锐、堿基高度按比例/絕對(duì)大小展示等兵多。

source("https://bioconductor.org/biocLite.R")
biocLite("seqLogo")
require(seqLogo)
mFile <- read.table("inp")
mFile
#  V1       V2 V3 V4 V5       V6
#1  0 0.000000  1  0  1 0.000000
#2  0 0.000000  0  1  0 0.000000
#3  1 0.907213  0  0  0 0.636825
#4  0 0.092787  0  0  0 0.363175

p<-makePWM(m)
seqLogo(p)  
seqLogo(p,ic.scale=FALSE)

seqLogo(p)

seqLogo(p,ic.scale=FALSE)

不足：目前seqLogo只能識(shí)別DNA alphabet尖啡，無法識(shí)別RNA，Protein剩膘。

motifStack用途更廣泛衅斩，這里僅用于把motif中的T替換成U。
需要安裝ghostscript怠褐，然后將安裝路徑設(shè)置為環(huán)境變量R_GSCMD.
比如我安裝的是64位的畏梆，安裝在C:\Program Files\gs\gs9.23，按如下設(shè)置：

Sys.setenv(R_GSCMD=file.path("C:", "Program Files", "gs", 
                             "gs9.23", "bin", "gswin64c.exe"))

將矩陣中的T換成U奈懒。

source("https://bioconductor.org/biocLite.R")
biocLite("motifStack")
require(motifStack)
Sys.setenv(R_GSCMD=file.path("C:", "Program Files", "gs", 
                             "gs9.23", "bin", "gswin64c.exe"))

pcm=read.table("inp")
#0 0.000000  1  0  1 0.000000
#0 0.000000  0  1  0 0.000000
#1 0.907213  0  0  0 0.636825
#0 0.092787  0  0  0 0.363175

rownames(pcm) <- c("A","C","G","U")
motif <- new("pcm", mat=as.matrix(pcm), name="KD")
plot(motif,ncex=2,xaxis=F)  #ncex: fond size of name; xaxis 不顯示橫坐標(biāo)

T--> U

04 Note
meRIP-seq的數(shù)據(jù)奠涌，分析得到的peak有時(shí)會(huì)跨區(qū)域。比如兩個(gè)相鄰的exon都是peak磷杏，但是得到的是一個(gè)包含這兩個(gè)exon的區(qū)域溜畅，那么，提取序列時(shí)极祸，應(yīng)該提取的是真實(shí)的peak區(qū)域慈格，即相應(yīng)的exon區(qū)域。如果是exomePeak的結(jié)果遥金，生成的BED12文件里包含block的信息浴捆，可以利用bedtools getfasta -split直接提取相應(yīng)block的序列，再“串聯(lián)”起來稿械；如果是普通的BED文件（chr start end)选泻，那么就需要結(jié)合exon的坐標(biāo)(比如GTF，GFF等注釋文件),自己生成相應(yīng)的BED12文件了美莫。

最后編輯于：2018.07.06 17:10:06

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末页眯，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子茂嗓，更是在濱河造成了極大的恐慌餐茵，老刑警劉巖科阎，帶你破解...
沈念sama閱讀 216,919評(píng)論 6贊 502
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件述吸，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡锣笨，警方通過查閱死者的電腦和手機(jī)蝌矛，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,567評(píng)論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來错英，“玉大人入撒，你說我怎么就攤上這事⊥盅遥” “怎么了茅逮？”我有些...
開封第一講書人閱讀 163,316評(píng)論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵璃赡，是天一觀的道長(zhǎng)。經(jīng)常有香客問我献雅，道長(zhǎng)碉考，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,294評(píng)論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任挺身，我火速辦了婚禮侯谁，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘章钾。我一直安慰自己墙贱，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,318評(píng)論 6贊 390
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布贱傀。她就那樣靜靜地躺著惨撇，像睡著了一般。火紅的嫁衣襯著肌膚如雪府寒。梳的紋絲不亂的頭發(fā)上串纺，一...
開封第一講書人閱讀 51,245評(píng)論 1贊 299
城市分裂傳說
那天，我揣著相機(jī)與錄音椰棘，去河邊找鬼纺棺。笑死，一個(gè)胖子當(dāng)著我的面吹牛邪狞，可吹牛的內(nèi)容都是我干的祷蝌。我是一名探鬼主播，決...
沈念sama閱讀 40,120評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼帆卓，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼巨朦！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起剑令，我...
開封第一講書人閱讀 38,964評(píng)論 0贊 275
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤糊啡，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后吁津，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體棚蓄，經(jīng)...
沈念sama閱讀 45,376評(píng)論 1贊 313
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,592評(píng)論 2贊 333
?白月光啟示錄
正文我和宋清朗相戀三年碍脏，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了梭依。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,764評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡典尾，死狀恐怖役拴，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情钾埂，我是刑警寧澤河闰，帶...
沈念sama閱讀 35,460評(píng)論 5贊 344
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布科平，位于F島的核電站，受9級(jí)特大地震影響姜性，放射性物質(zhì)發(fā)生泄漏匠抗。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,070評(píng)論 3贊 327
男人毒藥：我在死后第九天來索命
文/蒙蒙一污抬、第九天我趴在偏房一處隱蔽的房頂上張望汞贸。院中可真熱鬧，春花似錦印机、人聲如沸矢腻。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,697評(píng)論 0贊 22
一樁弒父案射赛，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽多柑。三九已至，卻和暖如春楣责，著一層夾襖步出監(jiān)牢的瞬間竣灌，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,846評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來泰國(guó)打工秆麸，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留初嘹，地道東北人。一個(gè)月前我還...
沈念sama閱讀 47,819評(píng)論 2贊 370
代替公主和親
正文我出身青樓沮趣，卻偏偏與公主長(zhǎng)得像屯烦，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子房铭，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,665評(píng)論 2贊 354

Motif Discovery | DREME

寫在前面

實(shí)戰(zhàn)

推薦閱讀更多精彩內(nèi)容