HOMER安裝和使用

1.HOMER的作用霞掺?

HOMER是一套基于 C++ 和 Perl 語言的用于 motif 查找和二代數(shù)據(jù)分析的工具桐愉,一般需要兩個序列作為參數(shù):

  • 參考序列:hg19瓣窄、mm10 等基因組序列匙瘪、promoter 序列、自定義的 FASTA 序列
  • 所要分析的序列:DNA 或 RNA 序列

HOMER 適用于在大規(guī)模數(shù)據(jù)中尋找 DNA 或 RNA 序列的 motif窝撵。

那什么是 motif 呢傀顾?

motif:反復出現(xiàn)的模式,即一種特征序列忿族,比如 sequence motif, structure motif, network motif锣笨。它有或者可能有一定的生物學功能蝌矛。

2.如何安裝HOMER?

HOMER軟件使用Perl和C++編寫道批,可在UNIX系統(tǒng)流暢運行,在windows系統(tǒng)則需要先安裝cygwin或者Unix虛擬系統(tǒng)入撒。

本文主要介紹在linux/UNIX的安裝隆豹,簡單介紹在windows系統(tǒng)的安裝

有問題請參考HOMER官方安裝過程茅逮。

2.1 For Linux/UNIX

  1. 先下載 configureHomer.pl 到目標文件夾(如 public/softwares/HOMER)璃赡,然后使用cd切換到該文件夾并運行:
perl configureHomer.pl -install # 下載homer.package.zip 
vi ~/.bash_profile # 修改./bash_profile 
PATH=$PATH:/public/softwares/HOMER/homer/bin/ # 將homer軟件中的/bin/目錄添加到./bash_profile
:wq # 保存退出 
source ~/.bash_profile # 使修改內容馬上生效

補充說明“.bash_profile”和“.bashrc”的區(qū)別
1. ~/.bash_profile: The personal initialization file, executed for login shells
2. ~/.bashrc: The individual per-interactive-shell startup file

根據(jù)名字的不同,我們可以直觀地將startup文件分為“profile”與“rc”兩個系列献雅,它們的功能都很類似碉考,只是使用的場景不同。執(zhí)行“profile”系列還是“rc”系列挺身,取決于運行中的bash處于“交互”還是“登陸”侯谁。

(不過這個沒弄明白也沒有關系,不影響后續(xù)操作章钾。)

2. 在命令行輸入'R'墙贱,安裝兩個R包(DESeq2和EdgeR):

> source("https://bioconductor.org/biocLite.R") 
> biocLite() 
> biocLite("DESeq2") 
> biocLite("edgeR") 
> q() # 退出R

3. 安裝samtools,使用conda進行安裝:

conda install samtools

2.2 For Windows

先從 http://www.cygwin.com/ 下載 cygwin 并安裝贱傀。

注意:

  1. 在 homer/bin/ 去掉文件的 "*.exe" 后綴 (i.e. "homer.exe" to "homer")
  2. PATH=/Users/chucknorris/homer/bin:${PATH}惨撇,格式和linux不同

其他的和linux下安裝過程大同小異~

如果安裝過程和說明的一樣,排除多種可能但還是報錯府寒。恭喜你找到了一個bug?谩1ㄇ弧!可以描述出錯的具體內容給作者發(fā)郵件(cbenner@ucsd.edu)剖淀。

3. 如何使用HOMER尋找motif榄笙?

HOMER主要有三種功能:

1.findMotifs.pl

2.findMotifsGenome.pl

By default this will perform de novo motif discovery as well as check the enrichment of known motifs.

3.scanMotifGenomeWide.pl

具體使用方法:

3.1 尋找DNA序列的motif

HOMER最早是被開發(fā)用來尋找CHIP-Seq peaks數(shù)據(jù)中的motif。現(xiàn)在祷蝌,它不僅可以被用來分析CHIP-Seq茅撞,還可用于分析基因組座位從而尋找motif。

用戶只需要提供包含基因組坐標的文件巨朦,比如peak文件或BED文件米丘。剩下的就不用操心啦~

分析peak文件中富集的motif,可以使用以下代碼:

findMotifsGenome.pl <peak/BED file> <genome> <output directory> -size # [options]

代碼示例:

findMotifsGenome.pl ERpeaks.txt hg18 ER_MotifOutput/ -size 200 -mask
# -mask 使用repeated-mask序列
# -size 設置motif長度

完整的輸出結果可以查看糊啡,包括:

  1. **homerMotifs.motifs<#> **: these are the output files from the de novo motif finding, separated by motif length, and represent separate runs of the algorithm.
  2. homerMotifs.all.motifs : Simply the concatenated file composed of all the homerMotifs.motifs<#> files.
  3. motifFindingParameters.txt : 記錄執(zhí)行findMotifsGenome.pl的命令
  4. knownResults.txt : 記錄motif的統(tǒng)計數(shù)據(jù)拄查,text file(open in EXCEL).
  5. seq.autonorm.tsv : autonormalization statistics for lower-order oligo normalization.
  6. homerResults.html : *de novo *motif finding的格式化輸出.
homerResults.html

參考:http://homer.ucsd.edu/homer/motif/index.html

3.2 尋找RNA序列的motif

和尋找DNA序列的motif區(qū)別在于:使用 findMotifs.pl和 findMotifsGenome.pl時,要加上 “-rna”參數(shù)棚蓄,從而只尋找RNA+鏈的motif堕扶,并且匹配/顯示U而不是T。

注意梭依!HOMER尚未包含“RNA motif”列表稍算,所以不支持“已知motif”的分析。如果使用FASTA文件格式役拴,請在輸入文件中使用T(DNA編碼)糊探。

代碼示例1:

# 獲取目標序列在人類mRNA上聚集的motif
findMotifs.pl mir1-downregulated.genes.txt human-mRNA MotifOutput/ -rna -len 8

結果:

image

代碼示例2:

# 分析CLIP-Seq for RNA motifs 
findMotifsGenome.pl fox2.clip.bed hg17 MotifOutput -rna

結果(a UGCAUG FOX motif):

image

3.3 獲取已知Motif序列在全基因組上的分布情況

使用scanMotifGenomeWide.pl,代碼如下:

scanMotifGenomeWide.pl <motif file> <genome> [options] 

# e.g. 小鼠mm10上已知motif的分布情況
scanMotifGenomeWide.pl pu1.motif mm10 -bed > pu1.sites.mm10.bed
# -bed : Output file will be in BED format - useful when you want to upload to the UCSC browser.

與MEME比較而言河闰,個人覺得Homer比較順手科平!
通過meme去來找motif,需要bed格式的peaks的坐標來獲取fasta序列姜性。
MEME瞪慧,鏈接:http://meme-suite.org/

-------------------------------------------------------------------------------------------------------------------------------------------------------------I'm a line ! Thanks for your attention !----------------------------------------------------------------------------------------------------------------

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市部念,隨后出現(xiàn)的幾起案子弃酌,更是在濱河造成了極大的恐慌,老刑警劉巖印机,帶你破解...
    沈念sama閱讀 216,372評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件矢腻,死亡現(xiàn)場離奇詭異,居然都是意外死亡射赛,警方通過查閱死者的電腦和手機多柑,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評論 3 392
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來楣责,“玉大人竣灌,你說我怎么就攤上這事聂沙。” “怎么了初嘹?”我有些...
    開封第一講書人閱讀 162,415評論 0 353
  • 文/不壞的土叔 我叫張陵及汉,是天一觀的道長。 經(jīng)常有香客問我屯烦,道長坷随,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,157評論 1 292
  • 正文 為了忘掉前任驻龟,我火速辦了婚禮温眉,結果婚禮上,老公的妹妹穿的比我還像新娘翁狐。我一直安慰自己类溢,他們只是感情好,可當我...
    茶點故事閱讀 67,171評論 6 388
  • 文/花漫 我一把揭開白布露懒。 她就那樣靜靜地躺著闯冷,像睡著了一般。 火紅的嫁衣襯著肌膚如雪懈词。 梳的紋絲不亂的頭發(fā)上蛇耀,一...
    開封第一講書人閱讀 51,125評論 1 297
  • 那天,我揣著相機與錄音钦睡,去河邊找鬼蒂窒。 笑死躁倒,一個胖子當著我的面吹牛荞怒,可吹牛的內容都是我干的。 我是一名探鬼主播秧秉,決...
    沈念sama閱讀 40,028評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼褐桌,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了象迎?” 一聲冷哼從身側響起荧嵌,我...
    開封第一講書人閱讀 38,887評論 0 274
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎砾淌,沒想到半個月后啦撮,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,310評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡汪厨,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,533評論 2 332
  • 正文 我和宋清朗相戀三年赃春,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片劫乱。...
    茶點故事閱讀 39,690評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡织中,死狀恐怖锥涕,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情狭吼,我是刑警寧澤层坠,帶...
    沈念sama閱讀 35,411評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站刁笙,受9級特大地震影響破花,放射性物質發(fā)生泄漏。R本人自食惡果不足惜疲吸,卻給世界環(huán)境...
    茶點故事閱讀 41,004評論 3 325
  • 文/蒙蒙 一旧乞、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧磅氨,春花似錦尺栖、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至叉橱,卻和暖如春挫以,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背窃祝。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評論 1 268
  • 我被黑心中介騙來泰國打工掐松, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人粪小。 一個月前我還...
    沈念sama閱讀 47,693評論 2 368
  • 正文 我出身青樓大磺,卻偏偏與公主長得像,于是被迫代替她去往敵國和親探膊。 傳聞我的和親對象是個殘疾皇子杠愧,可洞房花燭夜當晚...
    茶點故事閱讀 44,577評論 2 353

推薦閱讀更多精彩內容