1.HOMER的作用霞掺?
HOMER是一套基于 C++ 和 Perl 語言的用于 motif 查找和二代數(shù)據(jù)分析的工具桐愉,一般需要兩個序列作為參數(shù):
- 參考序列:hg19瓣窄、mm10 等基因組序列匙瘪、promoter 序列、自定義的 FASTA 序列
- 所要分析的序列:DNA 或 RNA 序列
HOMER 適用于在大規(guī)模數(shù)據(jù)中尋找 DNA 或 RNA 序列的 motif窝撵。
那什么是 motif 呢傀顾?
motif:反復出現(xiàn)的模式,即一種特征序列忿族,比如 sequence motif, structure motif, network motif锣笨。它有或者可能有一定的生物學功能蝌矛。
2.如何安裝HOMER?
HOMER軟件使用Perl和C++編寫道批,可在UNIX系統(tǒng)流暢運行,在windows系統(tǒng)則需要先安裝cygwin或者Unix虛擬系統(tǒng)入撒。
本文主要介紹在linux/UNIX的安裝隆豹,簡單介紹在windows系統(tǒng)的安裝。
有問題請參考HOMER官方安裝過程茅逮。
2.1 For Linux/UNIX
- 先下載 configureHomer.pl 到目標文件夾(如 public/softwares/HOMER)璃赡,然后使用cd切換到該文件夾并運行:
perl configureHomer.pl -install # 下載homer.package.zip
vi ~/.bash_profile # 修改./bash_profile
PATH=$PATH:/public/softwares/HOMER/homer/bin/ # 將homer軟件中的/bin/目錄添加到./bash_profile
:wq # 保存退出
source ~/.bash_profile # 使修改內容馬上生效
補充說明“.bash_profile”和“.bashrc”的區(qū)別 :
1. ~/.bash_profile: The personal initialization file, executed for login shells
2. ~/.bashrc: The individual per-interactive-shell startup file根據(jù)名字的不同,我們可以直觀地將startup文件分為“profile”與“rc”兩個系列献雅,它們的功能都很類似碉考,只是使用的場景不同。執(zhí)行“profile”系列還是“rc”系列挺身,取決于運行中的bash處于“交互”還是“登陸”侯谁。
(不過這個沒弄明白也沒有關系,不影響后續(xù)操作章钾。)
2. 在命令行輸入'R'墙贱,安裝兩個R包(DESeq2和EdgeR):
> source("https://bioconductor.org/biocLite.R")
> biocLite()
> biocLite("DESeq2")
> biocLite("edgeR")
> q() # 退出R
3. 安裝samtools,使用conda進行安裝:
conda install samtools
2.2 For Windows
先從 http://www.cygwin.com/ 下載 cygwin 并安裝贱傀。
注意:
- 在 homer/bin/ 去掉文件的 "*.exe" 后綴 (i.e. "homer.exe" to "homer")
- PATH=/Users/chucknorris/homer/bin:${PATH}惨撇,格式和linux不同
其他的和linux下安裝過程大同小異~
如果安裝過程和說明的一樣,排除多種可能但還是報錯府寒。恭喜你找到了一個bug?谩1ㄇ弧!可以描述出錯的具體內容給作者發(fā)郵件(cbenner@ucsd.edu)剖淀。
3. 如何使用HOMER尋找motif榄笙?
HOMER主要有三種功能:
1.findMotifs.pl
2.findMotifsGenome.pl
By default this will perform de novo motif discovery as well as check the enrichment of known motifs.
3.scanMotifGenomeWide.pl
具體使用方法:
3.1 尋找DNA序列的motif
HOMER最早是被開發(fā)用來尋找CHIP-Seq peaks數(shù)據(jù)中的motif。現(xiàn)在祷蝌,它不僅可以被用來分析CHIP-Seq茅撞,還可用于分析基因組座位從而尋找motif。
用戶只需要提供包含基因組坐標的文件巨朦,比如peak文件或BED文件米丘。剩下的就不用操心啦~
分析peak文件中富集的motif,可以使用以下代碼:
findMotifsGenome.pl <peak/BED file> <genome> <output directory> -size # [options]
代碼示例:
findMotifsGenome.pl ERpeaks.txt hg18 ER_MotifOutput/ -size 200 -mask
# -mask 使用repeated-mask序列
# -size 設置motif長度
完整的輸出結果可以查看糊啡,包括:
- **homerMotifs.motifs<#> **: these are the output files from the de novo motif finding, separated by motif length, and represent separate runs of the algorithm.
- homerMotifs.all.motifs : Simply the concatenated file composed of all the homerMotifs.motifs<#> files.
- motifFindingParameters.txt : 記錄執(zhí)行findMotifsGenome.pl的命令
- knownResults.txt : 記錄motif的統(tǒng)計數(shù)據(jù)拄查,text file(open in EXCEL).
- seq.autonorm.tsv : autonormalization statistics for lower-order oligo normalization.
- homerResults.html : *de novo *motif finding的格式化輸出.
參考:http://homer.ucsd.edu/homer/motif/index.html
3.2 尋找RNA序列的motif
和尋找DNA序列的motif區(qū)別在于:使用 findMotifs.pl和 findMotifsGenome.pl時,要加上 “-rna”參數(shù)棚蓄,從而只尋找RNA+鏈的motif堕扶,并且匹配/顯示U而不是T。
注意梭依!HOMER尚未包含“RNA motif”列表稍算,所以不支持“已知motif”的分析。如果使用FASTA文件格式役拴,請在輸入文件中使用T(DNA編碼)糊探。
代碼示例1:
# 獲取目標序列在人類mRNA上聚集的motif
findMotifs.pl mir1-downregulated.genes.txt human-mRNA MotifOutput/ -rna -len 8
結果:
代碼示例2:
# 分析CLIP-Seq for RNA motifs
findMotifsGenome.pl fox2.clip.bed hg17 MotifOutput -rna
結果(a UGCAUG FOX motif):
3.3 獲取已知Motif序列在全基因組上的分布情況
使用scanMotifGenomeWide.pl,代碼如下:
scanMotifGenomeWide.pl <motif file> <genome> [options]
# e.g. 小鼠mm10上已知motif的分布情況
scanMotifGenomeWide.pl pu1.motif mm10 -bed > pu1.sites.mm10.bed
# -bed : Output file will be in BED format - useful when you want to upload to the UCSC browser.
與MEME比較而言河闰,個人覺得Homer比較順手科平!
通過meme去來找motif,需要bed格式的peaks的坐標來獲取fasta序列姜性。
MEME瞪慧,鏈接:http://meme-suite.org/
-------------------------------------------------------------------------------------------------------------------------------------------------------------I'm a line ! Thanks for your attention !----------------------------------------------------------------------------------------------------------------