Transcription Factor Binding Sites (TFBSs), 為一R包,可用于鑒定轉(zhuǎn)錄因子結(jié)合位點钠至。具體可查看說明
安裝所需包
BiocManager::install("TFBSTools")
BiocManager::install("JASPAR2018")
BiocManager::install("Biostrings")
所需數(shù)據(jù)
- 位置權(quán)重文件(position weight matrices, PWM)或位置頻率矩陣(position frequency matrices, PFM) ),轉(zhuǎn)錄因子的結(jié)合序列
- 一段DNA序列,或者fasta格式序列
TFSTools與JASPAR2018交互獲得PWM
JASPAR為一預(yù)測轉(zhuǎn)錄因子結(jié)合位點的在線網(wǎng)站。不過同樣也存在R包景醇。
我們可以從JASPAR2018中獲取相應(yīng)的PFM或者PWM文件,具體如下(擬南芥為例):
## 加載包
suppressMessages(library(JASPAR2014))
opts <- list()
opts[["species"]] <- 'Arabidopsis thaliana'
opts["collection"] <- 'CORE'
PFMatrixList <- getMatrixSet(JASPAR2018, opts)
## 也可將PFM轉(zhuǎn)換為PWM
pwm <- toPWM(PFMatrixList)
上傳DNA序列
事先截取基因上游(大概2-3K)序列吝岭,如果有一個基因則通過DNAString()即可讀取三痰,或多個基因,則準備fasta文件通過Biostrings::readDNAStringSet()讀取窜管,較為簡單散劫,不在敘述。
運行示例數(shù)據(jù)
## 加載包
library(Biostrings)
library(TFBSTools)
# 加載權(quán)重文件
data(MA0003.2)
pwm <- PWMatrixList(MA0003.2=toPWM(MA0003.2))
dna <- DNAString("GAATTCTCTCTTGTTGTAGTCTCTTGACAAAATG")
siteset <- searchSeq(pwm, dna, seqname="seq1", min.score="60%", strand="*")
## strand="*"幕帆,對+/-鏈進行檢測
結(jié)果查看
通過查看获搏,并導出結(jié)果即可
head(writeGFF3(siteset))
#> seqname source feature start end score strand frame
#> 1 seq1 TFBS TFBS 8 13 -1.888154 + .
#> 2 seq1 TFBS TFBS 21 26 -1.888154 + .
#> 3 seq1 TFBS TFBS 29 34 -3.908935 + .
#> 4 seq1 TFBS TFBS 8 13 -1.961403 - .
#> 5 seq1 TFBS TFBS 10 15 -3.908935 - .
#> 6 seq1 TFBS TFBS 21 26 -1.961403 - .
#> attributes
#> 1 TF=Arnt;class=Zipper-Type;sequence=CTCTTG
#> 2 TF=Arnt;class=Zipper-Type;sequence=CTCTTG
#> 3 TF=Arnt;class=Zipper-Type;sequence=AAAATG
#> 4 TF=Arnt;class=Zipper-Type;sequence=CAAGAG
#> 5 TF=Arnt;class=Zipper-Type;sequence=AACAAG
#> 6 TF=Arnt;class=Zipper-Type;sequence=CAAGAG
結(jié)果中可以看到,序列的哪些位置有可能結(jié)合的轉(zhuǎn)錄因子失乾。