TF: transcription factor轉(zhuǎn)錄因子
TFBS: transcription factor binding site轉(zhuǎn)錄因子結(jié)合位點(diǎn)
TFBS是序列內(nèi)的location侦另,TF特異結(jié)合在這里秩命,這個site有這種特點(diǎn)
1 和一些參考相關(guān)的一個位置(開始,結(jié)束褒傅,strand)弃锐,這些reference可以是染色體開始,geneTSS殿托。也可以是一段sequence
2 A SITE可以是實(shí)驗(yàn)證實(shí)的(已知的)霹菊,也可以是一些算法(預(yù)測的)
-
3 例子,下面這個圖是酵母TF Pho4p的結(jié)合位點(diǎn)支竹。坐標(biāo)和起始密碼相關(guān)旋廷。
從結(jié)合位點(diǎn)到結(jié)合motif binding motifs
定義:transcription factor binding site(TFBS)
TFBS指的是TF特異結(jié)合的DNA分子的position(位置),延伸的話礼搁,就是DNA片段的序列邊界饶碘。
注意,文獻(xiàn)中經(jīng)常把結(jié)合位點(diǎn)和結(jié)合域混淆(binding site 馒吴,binding motif)
我們推薦保留“site”這個詞來定義某一特別sequence(基因的或artificial)扎运,這是一個factor結(jié)合的地方。而“motif”這個詞進(jìn)行結(jié)合特異性的genetic(遺傳學(xué)的)描述饮戳,通過匯總一系列sites的信息進(jìn)行匯總得到豪治。
定義:TFBM (transcription factor binding motif)
轉(zhuǎn)錄因子結(jié)合域
“代表一個TF的結(jié)合特異性,通常通過匯總一系列結(jié)合位點(diǎn)的保守和可變位點(diǎn)而來扯罐,幾個modes或representation可以用來描述TFBM:一致性负拟,位點(diǎn)特異得分方陣,Hidden Markov Models(HMM)”歹河。
- 1 我們使用術(shù)語”motif”或“pattern”在模型的意義上代表一個TF結(jié)合位點(diǎn)的特異性掩浙。
- 2 一個motif通常從一系列轉(zhuǎn)錄結(jié)合位點(diǎn)匯總產(chǎn)生
- 3 一個motif可以使用不同的形式描述
3.1 一致性string(consensus string)
A:核苷酸序列(nucleotide alphabet CACTTGGG)
B:IUPAC alphabet CACGTGKK
C:regular expression(規(guī)律表達(dá)) CACGTG[GT][GT]
3.2 位置特異性得分矩陣(position-specific scoring matrix)(PSSM)
3.3 Logo representation(Schneider,1986)
3.4 Hidden Markov Models(HMM)
Binding specificity結(jié)合特異性
1 Pho4p的結(jié)合特異性已經(jīng)很好的被描述過了
2 High-affinity高親和位點(diǎn)有核心CACGTG琉挖,后面跟著幾個Gs或Cs
3 Medium-affinity中度親和位點(diǎn)有核心的CACGTT,跟著幾個Ts
-
4 一些單核苷酸突變足以阻止轉(zhuǎn)錄因子與其結(jié)合
Consensus reprentation
第一涣脚,酵母TF Pho4p在TRANSFAC數(shù)據(jù)庫中包含8個結(jié)合位點(diǎn)
其中示辈,5/8包含高親和力結(jié)合位點(diǎn)(CACGTG)
3/8包含中度親和力結(jié)合位點(diǎn)(CACGTT)
第二,IUPAC 模糊的核苷酸密碼允許代表可變堿基
第三遣蚀,15字母代表任何可能的結(jié)合在4個核苷酸之間(2-1=15)
第四矾麻,這種表示對殘基的相對重要性提供了一個poor idea。
Building a position-specific scoring matrix from a collection of sites
TF Pho4p結(jié)合位點(diǎn)的排列(TRANSFAC注釋)
(generated with Web Logo http://weblogo.berkeley.edu/logo.cgi)
Characteristics of yeast regulatory regions
在酵母中
第一芭梯,順式作用元件(cis-regulatory elements)位于調(diào)控gene非編碼區(qū)上游
第二险耀,鏈敏感性strand-insensitive:活性不依賴于strand
第三,從起始密碼子開始算玖喘,位于其~800bp以內(nèi):活性不依賴于精確位置
Cis-regulator modules(CRM)
- 1 在后生動物中甩牺,一些非編碼區(qū)域(典型的100-200bp)包含清晰的TF緊密壓縮的結(jié)合位點(diǎn).
- 2 這些區(qū)域稱之為cis-regulatory regions(CRMs)順式調(diào)控區(qū)域。
- 3 CRMs起著整合devices(設(shè)備)的作用
- 4 依賴于細(xì)胞中TF的結(jié)合累奈,他們會激活或抑制靶基因的表達(dá)贬派。(激活-增強(qiáng)子,抑制-沉默子)
Cis-regulatory elements and their organization
The localization of cis-regulatory regions varies depending on the type of organism
?? PAZAR http://www.pazar.info/
?? Unification of independent collection of transcription factor binding sites and motifs.
?? YeasTract http://www.yeastract.com/
?? Yeast-specific database. Factors, binding sites and motifs + tools.
?? FlyReg http://www.flyreg.org/
?? Drosophila DNase I Footprint Database
?? PlantCARE http://bioinformatics.psb.ugent.be/webtools/plantcare/html/
?? Plant Cis-Acting Regulatory Elements
2.motif或pattern匹配
Pattern matching
Pattern matching in a small set of sequences
目標(biāo):知道m(xù)otif澎媒,在感興趣的序列中發(fā)現(xiàn)匹配的位置
為每個位置指定一個得分
第一搞乏,顯示匹配的質(zhì)量
1 String-based 模式匹配替代
2 基于矩陣的模式匹配的權(quán)重得分
第二,為每個模式顯示先驗(yàn)的重要性
例如從模式發(fā)現(xiàn)的重要性
Expected mathes for a consensus in whole genomes
從基因組范圍模式匹配的期望值
Assuming a perfectly conserved hexanucleotide, with strand-insensitive activity
-
Expected matching rate:1 occ/2kb
Genome-scale pattern matching
目標(biāo):給定一個模式戒努,在整個基因組范圍內(nèi)發(fā)現(xiàn)匹配请敦。
也就是鑒定一個給定的TF調(diào)控的基因。
通常來說储玫,基于單個信號的搜索會返回很多假陽性
改進(jìn):第一侍筛,搜索重復(fù)信號(例如GATA框)
第二,搜索信號的結(jié)合
第三撒穷,限定位置
第四匣椰,結(jié)合編碼區(qū)信息。
String-based pattern matching
Word counting-Occurrences or matching sequences
如果一個序列包含一個給定motif的大量的出現(xiàn)桥滨,那么可以對他們所有進(jìn)行得分或只計(jì)算每個序列的第一個出現(xiàn)窝爪,這種情況下弛车,每一個序列都被記錄為匹配motif或不匹配齐媒。
Treatment of self-overlap
對這樣的words可以這樣計(jì)數(shù)
每一個只計(jì)算更新發(fā)生(下面的例子是兩次,意思不回頭)
或者所有的出現(xiàn)都算(2個renewing纷跛,2個重疊下面的例子)
計(jì)算模式的選擇強(qiáng)烈影響后續(xù)的統(tǒng)計(jì)(依賴不依賴)
(renewing occurrences就是過去就過去了喻括,重新開始計(jì)算
Overlapping occurrences是不管怎么,只要首字母可以查到我想要的贫奠,就一直重復(fù)算)
3 Single or double starand count
1 DNA序列的特殊性是它的雙鏈結(jié)構(gòu)唬血。
-
2 Words可以單鏈計(jì)算也可以雙鏈望蜡,這依賴于期待的生物學(xué)信號的本質(zhì)。
A:在RNA序列中拷恨,單鏈計(jì)算普遍合適
B:DNA序列中脖律,對順式作用元件來說,雙鏈計(jì)數(shù)都可以腕侄,因?yàn)楹芏噢D(zhuǎn)錄因子作用不依賴于方向定位小泉。
Symmetrics in DNA sequences
回文序列:相對于中間的一個字母是對陣的,正讀倒讀都一樣冕杠。
下面這個序列含有文字回文序列
但是微姊,相應(yīng)的DNA分子沒有對稱性
下面這個序列不含有文字的回文序列
但是,相應(yīng)的DNA分子有“反向互補(bǔ)回文序列”:DNA分子有同樣的核苷酸串分预,無論你讀哪條鏈(都是從5端到3端)
RSAT tool:dna-pattern
在匹配DNA序列上兢交,尤其特定的模式匹配程序
- 1 支持部分特定核苷酸的IUPAC代碼(例如TSWNATTK)
- 2 支持模式內(nèi)固定或可變長度的空格例如GGGWn{0,30}WCCC
- 3 單鏈或雙鏈
- 4 允許替代但不允許插入或刪除
提取匹配的鄰居(側(cè)翼堿基)
返回(匹配位置笼痹,每個序列的匹配計(jì)數(shù))
滑動窗口
檢測包含多個模式組合的區(qū)域
具體的權(quán)重可以與每種模式相關(guān)聯(lián)
Matching simple patterns
一個簡單的字符串匹配模式通常信息量不足
第一配喳,虛假匹配隨處可見
第二,一致性的出現(xiàn)不是總依偎著TF結(jié)合
第三凳干,一些motif比其他的有更高的重要性界逛,比如一致性序列的核心區(qū)域
Matching a collection of overlapping patterns
模式匹配的結(jié)果可以通過匹配相互重疊的模式(單詞或間隔二元組)的集合進(jìn)行提高
可以使用多種模式來表示較大的結(jié)合位點(diǎn)的片段,或者可以使用多種模式
由共識退化引起的變種纺座。
可以將特定的權(quán)重分配給集合的元素息拜,以表示它們對綁定的相對重要性
Genome-scale pattern matching
知道給定的TF的一致性結(jié)合位點(diǎn),一個人可以試圖使用這個信息來預(yù)測整個基因組中的靶基因净响。
這個方法非常不準(zhǔn)確少欺,因?yàn)?br>
第一,這個一致性很難反應(yīng)結(jié)合的特異性
第二馋贤,結(jié)合和調(diào)控不是同義詞
做一個實(shí)驗(yàn)赞别,我們通過TRANSFAC和我們自己的注釋來計(jì)數(shù)不同的酵母TF的一致性發(fā)生數(shù)目,針對下面中的每一個
第一配乓,序列上游800bp仿滔,剪切來防止上游的ORFS
第二,對每一個gene犹芹,我們計(jì)算每個一致序列的出現(xiàn)數(shù)目崎页。
Matrix-based pattern matching
Regulatory motif:position-specific scoring matrix(PSSM)
Binding motif of the yeast TF Pho4p(TRANSFAC matrix F$PHO4_01
Frequency matrix
Pseudo-count correction
Probability of a sequence segment under the matrix model
Probability of a sequence segment under the matrix model
Probability of the highest scoring sequence segment
作者:Y大寬
鏈接:http://www.reibang.com/p/ad82fe903e57