transcription factor轉(zhuǎn)錄因子介紹

TF: transcription factor轉(zhuǎn)錄因子
TFBS: transcription factor binding site轉(zhuǎn)錄因子結(jié)合位點(diǎn)
TFBS是序列內(nèi)的location侦另，TF特異結(jié)合在這里秩命，這個site有這種特點(diǎn)

1 和一些參考相關(guān)的一個位置（開始，結(jié)束褒傅，strand）弃锐，這些reference可以是染色體開始，geneTSS殿托。也可以是一段sequence
2 A SITE可以是實(shí)驗(yàn)證實(shí)的（已知的）霹菊，也可以是一些算法（預(yù)測的）
3 例子，下面這個圖是酵母TF Pho4p的結(jié)合位點(diǎn)支竹。坐標(biāo)和起始密碼相關(guān)旋廷。

image

從結(jié)合位點(diǎn)到結(jié)合motif binding motifs

定義：transcription factor binding site（TFBS）
TFBS指的是TF特異結(jié)合的DNA分子的position（位置），延伸的話礼搁，就是DNA片段的序列邊界饶碘。
注意，文獻(xiàn)中經(jīng)常把結(jié)合位點(diǎn)和結(jié)合域混淆（binding site 馒吴，binding motif）
我們推薦保留“site”這個詞來定義某一特別sequence（基因的或artificial）扎运，這是一個factor結(jié)合的地方。而“motif”這個詞進(jìn)行結(jié)合特異性的genetic（遺傳學(xué)的）描述饮戳，通過匯總一系列sites的信息進(jìn)行匯總得到豪治。

定義：TFBM (transcription factor binding motif)
轉(zhuǎn)錄因子結(jié)合域
“代表一個TF的結(jié)合特異性，通常通過匯總一系列結(jié)合位點(diǎn)的保守和可變位點(diǎn)而來扯罐，幾個modes或representation可以用來描述TFBM：一致性负拟，位點(diǎn)特異得分方陣，Hidden Markov Models（HMM）”歹河。

1 我們使用術(shù)語”motif”或“pattern”在模型的意義上代表一個TF結(jié)合位點(diǎn)的特異性掩浙。
2 一個motif通常從一系列轉(zhuǎn)錄結(jié)合位點(diǎn)匯總產(chǎn)生
3 一個motif可以使用不同的形式描述
3.1 一致性string（consensus string）
A：核苷酸序列（nucleotide alphabet CACTTGGG）
B：IUPAC alphabet CACGTGKK
C:regular expression（規(guī)律表達(dá)） CACGTG[GT][GT]
3.2 位置特異性得分矩陣（position-specific scoring matrix）(PSSM)
3.3 Logo representation(Schneider,1986)
3.4 Hidden Markov Models(HMM)

Binding specificity結(jié)合特異性

1 Pho4p的結(jié)合特異性已經(jīng)很好的被描述過了
2 High-affinity高親和位點(diǎn)有核心CACGTG琉挖，后面跟著幾個Gs或Cs
3 Medium-affinity中度親和位點(diǎn)有核心的CACGTT，跟著幾個Ts
4 一些單核苷酸突變足以阻止轉(zhuǎn)錄因子與其結(jié)合

image

image

Consensus reprentation

第一涣脚，酵母TF Pho4p在TRANSFAC數(shù)據(jù)庫中包含8個結(jié)合位點(diǎn)

其中示辈，5/8包含高親和力結(jié)合位點(diǎn)（CACGTG）

3/8包含中度親和力結(jié)合位點(diǎn)（CACGTT）

第二，IUPAC 模糊的核苷酸密碼允許代表可變堿基

第三遣蚀，15字母代表任何可能的結(jié)合在4個核苷酸之間（2-1=15）

第四矾麻，這種表示對殘基的相對重要性提供了一個poor idea。

image

Building a position-specific scoring matrix from a collection of sites

TF Pho4p結(jié)合位點(diǎn)的排列（TRANSFAC注釋）

image

(generated with Web Logo http://weblogo.berkeley.edu/logo.cgi)

Characteristics of yeast regulatory regions

在酵母中
第一芭梯，順式作用元件（cis-regulatory elements）位于調(diào)控gene非編碼區(qū)上游
第二险耀，鏈敏感性strand-insensitive：活性不依賴于strand
第三，從起始密碼子開始算玖喘，位于其~800bp以內(nèi)：活性不依賴于精確位置

Cis-regulator modules(CRM)

image

1 在后生動物中甩牺，一些非編碼區(qū)域（典型的100-200bp）包含清晰的TF緊密壓縮的結(jié)合位點(diǎn).
2 這些區(qū)域稱之為cis-regulatory regions（CRMs）順式調(diào)控區(qū)域。
3 CRMs起著整合devices（設(shè)備）的作用
4 依賴于細(xì)胞中TF的結(jié)合累奈，他們會激活或抑制靶基因的表達(dá)贬派。（激活-增強(qiáng)子，抑制-沉默子）

Cis-regulatory elements and their organization

The localization of cis-regulatory regions varies depending on the type of organism

image

?? PAZAR http://www.pazar.info/
?? Unification of independent collection of transcription factor binding sites and motifs.
?? YeasTract http://www.yeastract.com/
?? Yeast-specific database. Factors, binding sites and motifs + tools.
?? FlyReg http://www.flyreg.org/
?? Drosophila DNase I Footprint Database
?? PlantCARE http://bioinformatics.psb.ugent.be/webtools/plantcare/html/
?? Plant Cis-Acting Regulatory Elements

2.motif或pattern匹配

Pattern matching

image

Pattern matching in a small set of sequences

目標(biāo)：知道m(xù)otif澎媒，在感興趣的序列中發(fā)現(xiàn)匹配的位置
為每個位置指定一個得分
第一搞乏，顯示匹配的質(zhì)量
1 String-based 模式匹配替代
2 基于矩陣的模式匹配的權(quán)重得分
第二，為每個模式顯示先驗(yàn)的重要性
例如從模式發(fā)現(xiàn)的重要性

Expected mathes for a consensus in whole genomes

從基因組范圍模式匹配的期望值

Assuming a perfectly conserved hexanucleotide, with strand-insensitive activity
Expected matching rate:1 occ/2kb

image

Genome-scale pattern matching

目標(biāo)：給定一個模式戒努，在整個基因組范圍內(nèi)發(fā)現(xiàn)匹配请敦。
也就是鑒定一個給定的TF調(diào)控的基因。
通常來說储玫，基于單個信號的搜索會返回很多假陽性
改進(jìn)：第一侍筛，搜索重復(fù)信號（例如GATA框）
第二，搜索信號的結(jié)合
第三撒穷，限定位置
第四匣椰，結(jié)合編碼區(qū)信息。

String-based pattern matching

Word counting-Occurrences or matching sequences

如果一個序列包含一個給定motif的大量的出現(xiàn)桥滨，那么可以對他們所有進(jìn)行得分或只計(jì)算每個序列的第一個出現(xiàn)窝爪，這種情況下弛车，每一個序列都被記錄為匹配motif或不匹配齐媒。

image

Treatment of self-overlap

對這樣的words可以這樣計(jì)數(shù)
每一個只計(jì)算更新發(fā)生（下面的例子是兩次，意思不回頭）
或者所有的出現(xiàn)都算（2個renewing纷跛，2個重疊下面的例子）
計(jì)算模式的選擇強(qiáng)烈影響后續(xù)的統(tǒng)計(jì)（依賴不依賴）

image

（renewing occurrences就是過去就過去了喻括，重新開始計(jì)算
Overlapping occurrences是不管怎么，只要首字母可以查到我想要的贫奠，就一直重復(fù)算）
3 Single or double starand count

1 DNA序列的特殊性是它的雙鏈結(jié)構(gòu)唬血。
2 Words可以單鏈計(jì)算也可以雙鏈望蜡，這依賴于期待的生物學(xué)信號的本質(zhì)。
A：在RNA序列中拷恨，單鏈計(jì)算普遍合適
B：DNA序列中脖律，對順式作用元件來說，雙鏈計(jì)數(shù)都可以腕侄，因?yàn)楹芏噢D(zhuǎn)錄因子作用不依賴于方向定位小泉。

image

Symmetrics in DNA sequences

回文序列：相對于中間的一個字母是對陣的，正讀倒讀都一樣冕杠。
下面這個序列含有文字回文序列

image

但是微姊，相應(yīng)的DNA分子沒有對稱性

image

下面這個序列不含有文字的回文序列

image

但是，相應(yīng)的DNA分子有“反向互補(bǔ)回文序列”：DNA分子有同樣的核苷酸串分预，無論你讀哪條鏈（都是從5端到3端）

RSAT tool:dna-pattern
在匹配DNA序列上兢交，尤其特定的模式匹配程序

1 支持部分特定核苷酸的IUPAC代碼（例如TSWNATTK）
2 支持模式內(nèi)固定或可變長度的空格例如GGGWn｛0，30｝WCCC
3 單鏈或雙鏈
4 允許替代但不允許插入或刪除
提取匹配的鄰居（側(cè)翼堿基）
返回（匹配位置笼痹，每個序列的匹配計(jì)數(shù)）
滑動窗口
檢測包含多個模式組合的區(qū)域
具體的權(quán)重可以與每種模式相關(guān)聯(lián)

Matching simple patterns

一個簡單的字符串匹配模式通常信息量不足
第一配喳，虛假匹配隨處可見
第二，一致性的出現(xiàn)不是總依偎著TF結(jié)合
第三凳干，一些motif比其他的有更高的重要性界逛，比如一致性序列的核心區(qū)域

image

Matching a collection of overlapping patterns

模式匹配的結(jié)果可以通過匹配相互重疊的模式（單詞或間隔二元組）的集合進(jìn)行提高
可以使用多種模式來表示較大的結(jié)合位點(diǎn)的片段，或者可以使用多種模式
由共識退化引起的變種纺座。
可以將特定的權(quán)重分配給集合的元素息拜，以表示它們對綁定的相對重要性

image

Genome-scale pattern matching

知道給定的TF的一致性結(jié)合位點(diǎn)，一個人可以試圖使用這個信息來預(yù)測整個基因組中的靶基因净响。
這個方法非常不準(zhǔn)確少欺，因?yàn)?br> 第一，這個一致性很難反應(yīng)結(jié)合的特異性
第二馋贤，結(jié)合和調(diào)控不是同義詞
做一個實(shí)驗(yàn)赞别，我們通過TRANSFAC和我們自己的注釋來計(jì)數(shù)不同的酵母TF的一致性發(fā)生數(shù)目，針對下面中的每一個
第一配乓，序列上游800bp仿滔，剪切來防止上游的ORFS
第二，對每一個gene犹芹，我們計(jì)算每個一致序列的出現(xiàn)數(shù)目崎页。

Matrix-based pattern matching

Regulatory motif:position-specific scoring matrix(PSSM)

Binding motif of the yeast TF Pho4p(TRANSFAC matrix F$PHO4_01

image

Frequency matrix

image

Pseudo-count correction

image

Probability of a sequence segment under the matrix model

image

Probability of a sequence segment under the matrix model

image

Probability of the highest scoring sequence segment

image

作者：Y大寬
鏈接：http://www.reibang.com/p/ad82fe903e57

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市腰埂，隨后出現(xiàn)的幾起案子飒焦，更是在濱河造成了極大的恐慌，老刑警劉巖屿笼，帶你破解...
沈念sama閱讀 216,402評論 6贊 499
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件牺荠，死亡現(xiàn)場離奇詭異翁巍，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)休雌，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,377評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門灶壶，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人杈曲，你說我怎么就攤上這事例朱。” “怎么了鱼蝉？”我有些...
開封第一講書人閱讀 162,483評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵洒嗤，是天一觀的道長。經(jīng)常有香客問我魁亦，道長渔隶，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,165評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任洁奈，我火速辦了婚禮间唉，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘利术。我一直安慰自己呈野，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,176評論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布印叁。她就那樣靜靜地躺著被冒，像睡著了一般。火紅的嫁衣襯著肌膚如雪轮蜕。梳的紋絲不亂的頭發(fā)上昨悼，一...
開封第一講書人閱讀 51,146評論 1贊 297
城市分裂傳說
那天，我揣著相機(jī)與錄音跃洛，去河邊找鬼率触。笑死，一個胖子當(dāng)著我的面吹牛汇竭，可吹牛的內(nèi)容都是我干的葱蝗。我是一名探鬼主播，決...
沈念sama閱讀 40,032評論 3贊 417
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼细燎，長吁一口氣：“原來是場噩夢啊……” “哼两曼！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起找颓，我...
開封第一講書人閱讀 38,896評論 0贊 274
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤合愈，失蹤者是張志新（化名）和其女友劉穎叮贩，沒想到半個月后击狮，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體佛析，經(jīng)...
沈念sama閱讀 45,311評論 1贊 310
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,536評論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年彪蓬，在試婚紗的時候發(fā)現(xiàn)自己被綠了寸莫。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,696評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡档冬，死狀恐怖膘茎，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情酷誓，我是刑警寧澤披坏，帶...
沈念sama閱讀 35,413評論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站盐数，受9級特大地震影響棒拂，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜玫氢，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,008評論 3贊 325
男人毒藥：我在死后第九天來索命
文/蒙蒙一帚屉、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧漾峡，春花似錦攻旦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,659評論 0贊 22
一樁弒父案牢屋，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至槽袄，卻和暖如春伟阔，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背掰伸。一陣腳步聲響...
開封第一講書人閱讀 32,815評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工皱炉，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人狮鸭。一個月前我還...
沈念sama閱讀 47,698評論 2贊 368
代替公主和親
正文我出身青樓合搅，卻偏偏與公主長得像，于是被迫代替她去往敵國和親歧蕉。傳聞我的和親對象是個殘疾皇子灾部，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,592評論 2贊 353

transcription factor轉(zhuǎn)錄因子介紹

從結(jié)合位點(diǎn)到結(jié)合motif binding motifs

Consensus reprentation

Building a position-specific scoring matrix from a collection of sites

Characteristics of yeast regulatory regions

Cis-regulator modules(CRM)

Cis-regulatory elements and their organization

2.motif或pattern匹配

Pattern matching in a small set of sequences

Expected mathes for a consensus in whole genomes

Genome-scale pattern matching

String-based pattern matching

Word counting-Occurrences or matching sequences

Treatment of self-overlap

Symmetrics in DNA sequences

Matching simple patterns

Matching a collection of overlapping patterns

Genome-scale pattern matching

Matrix-based pattern matching

Regulatory motif:position-specific scoring matrix(PSSM)

Binding motif of the yeast TF Pho4p(TRANSFAC matrix F$PHO4_01

Frequency matrix

Pseudo-count correction

Probability of a sequence segment under the matrix model

Probability of a sequence segment under the matrix model

Probability of the highest scoring sequence segment

推薦閱讀更多精彩內(nèi)容