transcription factor轉(zhuǎn)錄因子介紹

TF: transcription factor轉(zhuǎn)錄因子
TFBS: transcription factor binding site轉(zhuǎn)錄因子結(jié)合位點(diǎn)
TFBS是序列內(nèi)的location侦另,TF特異結(jié)合在這里秩命,這個site有這種特點(diǎn)

  • 1 和一些參考相關(guān)的一個位置(開始,結(jié)束褒傅,strand)弃锐,這些reference可以是染色體開始,geneTSS殿托。也可以是一段sequence

  • 2 A SITE可以是實(shí)驗(yàn)證實(shí)的(已知的)霹菊,也可以是一些算法(預(yù)測的)

  • 3 例子,下面這個圖是酵母TF Pho4p的結(jié)合位點(diǎn)支竹。坐標(biāo)和起始密碼相關(guān)旋廷。

    image

從結(jié)合位點(diǎn)到結(jié)合motif binding motifs

定義:transcription factor binding site(TFBS)
TFBS指的是TF特異結(jié)合的DNA分子的position(位置),延伸的話礼搁,就是DNA片段的序列邊界饶碘。
注意,文獻(xiàn)中經(jīng)常把結(jié)合位點(diǎn)和結(jié)合域混淆(binding site 馒吴,binding motif)
我們推薦保留“site”這個詞來定義某一特別sequence(基因的或artificial)扎运,這是一個factor結(jié)合的地方。而“motif”這個詞進(jìn)行結(jié)合特異性的genetic(遺傳學(xué)的)描述饮戳,通過匯總一系列sites的信息進(jìn)行匯總得到豪治。

定義:TFBM (transcription factor binding motif)
轉(zhuǎn)錄因子結(jié)合域
“代表一個TF的結(jié)合特異性,通常通過匯總一系列結(jié)合位點(diǎn)的保守和可變位點(diǎn)而來扯罐,幾個modes或representation可以用來描述TFBM:一致性负拟,位點(diǎn)特異得分方陣,Hidden Markov Models(HMM)”歹河。

  • 1 我們使用術(shù)語”motif”或“pattern”在模型的意義上代表一個TF結(jié)合位點(diǎn)的特異性掩浙。
  • 2 一個motif通常從一系列轉(zhuǎn)錄結(jié)合位點(diǎn)匯總產(chǎn)生
  • 3 一個motif可以使用不同的形式描述
    3.1 一致性string(consensus string)
    A:核苷酸序列(nucleotide alphabet CACTTGGG)
    B:IUPAC alphabet CACGTGKK
    C:regular expression(規(guī)律表達(dá)) CACGTG[GT][GT]
    3.2 位置特異性得分矩陣(position-specific scoring matrix)(PSSM)
    3.3 Logo representation(Schneider,1986)
    3.4 Hidden Markov Models(HMM)

Binding specificity結(jié)合特異性

  • 1 Pho4p的結(jié)合特異性已經(jīng)很好的被描述過了

  • 2 High-affinity高親和位點(diǎn)有核心CACGTG琉挖,后面跟著幾個Gs或Cs

  • 3 Medium-affinity中度親和位點(diǎn)有核心的CACGTT,跟著幾個Ts

  • 4 一些單核苷酸突變足以阻止轉(zhuǎn)錄因子與其結(jié)合

    image
    image

Consensus reprentation

第一涣脚,酵母TF Pho4p在TRANSFAC數(shù)據(jù)庫中包含8個結(jié)合位點(diǎn)

其中示辈,5/8包含高親和力結(jié)合位點(diǎn)(CACGTG)

3/8包含中度親和力結(jié)合位點(diǎn)(CACGTT)

第二,IUPAC 模糊的核苷酸密碼允許代表可變堿基

第三遣蚀,15字母代表任何可能的結(jié)合在4個核苷酸之間(2-1=15)

第四矾麻,這種表示對殘基的相對重要性提供了一個poor idea。

image

Building a position-specific scoring matrix from a collection of sites

TF Pho4p結(jié)合位點(diǎn)的排列(TRANSFAC注釋)

image
image

(generated with Web Logo http://weblogo.berkeley.edu/logo.cgi)

Characteristics of yeast regulatory regions

在酵母中
第一芭梯,順式作用元件(cis-regulatory elements)位于調(diào)控gene非編碼區(qū)上游
第二险耀,鏈敏感性strand-insensitive:活性不依賴于strand
第三,從起始密碼子開始算玖喘,位于其~800bp以內(nèi):活性不依賴于精確位置

Cis-regulator modules(CRM)

image
  • 1 在后生動物中甩牺,一些非編碼區(qū)域(典型的100-200bp)包含清晰的TF緊密壓縮的結(jié)合位點(diǎn).
  • 2 這些區(qū)域稱之為cis-regulatory regions(CRMs)順式調(diào)控區(qū)域。
  • 3 CRMs起著整合devices(設(shè)備)的作用
  • 4 依賴于細(xì)胞中TF的結(jié)合累奈,他們會激活或抑制靶基因的表達(dá)贬派。(激活-增強(qiáng)子,抑制-沉默子)

Cis-regulatory elements and their organization

The localization of cis-regulatory regions varies depending on the type of organism

image
image
image
image

?? PAZAR http://www.pazar.info/
?? Unification of independent collection of transcription factor binding sites and motifs.
?? YeasTract http://www.yeastract.com/
?? Yeast-specific database. Factors, binding sites and motifs + tools.
?? FlyReg http://www.flyreg.org/
?? Drosophila DNase I Footprint Database
?? PlantCARE http://bioinformatics.psb.ugent.be/webtools/plantcare/html/
?? Plant Cis-Acting Regulatory Elements

2.motif或pattern匹配

Pattern matching

image
image
image

Pattern matching in a small set of sequences

目標(biāo):知道m(xù)otif澎媒,在感興趣的序列中發(fā)現(xiàn)匹配的位置
為每個位置指定一個得分
第一搞乏,顯示匹配的質(zhì)量
1 String-based 模式匹配替代
2 基于矩陣的模式匹配的權(quán)重得分
第二,為每個模式顯示先驗(yàn)的重要性
例如從模式發(fā)現(xiàn)的重要性

Expected mathes for a consensus in whole genomes

從基因組范圍模式匹配的期望值

  • Assuming a perfectly conserved hexanucleotide, with strand-insensitive activity

  • Expected matching rate:1 occ/2kb

    image

Genome-scale pattern matching

目標(biāo):給定一個模式戒努,在整個基因組范圍內(nèi)發(fā)現(xiàn)匹配请敦。
也就是鑒定一個給定的TF調(diào)控的基因。
通常來說储玫,基于單個信號的搜索會返回很多假陽性
改進(jìn):第一侍筛,搜索重復(fù)信號(例如GATA框)
第二,搜索信號的結(jié)合
第三撒穷,限定位置
第四匣椰,結(jié)合編碼區(qū)信息。

String-based pattern matching

Word counting-Occurrences or matching sequences

如果一個序列包含一個給定motif的大量的出現(xiàn)桥滨,那么可以對他們所有進(jìn)行得分或只計(jì)算每個序列的第一個出現(xiàn)窝爪,這種情況下弛车,每一個序列都被記錄為匹配motif或不匹配齐媒。

image

Treatment of self-overlap

對這樣的words可以這樣計(jì)數(shù)
每一個只計(jì)算更新發(fā)生(下面的例子是兩次,意思不回頭)
或者所有的出現(xiàn)都算(2個renewing纷跛,2個重疊下面的例子)
計(jì)算模式的選擇強(qiáng)烈影響后續(xù)的統(tǒng)計(jì)(依賴不依賴)

image

(renewing occurrences就是過去就過去了喻括,重新開始計(jì)算
Overlapping occurrences是不管怎么,只要首字母可以查到我想要的贫奠,就一直重復(fù)算)
3 Single or double starand count

  • 1 DNA序列的特殊性是它的雙鏈結(jié)構(gòu)唬血。

  • 2 Words可以單鏈計(jì)算也可以雙鏈望蜡,這依賴于期待的生物學(xué)信號的本質(zhì)。
    A:在RNA序列中拷恨,單鏈計(jì)算普遍合適
    B:DNA序列中脖律,對順式作用元件來說,雙鏈計(jì)數(shù)都可以腕侄,因?yàn)楹芏噢D(zhuǎn)錄因子作用不依賴于方向定位小泉。

    image

Symmetrics in DNA sequences

回文序列:相對于中間的一個字母是對陣的,正讀倒讀都一樣冕杠。
下面這個序列含有文字回文序列

image

但是微姊,相應(yīng)的DNA分子沒有對稱性

image

下面這個序列不含有文字的回文序列

image

但是,相應(yīng)的DNA分子有“反向互補(bǔ)回文序列”:DNA分子有同樣的核苷酸串分预,無論你讀哪條鏈(都是從5端到3端)

RSAT tool:dna-pattern
在匹配DNA序列上兢交,尤其特定的模式匹配程序

  • 1 支持部分特定核苷酸的IUPAC代碼(例如TSWNATTK)
  • 2 支持模式內(nèi)固定或可變長度的空格例如GGGWn{0,30}WCCC
  • 3 單鏈或雙鏈
  • 4 允許替代但不允許插入或刪除
    提取匹配的鄰居(側(cè)翼堿基)
    返回(匹配位置笼痹,每個序列的匹配計(jì)數(shù))
    滑動窗口
    檢測包含多個模式組合的區(qū)域
    具體的權(quán)重可以與每種模式相關(guān)聯(lián)

Matching simple patterns

一個簡單的字符串匹配模式通常信息量不足
第一配喳,虛假匹配隨處可見
第二,一致性的出現(xiàn)不是總依偎著TF結(jié)合
第三凳干,一些motif比其他的有更高的重要性界逛,比如一致性序列的核心區(qū)域

image

Matching a collection of overlapping patterns

模式匹配的結(jié)果可以通過匹配相互重疊的模式(單詞或間隔二元組)的集合進(jìn)行提高
可以使用多種模式來表示較大的結(jié)合位點(diǎn)的片段,或者可以使用多種模式
由共識退化引起的變種纺座。
可以將特定的權(quán)重分配給集合的元素息拜,以表示它們對綁定的相對重要性

image

Genome-scale pattern matching

知道給定的TF的一致性結(jié)合位點(diǎn),一個人可以試圖使用這個信息來預(yù)測整個基因組中的靶基因净响。
這個方法非常不準(zhǔn)確少欺,因?yàn)?br> 第一,這個一致性很難反應(yīng)結(jié)合的特異性
第二馋贤,結(jié)合和調(diào)控不是同義詞
做一個實(shí)驗(yàn)赞别,我們通過TRANSFAC和我們自己的注釋來計(jì)數(shù)不同的酵母TF的一致性發(fā)生數(shù)目,針對下面中的每一個
第一配乓,序列上游800bp仿滔,剪切來防止上游的ORFS
第二,對每一個gene犹芹,我們計(jì)算每個一致序列的出現(xiàn)數(shù)目崎页。

Matrix-based pattern matching

Regulatory motif:position-specific scoring matrix(PSSM)

Binding motif of the yeast TF Pho4p(TRANSFAC matrix F$PHO4_01

image

Frequency matrix

image

Pseudo-count correction

image

Probability of a sequence segment under the matrix model

image

Probability of a sequence segment under the matrix model

image

Probability of the highest scoring sequence segment

image

作者:Y大寬
鏈接:http://www.reibang.com/p/ad82fe903e57

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市腰埂,隨后出現(xiàn)的幾起案子飒焦,更是在濱河造成了極大的恐慌,老刑警劉巖屿笼,帶你破解...
    沈念sama閱讀 216,402評論 6 499
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件牺荠,死亡現(xiàn)場離奇詭異翁巍,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)休雌,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,377評論 3 392
  • 文/潘曉璐 我一進(jìn)店門灶壶,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人杈曲,你說我怎么就攤上這事例朱。” “怎么了鱼蝉?”我有些...
    開封第一講書人閱讀 162,483評論 0 353
  • 文/不壞的土叔 我叫張陵洒嗤,是天一觀的道長。 經(jīng)常有香客問我魁亦,道長渔隶,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,165評論 1 292
  • 正文 為了忘掉前任洁奈,我火速辦了婚禮间唉,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘利术。我一直安慰自己呈野,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,176評論 6 388
  • 文/花漫 我一把揭開白布印叁。 她就那樣靜靜地躺著被冒,像睡著了一般。 火紅的嫁衣襯著肌膚如雪轮蜕。 梳的紋絲不亂的頭發(fā)上昨悼,一...
    開封第一講書人閱讀 51,146評論 1 297
  • 那天,我揣著相機(jī)與錄音跃洛,去河邊找鬼率触。 笑死,一個胖子當(dāng)著我的面吹牛汇竭,可吹牛的內(nèi)容都是我干的葱蝗。 我是一名探鬼主播,決...
    沈念sama閱讀 40,032評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼细燎,長吁一口氣:“原來是場噩夢啊……” “哼两曼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起找颓,我...
    開封第一講書人閱讀 38,896評論 0 274
  • 序言:老撾萬榮一對情侶失蹤合愈,失蹤者是張志新(化名)和其女友劉穎叮贩,沒想到半個月后击狮,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體佛析,經(jīng)...
    沈念sama閱讀 45,311評論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,536評論 2 332
  • 正文 我和宋清朗相戀三年彪蓬,在試婚紗的時候發(fā)現(xiàn)自己被綠了寸莫。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,696評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡档冬,死狀恐怖膘茎,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情酷誓,我是刑警寧澤披坏,帶...
    沈念sama閱讀 35,413評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站盐数,受9級特大地震影響棒拂,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜玫氢,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,008評論 3 325
  • 文/蒙蒙 一帚屉、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧漾峡,春花似錦攻旦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至槽袄,卻和暖如春伟阔,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背掰伸。 一陣腳步聲響...
    開封第一講書人閱讀 32,815評論 1 269
  • 我被黑心中介騙來泰國打工皱炉, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人狮鸭。 一個月前我還...
    沈念sama閱讀 47,698評論 2 368
  • 正文 我出身青樓合搅,卻偏偏與公主長得像,于是被迫代替她去往敵國和親歧蕉。 傳聞我的和親對象是個殘疾皇子灾部,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,592評論 2 353

推薦閱讀更多精彩內(nèi)容