2019-12-26 Biostar Handbook DAY2

“Scientific Fight Club”的Rules:

1.沒有“通用”規(guī)則瞻佛。
2.每個(gè)看似基本的的paradigm都有一個(gè)或多個(gè)例外锨用。
3.生物信息學(xué)方法的validity取決于數(shù)據(jù)的unknown characteristic舶胀。
4.即使考慮到這些規(guī)則坠狡,生物學(xué)也總是比你想象的要復(fù)雜吨凑。

5.1開始講了一些生物信息學(xué)需要掌握的基本biology知識(shí)(5.1.1-5.1.16)

DNA (Deoxyribo Nucleic Acid)

真核生物位于細(xì)胞核喘帚,原核生物位于細(xì)胞質(zhì)

核苷酸 nucleotide
例:炭疽桿菌的the forward strand
ATATTTTTTCTTGTTTTTTATATCCACAAACTCTTTT

堿基對(duì) base pair
共享某些特征的核苷酸組可以用所謂的歧義碼(ambiguity codes)來指定:

Y是嘧啶贪婉,R是嘌呤反粥,W為弱氫鍵,S為強(qiáng)氫鍵疲迂,K為酮基才顿,M為氨基享钞,D為非C动分,V為非T,H為非G乌昔,B為非A腰池,N為任何堿基尾组,-為gap

DNA鏈 forward strand|reverse strand
在某些數(shù)據(jù)集中也表示為+|-、top|bottom示弓、Watson|Crick (了解即可讳侨,盡量使用forward strand|reverse strand)

這些只是label,不涉及DNA本身的性質(zhì)奏属,具體哪條鏈為forward跨跨,哪條鏈為reverse是由研究者在初次研究某DNA時(shí)決定的,為了交流方便囱皿,label不能隨意改變歹叮。

DNA的方向性
多數(shù)biological mechanism發(fā)生在上圖中的某一條鏈中跑杭,方向?yàn)榧^所指的方向
兩條鏈呈“反向互補(bǔ)”(reverse complement)

同義/反義 sense|antisense

“When a process occurs in the expected direction, its directionality may be called sense”

↑翻譯不出來,感受一下意思吧↑

注意咆耿,sense|antisense和forward strand|reverse strand的概念不相關(guān)德谅。前者是相對(duì)于sequence的方向而言,而這個(gè)sequence既可以來源于forward strand萨螺,也可以來源于reverse strand窄做。

DNA 測(cè)序
這是一個(gè)大的概念,包括所有以鑒定DNA大分子構(gòu)成為目的的流程慰技。DNA測(cè)序會(huì)得到未經(jīng)處理的文件椭盏,通常為FASTA、FASTQ吻商、unaligned BAM(uBAM)文件掏颊。多數(shù)論文會(huì)上傳測(cè)序文件至數(shù)據(jù)庫,以便下載和重復(fù)分析艾帐。

測(cè)序測(cè)的是什么
并不是拿到DNA就開始測(cè)乌叶,而是通過“一系列實(shí)驗(yàn)室流程”將原始DNA轉(zhuǎn)換成測(cè)序文庫(sequencing library),因此測(cè)序是間接得知原有DNA分子的部分信息柒爸,且建庫過程勢(shì)必會(huì)在結(jié)果中引入多種limitations和artificial properties准浴。

基因組
有機(jī)體的每個(gè)體細(xì)胞都包含著一套完整的基因組,細(xì)胞分裂的過程包括基因組的拷貝

基因組是做什么的
編碼信息捎稚,實(shí)現(xiàn)有機(jī)體的功能
包括編碼區(qū)域(編碼蛋白質(zhì))乐横,非編碼區(qū)域(產(chǎn)生非蛋白分子、發(fā)揮調(diào)控作用)今野,同時(shí)包含許多“無功能區(qū)域”(如一些散在序列葡公,重復(fù)序列)
C值矛盾 https://en.wikipedia.org/wiki/C-value#C-value_paradox

基因組大小
朊病毒僅有300個(gè)堿基對(duì),日本重樓有1500億堿基對(duì)条霜,常用的度量基因組大小的單位包括kilo-bases(Kb, 千), mega-bases (Mb, 百萬), giga-bases (Gb, 十億)

常見物種基因組大小匾南,人約3Gb

RNA
在細(xì)胞內(nèi)降解很快(分鐘級(jí))

基因組如何工作
舉個(gè)primary mRNA transcription的例子,“簡單說來”就是:

細(xì)胞將基因轉(zhuǎn)錄(transcription)成RNA分子蛔外,轉(zhuǎn)錄后RNA分子被剪切(splicing)蛆楞,被剪切的部分稱為內(nèi)含子(intron),未被剪切的稱為外顯子(exon)夹厌,剪切后得到信使RNA(mRNA)豹爹。
細(xì)胞通過GT和AG識(shí)別內(nèi)含子(也叫剪切信號(hào),通常出現(xiàn)在內(nèi)含子的開頭和結(jié)尾)矛纹,單有剪切信號(hào)不夠臂聋,35%的人類基因包含可變剪切。

看似簡單的解釋,隨便摘出來一句其實(shí)都是深坑孩等,根本沒這么簡單...這就是生物學(xué)的復(fù)雜性啊

蛋白
DNA艾君,mRNA包含遺傳信息,蛋白則執(zhí)行功能肄方。生化基礎(chǔ)知識(shí)已經(jīng)講了一堆了

蛋白如何產(chǎn)生
轉(zhuǎn)錄冰垄、翻譯、密碼子权她、起始密碼子(編碼甲硫氨酸)虹茶、終止密碼子

什么是開放閱讀框 ORF
包括至少100個(gè)連續(xù)的內(nèi)含子的序列
盡管有所謂的“standard” translation table,但不同物種采用的編碼會(huì)有不同隅要,即所謂的genetic codes蝴罪,可查看https://en.wikipedia.org/wiki/List_of_genetic_codes

什么是基因 gene
Sequence Ontology 給出的gene的定義為:

A region (or regions) that includes all of the sequence elements necessary to encode a functional transcript. A gene may include regulatory regions, transcribed
regions and other functional sequence regions.

這個(gè)定義中,基因包含了編碼有功能轉(zhuǎn)錄本所需的所有元件步清,包括調(diào)控元件要门,轉(zhuǎn)錄元件和其他有功能的序列。

基因組還有其他特點(diǎn)嗎

多了去了廓啊,列舉一些:

  • 非轉(zhuǎn)錄區(qū)域:
    1欢搜、mRNA起始密碼子前有一段5'UTR;
    2崖瞭、mRNA終止密碼子后到polyA尾前為3'UTR
  • 啟動(dòng)子區(qū):
    60%的人類基因的啟動(dòng)子區(qū)位于CpG島上。
  • CpG島:
    5'→3'順序的CpG組合撑毛,C可被甲基化书聚,可調(diào)節(jié)基因表達(dá),涉及到表觀遺傳學(xué)
    書上給了一個(gè)1號(hào)染色體一段CpG島的例子藻雌,包括了30個(gè)CpG雌续,GC%為77.14%,出于對(duì)表觀遺傳學(xué)的興趣摘錄了下來:
efetch -db=nuccore -id=NC_000001.11 -format=fasta -seq_start=36306860 -seq_stop=36307069
  • 增強(qiáng)子
    一個(gè)增強(qiáng)子可作用于多個(gè)基因胯杭,一個(gè)基因可以有多個(gè)增強(qiáng)子(沉默子同理)
    增強(qiáng)子在DNA strand上和調(diào)控的基因可以相隔甚遠(yuǎn)驯杜,但DNA鏈在細(xì)胞中被折疊了
    鑒定增強(qiáng)子可以通過disrupt觀察基因表達(dá)的增減,也可以通過核小體修飾鑒定做个。

什么是同源性 homology

Two regions of DNA that evolved from the same sequence (through processes of duplication of genomic regions and separation of two species) are homologous, or homologs of one another.

homologous 同源(包括直系同源orthologous 和旁系同源paralogous )

More specifically, regions in the genomes of two species that are descended from the same area in a common ancestor’s genome are orthologs. These regions are said to be orthologous.

orthologous 直系同源:物種不一樣鸽心,但都源于基因組上同一區(qū)域

On the other hand, paralogous sequences or paralogs were separated by duplication of a genomic region within the same genome.

paralogous 旁系同源:基因源于兩個(gè)區(qū)域,這兩個(gè)區(qū)域是由于基因重復(fù)(gene duplication)產(chǎn)生的居暖,與物種無關(guān)顽频。


來源:http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/Orthology.html

Homology is not a synonym of sequence similarity!
同源性不等同于序列相似性!
Homologous sequences are usually similar to one another, but similarity of sequences does not indicate homology.
同源序列一般相似太闺,相似序列不一定同源糯景。

主要是preface的chapter5,先到這里吧,已經(jīng)2點(diǎn)半了蟀淮。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末最住,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子怠惶,更是在濱河造成了極大的恐慌涨缚,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,907評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件甚疟,死亡現(xiàn)場(chǎng)離奇詭異仗岖,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)览妖,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,987評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門轧拄,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人讽膏,你說我怎么就攤上這事檩电。” “怎么了府树?”我有些...
    開封第一講書人閱讀 164,298評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵俐末,是天一觀的道長。 經(jīng)常有香客問我奄侠,道長卓箫,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,586評(píng)論 1 293
  • 正文 為了忘掉前任垄潮,我火速辦了婚禮烹卒,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘弯洗。我一直安慰自己旅急,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,633評(píng)論 6 392
  • 文/花漫 我一把揭開白布牡整。 她就那樣靜靜地躺著藐吮,像睡著了一般。 火紅的嫁衣襯著肌膚如雪逃贝。 梳的紋絲不亂的頭發(fā)上谣辞,一...
    開封第一講書人閱讀 51,488評(píng)論 1 302
  • 那天,我揣著相機(jī)與錄音沐扳,去河邊找鬼潦闲。 笑死,一個(gè)胖子當(dāng)著我的面吹牛迫皱,可吹牛的內(nèi)容都是我干的歉闰。 我是一名探鬼主播辖众,決...
    沈念sama閱讀 40,275評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼和敬!你這毒婦竟也來了凹炸?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,176評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤昼弟,失蹤者是張志新(化名)和其女友劉穎啤它,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體舱痘,經(jīng)...
    沈念sama閱讀 45,619評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡变骡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,819評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了芭逝。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片塌碌。...
    茶點(diǎn)故事閱讀 39,932評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖旬盯,靈堂內(nèi)的尸體忽然破棺而出台妆,到底是詐尸還是另有隱情,我是刑警寧澤胖翰,帶...
    沈念sama閱讀 35,655評(píng)論 5 346
  • 正文 年R本政府宣布接剩,位于F島的核電站,受9級(jí)特大地震影響萨咳,放射性物質(zhì)發(fā)生泄漏懊缺。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,265評(píng)論 3 329
  • 文/蒙蒙 一培他、第九天 我趴在偏房一處隱蔽的房頂上張望鹃两。 院中可真熱鬧,春花似錦靶壮、人聲如沸怔毛。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,871評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至碎绎,卻和暖如春螃壤,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背筋帖。 一陣腳步聲響...
    開封第一講書人閱讀 32,994評(píng)論 1 269
  • 我被黑心中介騙來泰國打工奸晴, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人日麸。 一個(gè)月前我還...
    沈念sama閱讀 48,095評(píng)論 3 370
  • 正文 我出身青樓寄啼,卻偏偏與公主長得像逮光,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子墩划,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,884評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容