“Scientific Fight Club”的Rules:
1.沒有“通用”規(guī)則瞻佛。
2.每個(gè)看似基本的的paradigm都有一個(gè)或多個(gè)例外锨用。
3.生物信息學(xué)方法的validity取決于數(shù)據(jù)的unknown characteristic舶胀。
4.即使考慮到這些規(guī)則坠狡,生物學(xué)也總是比你想象的要復(fù)雜吨凑。
5.1開始講了一些生物信息學(xué)需要掌握的基本biology知識(shí)(5.1.1-5.1.16)
DNA (Deoxyribo Nucleic Acid)
真核生物位于細(xì)胞核喘帚,原核生物位于細(xì)胞質(zhì)
核苷酸 nucleotide
例:炭疽桿菌的the forward strand
ATATTTTTTCTTGTTTTTTATATCCACAAACTCTTTT
堿基對(duì) base pair
共享某些特征的核苷酸組可以用所謂的歧義碼(ambiguity codes)來指定:
DNA鏈 forward strand|reverse strand
在某些數(shù)據(jù)集中也表示為+|-、top|bottom示弓、Watson|Crick (了解即可讳侨,盡量使用forward strand|reverse strand)
DNA的方向性
多數(shù)biological mechanism發(fā)生在上圖中的某一條鏈中跑杭,方向?yàn)榧^所指的方向
兩條鏈呈“反向互補(bǔ)”(reverse complement)
同義/反義 sense|antisense
“When a process occurs in the expected direction, its directionality may be called sense”
↑翻譯不出來,感受一下意思吧↑
注意咆耿,sense|antisense和forward strand|reverse strand的概念不相關(guān)德谅。前者是相對(duì)于sequence的方向而言,而這個(gè)sequence既可以來源于forward strand萨螺,也可以來源于reverse strand窄做。
DNA 測(cè)序
這是一個(gè)大的概念,包括所有以鑒定DNA大分子構(gòu)成為目的的流程慰技。DNA測(cè)序會(huì)得到未經(jīng)處理的文件椭盏,通常為FASTA、FASTQ吻商、unaligned BAM(uBAM)文件掏颊。多數(shù)論文會(huì)上傳測(cè)序文件至數(shù)據(jù)庫,以便下載和重復(fù)分析艾帐。
測(cè)序測(cè)的是什么
并不是拿到DNA就開始測(cè)乌叶,而是通過“一系列實(shí)驗(yàn)室流程”將原始DNA轉(zhuǎn)換成測(cè)序文庫(sequencing library),因此測(cè)序是間接得知原有DNA分子的部分信息柒爸,且建庫過程勢(shì)必會(huì)在結(jié)果中引入多種limitations和artificial properties准浴。
基因組
有機(jī)體的每個(gè)體細(xì)胞都包含著一套完整的基因組,細(xì)胞分裂的過程包括基因組的拷貝
基因組是做什么的
編碼信息捎稚,實(shí)現(xiàn)有機(jī)體的功能
包括編碼區(qū)域(編碼蛋白質(zhì))乐横,非編碼區(qū)域(產(chǎn)生非蛋白分子、發(fā)揮調(diào)控作用)今野,同時(shí)包含許多“無功能區(qū)域”(如一些散在序列葡公,重復(fù)序列)
C值矛盾 https://en.wikipedia.org/wiki/C-value#C-value_paradox
基因組大小
朊病毒僅有300個(gè)堿基對(duì),日本重樓有1500億堿基對(duì)条霜,常用的度量基因組大小的單位包括kilo-bases(Kb, 千), mega-bases (Mb, 百萬), giga-bases (Gb, 十億)
RNA
在細(xì)胞內(nèi)降解很快(分鐘級(jí))
基因組如何工作
舉個(gè)primary mRNA transcription的例子,“簡單說來”就是:
細(xì)胞將基因轉(zhuǎn)錄(transcription)成RNA分子蛔外,轉(zhuǎn)錄后RNA分子被剪切(splicing)蛆楞,被剪切的部分稱為內(nèi)含子(intron),未被剪切的稱為外顯子(exon)夹厌,剪切后得到信使RNA(mRNA)豹爹。
細(xì)胞通過GT和AG識(shí)別內(nèi)含子(也叫剪切信號(hào),通常出現(xiàn)在內(nèi)含子的開頭和結(jié)尾)矛纹,單有剪切信號(hào)不夠臂聋,35%的人類基因包含可變剪切。
看似簡單的解釋,隨便摘出來一句其實(shí)都是深坑孩等,根本沒這么簡單...這就是生物學(xué)的復(fù)雜性啊
蛋白
DNA艾君,mRNA包含遺傳信息,蛋白則執(zhí)行功能肄方。生化基礎(chǔ)知識(shí)已經(jīng)講了一堆了
蛋白如何產(chǎn)生
轉(zhuǎn)錄冰垄、翻譯、密碼子权她、起始密碼子(編碼甲硫氨酸)虹茶、終止密碼子
什么是開放閱讀框 ORF
包括至少100個(gè)連續(xù)的內(nèi)含子的序列
盡管有所謂的“standard” translation table,但不同物種采用的編碼會(huì)有不同隅要,即所謂的genetic codes蝴罪,可查看https://en.wikipedia.org/wiki/List_of_genetic_codes
什么是基因 gene
Sequence Ontology 給出的gene的定義為:
A region (or regions) that includes all of the sequence elements necessary to encode a functional transcript. A gene may include regulatory regions, transcribed
regions and other functional sequence regions.
這個(gè)定義中,基因包含了編碼有功能轉(zhuǎn)錄本所需的所有元件步清,包括調(diào)控元件要门,轉(zhuǎn)錄元件和其他有功能的序列。
基因組還有其他特點(diǎn)嗎
多了去了廓啊,列舉一些:
- 非轉(zhuǎn)錄區(qū)域:
1欢搜、mRNA起始密碼子前有一段5'UTR;
2崖瞭、mRNA終止密碼子后到polyA尾前為3'UTR - 啟動(dòng)子區(qū):
60%的人類基因的啟動(dòng)子區(qū)位于CpG島上。 - CpG島:
5'→3'順序的CpG組合撑毛,C可被甲基化书聚,可調(diào)節(jié)基因表達(dá),涉及到表觀遺傳學(xué)
書上給了一個(gè)1號(hào)染色體一段CpG島的例子藻雌,包括了30個(gè)CpG雌续,GC%為77.14%,出于對(duì)表觀遺傳學(xué)的興趣摘錄了下來:
efetch -db=nuccore -id=NC_000001.11 -format=fasta -seq_start=36306860 -seq_stop=36307069
- 增強(qiáng)子
一個(gè)增強(qiáng)子可作用于多個(gè)基因胯杭,一個(gè)基因可以有多個(gè)增強(qiáng)子(沉默子同理)
增強(qiáng)子在DNA strand上和調(diào)控的基因可以相隔甚遠(yuǎn)驯杜,但DNA鏈在細(xì)胞中被折疊了
鑒定增強(qiáng)子可以通過disrupt觀察基因表達(dá)的增減,也可以通過核小體修飾鑒定做个。
什么是同源性 homology
Two regions of DNA that evolved from the same sequence (through processes of duplication of genomic regions and separation of two species) are homologous, or homologs of one another.
homologous 同源(包括直系同源orthologous 和旁系同源paralogous )
More specifically, regions in the genomes of two species that are descended from the same area in a common ancestor’s genome are orthologs. These regions are said to be orthologous.
orthologous 直系同源:物種不一樣鸽心,但都源于基因組上同一區(qū)域
On the other hand, paralogous sequences or paralogs were separated by duplication of a genomic region within the same genome.
paralogous 旁系同源:基因源于兩個(gè)區(qū)域,這兩個(gè)區(qū)域是由于基因重復(fù)(gene duplication)產(chǎn)生的居暖,與物種無關(guān)顽频。
Homology is not a synonym of sequence similarity!
同源性不等同于序列相似性!
Homologous sequences are usually similar to one another, but similarity of sequences does not indicate homology.
同源序列一般相似太闺,相似序列不一定同源糯景。
主要是preface的chapter5,先到這里吧,已經(jīng)2點(diǎn)半了蟀淮。