高通量測序領(lǐng)域常用名詞解釋【轉(zhuǎn)】

作為一個(gè)已經(jīng)在生物信息行業(yè)摸爬兩年的小白瑰抵,還是有必要重新認(rèn)識(shí)一下高通量測序領(lǐng)域的一些常用名詞蟆湖。什么是高通量測序啊易?
高通量測序技術(shù)(High-throughput sequencing劲赠,HTS)是對(duì)傳統(tǒng)Sanger測序(稱為一代測序技術(shù))革命性的改變,一次對(duì)幾十萬到幾百萬條核酸分子進(jìn)行序列測定, 因此在有些文獻(xiàn)中稱其為下一代測序技術(shù)(next generation sequencing矩肩,NGS )足見其劃時(shí)代的改變, 同時(shí)高通量測序使得對(duì)一個(gè)物種的轉(zhuǎn)錄組和基因組進(jìn)行細(xì)致全貌的分析成為可能, 所以又被稱為深度測序(Deep sequencing)。
什么是Sanger法測序(一代測序) Sanger法測序利用一種DNA聚合酶來延伸結(jié)合在待定序列模板上的引物愧捕。直到摻入一種鏈終止核苷酸為止奢驯。每一次序列測定由一套四個(gè)單獨(dú)的反應(yīng)構(gòu)成,每個(gè)反應(yīng)含有所有四種脫氧核苷酸三磷酸(dNTP)次绘,并混入限量的一種不同的雙脫氧核苷三磷酸(ddNTP)瘪阁。由于ddNTP缺乏延伸所需要的3-OH基團(tuán),使延長的寡聚核苷酸選擇性地在G邮偎、A管跺、T或C處終止。終止點(diǎn)由反應(yīng)中相應(yīng)的雙脫氧而定禾进。每一種dNTPs和ddNTPs的相對(duì)濃度可以調(diào)整豁跑,使反應(yīng)得到一組長幾百至幾千堿基的鏈終止產(chǎn)物。它們具有共同的起始點(diǎn)泻云,但終止在不同的的核苷酸上艇拍,可通過高分辨率變性凝膠電泳分離大小不同的片段,凝膠處理后可用X-光膠片放射自顯影或非同位素標(biāo)記進(jìn)行檢測宠纯。
什么是基因組重測序(Genome Re-sequencing) 全基因組重測序是對(duì)基因組序列已知的個(gè)體進(jìn)行基因組測序卸夕,并在個(gè)體或群體水平上進(jìn)行差異性分析的方法。隨著基因組測序成本的不斷降低婆瓜,人類疾病的致病突變研究由外顯子區(qū)域擴(kuò)大到全基因組范圍快集。通過構(gòu)建不同長度的插入片段文庫和短序列、雙末端測序相結(jié)合的策略進(jìn)行高通量測序勃救,實(shí)現(xiàn)在全基因組水平上檢測疾病關(guān)聯(lián)的常見碍讨、低頻、甚至是罕見的突變位點(diǎn)蒙秒,以及結(jié)構(gòu)變異等勃黍,具有重大的科研和產(chǎn)業(yè)價(jià)值。
什么是de novo測序 de novo測序也稱為從頭測序:其不需要任何現(xiàn)有的序列資料就可以對(duì)某個(gè)物種進(jìn)行測序晕讲,利用生物信息學(xué)分析手段對(duì)序列進(jìn)行拼接覆获,組裝马澈,從而獲得該物種的基因組圖譜。獲得一個(gè)物種的全基因組序列是加快對(duì)此物種了解的重要捷徑弄息。隨著新一代測序技術(shù)的飛速發(fā)展痊班,基因組測序所需的成本和時(shí)間較傳統(tǒng)技術(shù)都大大降低,大規(guī)哪×浚基因組測序漸入佳境涤伐,基因組學(xué)研究也迎來新的發(fā)展契機(jī)和革命性突破。利用新一代高通量缨称、高效率測序技術(shù)以及強(qiáng)大的生物信息分析能力凝果,可以高效、低成本地測定并分析所有生物的基因組序列睦尽。
什么是外顯子測序(whole exon sequencing) 外顯子組測序是指利用序列捕獲技術(shù)將全基因組外顯子區(qū)域DNA捕捉并富集后進(jìn)行高通量測序的基因組分析方法器净。外顯子測序相對(duì)于基因組重測序成本較低,對(duì)研究已知基因的SNP当凡、Indel等具有較大的優(yōu)勢山害,但無法研究基因組結(jié)構(gòu)變異如染色體斷裂重組等。
什么是mRNA測序 (RNA-seq) 轉(zhuǎn)錄組學(xué)(transcriptomics)是在基因組學(xué)后新興的一門學(xué)科沿量,即研究特定細(xì)胞在某一功能狀態(tài)下所能轉(zhuǎn)錄出來的所有RNA(包括mRNA和非編碼RNA)的類型與拷貝數(shù)浪慌。Illumina提供的mRNA測序技術(shù)可在整個(gè)mRNA領(lǐng)域進(jìn)行各種相關(guān)研究和新的發(fā)現(xiàn)。mRNA測序不對(duì)引物或探針進(jìn)行設(shè)計(jì)欧瘪,可自由提供關(guān)于轉(zhuǎn)錄的客觀和權(quán)威信息眷射。研究人員僅需要一次試驗(yàn)即可快速生成完整的poly-A尾的RNA完整序列信息匙赞,并分析基因表達(dá)佛掖、cSNP、全新的轉(zhuǎn)錄涌庭、全新異構(gòu)體芥被、剪接位點(diǎn)、等位基因特異性表達(dá)和罕見轉(zhuǎn)錄等最全面的轉(zhuǎn)錄組信息坐榆。簡單的樣品制備和數(shù)據(jù)分析軟件支持在所有物種中的mRNA測序研究拴魄。
什么是small RNA測序 Small RNA(micro RNAs、siRNAs和 pi RNAs)是生命活動(dòng)重要的調(diào)控因子席镀,在基因表達(dá)調(diào)控匹中、生物個(gè)體發(fā)育、代謝及疾病的發(fā)生等生理過程中起著重要的作用豪诲。Illumina能夠?qū)?xì)胞或者組織中的全部Small RNA進(jìn)行深度測序及定量分析等研究顶捷。實(shí)驗(yàn)時(shí)首先將18-30 nt范圍的Small RNA從總RNA中分離出來,兩端分別加上特定接頭后體外反轉(zhuǎn)錄做成cDNA再做進(jìn)一步處理后屎篱,利用測序儀對(duì)DNA片段進(jìn)行單向末端直接測序服赎。通過Illumina對(duì)Small RNA大規(guī)模測序分析葵蒂,可以從中獲得物種全基因組水平的miRNA圖譜,實(shí)現(xiàn)包括新miRNA分子的挖掘重虑,其作用靶基因的預(yù)測和鑒定践付、樣品間差異表達(dá)分析、miRNAs聚類和表達(dá)譜分析等科學(xué)應(yīng)用缺厉。
什么是miRNA測序 成熟的microRNA(miRNA)是17~24nt的單鏈非編碼RNA分子永高,通過與mRNA相互作用影響目標(biāo)mRNA的穩(wěn)定性及翻譯,最終誘導(dǎo)基因沉默提针,調(diào)控著基因表達(dá)乏梁、細(xì)胞生長、發(fā)育等生物學(xué)過程关贵∮銎铮基于第二代測序技術(shù)的microRNA測序,可以一次性獲得數(shù)百萬條microRNA序列揖曾,能夠快速鑒定出不同組織落萎、不同發(fā)育階段、不同疾病狀態(tài)下已知和未知的microRNA及其表達(dá)差異炭剪,為研究microRNA對(duì)細(xì)胞進(jìn)程的作用及其生物學(xué)影響提供了有力工具练链。
什么是Chip-seq 染色質(zhì)免疫共沉淀技術(shù)(ChromatinImmunoprecipitation,ChIP)也稱結(jié)合位點(diǎn)分析法奴拦,是研究體內(nèi)蛋白質(zhì)與DNA相互作用的有力工具媒鼓,通常用于轉(zhuǎn)錄因子結(jié)合位點(diǎn)或組蛋白特異性修飾位點(diǎn)的研究。將ChIP與第二代測序技術(shù)相結(jié)合的ChIP-Seq技術(shù)错妖,能夠高效地在全基因組范圍內(nèi)檢測與組蛋白绿鸣、轉(zhuǎn)錄因子等互作的DNA區(qū)段。ChIP-Seq的原理是:首先通過染色質(zhì)免疫共沉淀技術(shù)(ChIP)特異性地富集目的蛋白結(jié)合的DNA片段暂氯,并對(duì)其進(jìn)行純化與文庫構(gòu)建潮模;然后對(duì)富集得到的DNA片段進(jìn)行高通量測序。研究人員通過將獲得的數(shù)百萬條序列標(biāo)簽精確定位到基因組上痴施,從而獲得全基因組范圍內(nèi)與組蛋白擎厢、轉(zhuǎn)錄因子等互作的DNA區(qū)段信息。
什么是CHIRP-Seq CHIRP-Seq( Chromatin Isolation by RNA Purification )是一種檢測與RNA綁定的DNA和蛋白的高通量測序方法辣吃。方法是通過設(shè)計(jì)生物素或鏈霉親和素探針动遭,把目標(biāo)RNA拉下來以后,與其共同作用的DNA染色體片段就會(huì)附在到磁珠上神得,最后把染色體片段做高通量測序厘惦,這樣會(huì)得到該RNA能夠結(jié)合到在基因組的哪些區(qū)域,但由于蛋白測序技術(shù)不夠成熟循头,無法知道與該RNA結(jié)合的蛋白绵估。
什么是RIP-seq RNA Immunoprecipitation是研究細(xì)胞內(nèi)RNA與蛋白結(jié)合情況的技術(shù)炎疆,是了解轉(zhuǎn)錄后調(diào)控網(wǎng)絡(luò)動(dòng)態(tài)過程的有力工具,能幫助我們發(fā)現(xiàn)miRNA的調(diào)節(jié)靶點(diǎn)国裳。這種技術(shù)運(yùn)用針對(duì)目標(biāo)蛋白的抗體把相應(yīng)的RNA-蛋白復(fù)合物沉淀下來形入,然后經(jīng)過分離純化就可以對(duì)結(jié)合在復(fù)合物上的RNA進(jìn)行測序分析。RIP可以看成是普遍使用的染色質(zhì)免疫沉淀ChIP技術(shù)的類似應(yīng)用缝左,但由于研究對(duì)象是RNA-蛋白復(fù)合物而不是DNA-蛋白復(fù)合物亿遂,RIP實(shí)驗(yàn)的優(yōu)化條件與ChIP實(shí)驗(yàn)不太相同(如復(fù)合物不需要固定,RIP反應(yīng)體系中的試劑和抗體絕對(duì)不能含有RNA酶渺杉,抗體需經(jīng)RIP實(shí)驗(yàn)驗(yàn)證等等)蛇数。RIP技術(shù)下游結(jié)合microarray技術(shù)被稱為RIP-Chip,幫助我們更高通量地了解癌癥以及其它疾病整體水平的RNA變化是越。
什么是CLIP-seq CLIP-seq,又稱為HITS-CLIP耳舅,即紫外交聯(lián)免疫沉淀結(jié)合高通量測序(crosslinking-immunprecipitation and high-throughput sequencing), 是一項(xiàng)在全基因組水平揭示RNA分子與RNA結(jié)合蛋白相互作用的革命性技術(shù)。其主要原理是基于RNA分子與RNA結(jié)合蛋白在紫外照射下發(fā)生耦聯(lián)倚评,以RNA結(jié)合蛋白的特異性抗體將RNA-蛋白質(zhì)復(fù)合體沉淀之后浦徊,回收其中的RNA片段,經(jīng)添加接頭天梧、RT-PCR等步驟盔性,對(duì)這些分子進(jìn)行高通量測序,再經(jīng)生物信息學(xué)的分析和處理呢岗、總結(jié)冕香,挖掘出其特定規(guī)律,從而深入揭示RNA結(jié)合蛋白與RNA分子的調(diào)控作用及其對(duì)生命的意義后豫。
什么是metagenomic(宏基因組): Magenomics研究的對(duì)象是整個(gè)微生物群落悉尾。相對(duì)于傳統(tǒng)單個(gè)細(xì)菌研究來說,它具有眾多優(yōu)勢硬贯,其中很重要的兩點(diǎn):(1)微生物通常是以群落方式共生于某一小生境中焕襟,它們的很多特性是基于整個(gè)群落環(huán)境及個(gè)體間的相互影響的,因此做Metagenomics研究比做單個(gè)個(gè)體的研究更能發(fā)現(xiàn)其特性饭豹;(2) Metagenomics研究無需分離單個(gè)細(xì)菌,可以研究那些不能被實(shí)驗(yàn)室分離培養(yǎng)的微生物务漩。宏基因組是基因組學(xué)一個(gè)新興的科學(xué)研究方向拄衰。宏基因組學(xué)(又稱元基因組學(xué),環(huán)境基因組學(xué)饵骨,生態(tài)基因組學(xué)等)翘悉,是研究直接從環(huán)境樣本中提取的基因組遺傳物質(zhì)的學(xué)科。傳統(tǒng)的微生物研究依賴于實(shí)驗(yàn)室培養(yǎng)居触,元基因組的興起填補(bǔ)了無法在傳統(tǒng)實(shí)驗(yàn)室中培養(yǎng)的微生物研究的空白妖混。過去幾年中老赤,DNA測序技術(shù)的進(jìn)步以及測序通量和分析方法的改進(jìn)使得人們得以一窺這一未知的基因組科學(xué)領(lǐng)域。什么是SNP制市、SNV(單核苷酸位點(diǎn)變異)
單核苷酸多態(tài)性singlenucleotide polymorphism抬旺,SNP 或單核苷酸位點(diǎn)變異SNV。 個(gè)體間基因組DNA序列同一位置單個(gè)核苷酸變異(替代祥楣、插入或缺失)所引起的多態(tài)性开财。不同物種、個(gè)體基因組DNA序列同一位置上的單個(gè)核苷酸存在差別的現(xiàn)象误褪。有這種差別的基因座责鳍、DNA序列等可作為基因組作圖的標(biāo)志。人基因組上平均約每1000個(gè)核苷酸即可能出現(xiàn)1個(gè)單核苷酸多態(tài)性的變化兽间,其中有些單核苷酸多態(tài)性可能與疾病有關(guān)历葛,但可能大多數(shù)與疾病無關(guān)。單核苷酸多態(tài)性是研究人類家族和動(dòng)植物品系遺傳變異的重要依據(jù)嘀略。在研究癌癥基因組變異時(shí)啃洋,相對(duì)于正常組織,癌癥中特異的單核苷酸變異是一種體細(xì)胞突變(somatic mutation)屎鳍,稱做SNV宏娄。
什么是INDEL (基因組小片段插入) 基因組上小片段(>50bp)的插入或缺失,形同SNP/SNV逮壁。
什么是copy number variation (CNV):基因組拷貝數(shù)變異基因組拷貝數(shù)變異是基因組變異的一種形式孵坚,通常使基因組中大片段的DNA形成非正常的拷貝數(shù)量。例如人類正常染色體拷貝數(shù)是2窥淆,有些染色體區(qū)域拷貝數(shù)變成1或3卖宠,這樣,該區(qū)域發(fā)生拷貝數(shù)缺失或增加忧饭,位于該區(qū)域內(nèi)的基因表達(dá)量也會(huì)受到影響扛伍。如果把一條染色體分成A-B-C-D四個(gè)區(qū)域,則A-B-C-C-D/A-C-B-C-D/A-C-C-B-C-D/A-B-D分別發(fā)生了C區(qū)域的擴(kuò)增及缺失词裤,擴(kuò)增的位置可以是連續(xù)擴(kuò)增如A-B-C-C-D也可以是在其他位置的擴(kuò)增刺洒,如A-C-B-C-D。
什么是structure variation (SV):基因組結(jié)構(gòu)變異 染色體結(jié)構(gòu)變異是指在染色體上發(fā)生了大片段的變異吼砂。主要包括染色體大片段的插入和缺失(引起CNV的變化)逆航,染色體內(nèi)部的某塊區(qū)域發(fā)生翻轉(zhuǎn)顛換,兩條染色體之間發(fā)生重組(inter-chromosome trans-location)等渔肩。一般SV的展示利用Circos 軟件因俐。
什么是Segment duplication 一般稱為SD區(qū)域,串聯(lián)重復(fù)是由序列相近的一些DNA片段串聯(lián)組成。串聯(lián)重復(fù)在人類基因多樣性的靈長類基因中發(fā)揮重要作用抹剩。在人類染色體Y和22號(hào)染色體上撑帖,有很大的SD序列。
什么是genotype and phenotype 既基因型與表型澳眷;一般指某些單核苷酸位點(diǎn)變異與表現(xiàn)形式間的關(guān)系胡嘿。
什么是Read? 高通量測序平臺(tái)產(chǎn)生的序列標(biāo)簽就稱為reads。
什么是soft-clipped reads 當(dāng)基因組發(fā)生某一段的缺失境蔼,或轉(zhuǎn)錄組的剪接灶平,在測序過程中,橫跨缺失位點(diǎn)及剪接位點(diǎn)的reads回帖到基因組時(shí)箍土,一條reads被切成兩段逢享,匹配到不同的區(qū)域,這樣的reads叫做soft-clipped reads吴藻,這些reads對(duì)于鑒定染色體結(jié)構(gòu)變異及外源序列整合具有重要作用瞒爬。
什么是multi-hits reads 由于大部分測序得到的reads較短,一個(gè)reads能夠匹配到基因組多個(gè)位置沟堡,無法區(qū)分其真實(shí)來源的位置侧但。一些工具根據(jù)統(tǒng)計(jì)模型,如將這類reads分配給reads較多的區(qū)域航罗。
什么是Contig? 拼接軟件基于reads之間的overlap區(qū)禀横,拼接獲得的序列稱為Contig(重疊群)。
什么是Scaffold? 基因組de novo測序粥血,通過reads拼接獲得Contigs后柏锄,往往還需要構(gòu)建454 Paired-end庫或Illumina Mate-pair庫,以獲得一定大小片段(如3Kb复亏、6Kb趾娃、10Kb、20Kb)兩端的序列缔御√疲基于這些序列,可以確定一些Contig之間的順序關(guān)系耕突,這些先后順序已知的Contigs組成Scaffold笤成。
什么是Contig N50? Reads拼接后會(huì)獲得一些不同長度的Contigs有勾。將所有的Contig長度相加疹启,能獲得一個(gè)Contig總長度。然后將所有的Contigs按照從長到短進(jìn)行排序蔼卡,如獲得Contig 1,Contig 2,Contig 3…………Contig 25雇逞。將Contig按照這個(gè)順序依次相加荤懂,當(dāng)相加的長度達(dá)到Contig總長度的一半時(shí),最后一個(gè)加上的Contig長度即為Contig N50塘砸。舉例:Contig 1+Contig 2+ Contig 3+Contig 4=Contig總長度1/2時(shí)节仿,Contig 4的長度即為Contig N50。Contig N50可以作為基因組拼接的結(jié)果好壞的一個(gè)判斷標(biāo)準(zhǔn)掉蔬。
什么是Scaffold N50廊宪? Scaffold N50與Contig N50的定義類似。Contigs拼接組裝獲得一些不同長度的Scaffolds女轿。將所有的Scaffold長度相加箭启,能獲得一個(gè)Scaffold總長度。然后將所有的Scaffolds按照從長到短進(jìn)行排序蛉迹,如獲得Scaffold 1傅寡,Scaffold 2,Scaffold 3…………Scaffold 25北救。將Scaffold按照這個(gè)順序依次相加荐操,當(dāng)相加的長度達(dá)到Scaffold總長度的一半時(shí),最后一個(gè)加上的Scaffold長度即為Scaffold N50珍策。舉例:Scaffold 1+Scaffold 2+ Scaffold 3 +Scaffold 4 +Scaffold 5=Scaffold總長度
1/2時(shí)托启,Scaffold 5的長度即為Scaffold N50。Scaffold N50可以作為基因組拼接的結(jié)果好壞的一個(gè)判斷標(biāo)準(zhǔn)攘宙。
什么是測序深度和覆蓋度屯耸? 測序深度是指測序得到的總堿基數(shù)與待測基因組大小的比值。假設(shè)一個(gè)基因大小為2M模聋,測序深度為10X肩民,那么獲得的總數(shù)據(jù)量為20M。覆蓋度是指測序獲得的序列占整個(gè)基因組的比例链方。由于基因組中的高GC持痰、重復(fù)序列等復(fù)雜結(jié)構(gòu)的存在,測序最終拼接組裝獲得的序列往往無法覆蓋有所的區(qū)域祟蚀,這部分沒有獲得的區(qū)域就稱為Gap工窍。例如一個(gè)細(xì)菌基因組測序,覆蓋度是98%前酿,那么還有2%的序列區(qū)域是沒有通過測序獲得的患雏。
什么是RPKM、FPKM RPKM,Reads Per Kilobase of exon model per Million mapped reads, is defined in thisway [Mortazavi etal., 2008]:每1百萬個(gè)map上的reads中map到外顯子的每1K個(gè)堿基上的reads個(gè)數(shù)罢维。假如有1百萬個(gè)reads映射到了人的基因組上淹仑,那么具體到每個(gè)外顯子呢,有多少映射上了呢,而外顯子的長度不一匀借,那么每1K個(gè)堿基上又有多少reads映射上了呢颜阐,這大概就是這個(gè)RPKM的直觀解釋。如果對(duì)應(yīng)特定基因的話吓肋,那么就是每1000000 mapped到該基因上的reads中每kb有多少是mapped到該基因上的exon的readTotal exon reads:This is the number in the column with header Total exonreads in the row for the gene. This is the number of reads that have beenmapped to a region in which an exon is annotated for the gene or across theboundaries of two exons or an intron and an exon for an annotated transcript ofthe gene. For eukaryotes, exons and their internal relationships are defined byannotations of type mRNA.映射到外顯子上總的reads個(gè)數(shù)凳怨。這個(gè)是映射到某個(gè)區(qū)域上的reads個(gè)數(shù),這個(gè)區(qū)域或者是已知注釋的基因或者跨兩個(gè)外顯子的邊界或者是某個(gè)基因已經(jīng)注釋的轉(zhuǎn)錄本的內(nèi)含子是鬼、外顯子肤舞。對(duì)于真核生物來說,外顯子和它們自己內(nèi)部的關(guān)系由某類型的mRNA來注釋均蜜。Exonlength: This is the number in the column with the header Exon length inthe row for the gene, divided by 1000. This is calculated as the sum of thelengths of all exons annotated for the gene. Each exon is included only once inthis sum, even if it is present in more annotated transcripts for the gene.Partly overlapping exons will count with their full length, even though theyshare the same region.外顯子的長度李剖。計(jì)算時(shí),計(jì)算所有某個(gè)基因已注釋的所有外顯子長度的總和兆龙。即使某個(gè)基因以多種注釋的轉(zhuǎn)錄本呈現(xiàn)杖爽,這個(gè)外顯子在求和時(shí)只被包含一次。即使部分重疊的外顯子共享相同的區(qū)域紫皇,重疊的外顯子以其總長來計(jì)算慰安。Mapped reads: The sum of all the numbers in the column with header Totalgene reads. The Total gene reads for a gene is the total number ofreads that after mapping have been mapped to the region of the gene. Thus thisincludes all the reads uniquely mapped to the region of the gene as well asthose of the reads which match in more places (below the limit set in thedialog in figure18.110) that have been allocated tothis gene’s region. A gene’s region is that comprised of the flanking regions(if it was specified in figure 18.110), the exons, the introns andacross exon-exon boundaries of all transcripts annotated for the gene. Thus,the sum of the total gene reads numbers is the number of mapped reads for thesample (you can find the number in the RNA-Seq report).map的reads總和。映射到某個(gè)基因上的所有reads總數(shù)聪铺。因此這包含所有的唯一映射到這個(gè)區(qū)域上的reads化焕。舉例:比如對(duì)應(yīng)到該基因的read有1000個(gè),總reads個(gè)數(shù)有100萬铃剔,而該基因的外顯子總長為5kb撒桨,那么它的RPKM為:109*1000(reads個(gè)數(shù))/106(總reads個(gè)數(shù))5000(外顯子長度)=200或者:1000(reads個(gè)數(shù))/1(百萬)5(K)=200這個(gè)值反映基因的表達(dá)水平。FPKM(fragments per kilobase of exon per million fragments mapped). FPKM與RPKM計(jì)算方法基本一致键兜。不同點(diǎn)就是FPKM計(jì)算的是fragments凤类,而RPKM計(jì)算的是reads。Fragment比read的含義更廣普气,因此FPKM包含的意義也更廣谜疤,可以是pair-end的一個(gè)fragment,也可以是一個(gè)read现诀。
什么是轉(zhuǎn)錄本重構(gòu) 用測序的數(shù)據(jù)組裝成轉(zhuǎn)錄本夷磕。有兩種組裝方式:1,de-novo構(gòu)建仔沿; 2坐桩,有參考基因組重構(gòu)。其中de-novo組裝是指在不依賴參考基因組的情況下封锉,將有overlap的reads連接成一個(gè)更長的序列绵跷,經(jīng)過不斷的延伸膘螟,拼成一個(gè)個(gè)的contig及scaffold。常用工具包括velvet抖坪,trans-ABYSS萍鲸,Trinity等闷叉。有參考基因組重構(gòu)擦俐,是指先將read貼回到基因組上,然后在基因組通過reads覆蓋度握侧,junction位點(diǎn)的信息等得到轉(zhuǎn)錄本蚯瞧,常用工具包括scripture、cufflinks品擎。
什么是genefusion 將基因組位置不同的兩個(gè)基因中的一部分或全部整合到一起埋合,形成新的基因,稱作融合基因萄传,或嵌合體基因甚颂。該基因有可能翻譯出融合或嵌合體蛋白。
什么是表達(dá)譜基因表達(dá)譜(geneexpression profile):指通過構(gòu)建處于某一特定狀態(tài)下的細(xì)胞或組織的非偏性cDNA文庫,大規(guī)模cDNA測序,收集cDNA序列片段秀菱、定性振诬、定量分析其mRNA群體組成,從而描繪該特定細(xì)胞或組織在特定狀態(tài)下的基因表達(dá)種類和豐度信息,這樣編制成的數(shù)據(jù)表就稱為基因表達(dá)譜
什么是功能基因組學(xué) 功能基因組學(xué)(Functuionalgenomics)又往往被稱為后基因組學(xué)(Postgenomics),它利用結(jié)構(gòu)基因組所提供的信息和產(chǎn)物衍菱,發(fā)展和應(yīng)用新的實(shí)驗(yàn)手段赶么,通過在基因組或系統(tǒng)水平上全面分析基因的功能,使得生物學(xué)研究從對(duì)單一基因或蛋白質(zhì)得研究轉(zhuǎn)向多個(gè)基因或蛋白質(zhì)同時(shí)進(jìn)行系統(tǒng)的研究脊串。這是在基因組靜態(tài)的堿基序列弄清楚之后轉(zhuǎn)入對(duì)基因組動(dòng)態(tài)的生物學(xué)功能學(xué)研究辫呻。研究內(nèi)容包括基因功能發(fā)現(xiàn)、基因表達(dá)分析及突變檢測琼锋》殴耄基因的功能包括:生物學(xué)功能,如作為蛋白質(zhì)激酶對(duì)特異蛋白質(zhì)進(jìn)行磷酸化修飾缕坎;細(xì)胞學(xué)功能怖侦,如參與細(xì)胞間和細(xì)胞內(nèi)信號(hào)傳遞途徑;發(fā)育上功能念赶,如參與形態(tài)建成等础钠。采用的手段包括經(jīng)典的減法雜交,差示篩選叉谜,cDNA代表差異分析以及mRNA差異顯示等旗吁,但這些技術(shù)不能對(duì)基因進(jìn)行全面系統(tǒng)的分析,新的技術(shù)應(yīng)運(yùn)而生停局,包括基因表達(dá)的系統(tǒng)分析(serial analysis of gene expression,SAGE)很钓,cDNA微陣列(cDNA microarray)香府,DNA 芯片(DNA chip)和序列標(biāo)志片段顯示(sequence tagged fragmentsdisplay。
什么是比較基因組學(xué) 比較基因組學(xué)(ComparativeGenomics)是基于基因組圖譜和測序基礎(chǔ)上码倦,對(duì)已知的基因和基因組結(jié)構(gòu)進(jìn)行比較企孩,來了解基因的功能、表達(dá)機(jī)理和物種進(jìn)化的學(xué)科袁稽。利用模式生物基因組與人類基因組之間編碼順序上和結(jié)構(gòu)上的同源性勿璃,克隆人類疾病基因,揭示基因功能和疾病分子機(jī)制推汽,闡明物種進(jìn)化關(guān)系补疑,及基因組的內(nèi)在結(jié)構(gòu)。
什么是表觀遺傳學(xué)表觀遺傳學(xué)是研究基因的核苷酸序列不發(fā)生改變的情況下歹撒,基因表達(dá)了可遺傳的變化的一門遺傳學(xué)分支學(xué)科莲组。表觀遺傳的現(xiàn)象很多,已知的有DNA甲基化(DNAmethylation)暖夭,基因組印記(genomicimpriting)锹杈,母體效應(yīng)(maternaleffects),基因沉默(genesilencing)迈着,核仁顯性竭望,休眠轉(zhuǎn)座子激活和RNA編輯(RNA editing)等。
什么是計(jì)算生物學(xué) 計(jì)算生物學(xué)是指開發(fā)和應(yīng)用數(shù)據(jù)分析及理論的方法寥假、數(shù)學(xué)建模市框、計(jì)算機(jī)仿真技術(shù)等。當(dāng)前糕韧,生物學(xué)數(shù)據(jù)量和復(fù)雜性不斷增長枫振,每14個(gè)月基因研究產(chǎn)生的數(shù)據(jù)就會(huì)翻一番,單單依靠觀察和實(shí)驗(yàn)已難以應(yīng)付萤彩。因此粪滤,必須依靠大規(guī)模計(jì)算模擬技術(shù),從海量信息中提取最有用的數(shù)據(jù)雀扶。
什么是基因組印記 基因組印記(又稱遺傳印記)是指基因根據(jù)親代的不同而有不同的表達(dá)杖小。印記基因的存在能導(dǎo)致細(xì)胞中兩個(gè)等位基因的一個(gè)表達(dá)而另一個(gè)不表達(dá)∮弈梗基因組印記是一正常過程予权,此現(xiàn)象在一些低等動(dòng)物和植物中已發(fā)現(xiàn)多年。印記的基因只占人類基因組中的少數(shù)浪册,可能不超過5%扫腺,但在胎兒的生長和行為發(fā)育中起著至關(guān)重要的作用〈逑螅基因組印記病主要表現(xiàn)為過度生長笆环、生長遲緩攒至、智力障礙、行為異常躁劣。目前在腫瘤的研究中認(rèn)為印記缺失是引起腫瘤最常見的遺傳學(xué)因素之一迫吐。
什么是基因組學(xué) 基因組學(xué)(英文genomics),研究生物基因組和如何利用基因的一門學(xué)問账忘。用于概括涉及基因作圖志膀、測序和整個(gè)基因組功能分析的遺傳學(xué)分支。該學(xué)科提供基因組信息以及相關(guān)數(shù)據(jù)系統(tǒng)利用闪萄,試圖解決生物梧却,醫(yī)學(xué),和工業(yè)領(lǐng)域的重大問題败去。
什么是DNA甲基化 DNA甲基化是指在DNA甲基化轉(zhuǎn)移酶的作用下,在基因組CpG二核苷酸的胞嘧啶5’碳位共價(jià)鍵結(jié)合一個(gè)甲基基團(tuán)烈拒。正常情況下圆裕,人類基因組“垃圾”序列的CpG二核苷酸相對(duì)稀少,并且總是處于甲基化狀態(tài)荆几,與之相反吓妆,人類基因組中大小為100—1000 bp左右且富含CpG二核苷酸的CpG島則總是處于未甲基化狀態(tài),并且與56%的人類基因組編碼基因相關(guān)吨铸。人類基因組序列草圖分析結(jié)果表明行拢,人類基因組CpG島約為28890個(gè),大部分染色體每1 Mb就有5—15個(gè)CpG島诞吱,平均值為每Mb含10.5個(gè)CpG島舟奠,CpG島的數(shù)目與基因密度有良好的對(duì)應(yīng)關(guān)系[9]。由于DNA甲基化與人類發(fā)育和腫瘤疾病的密切關(guān)系房维,特別是CpG島甲基化所致抑癌基因轉(zhuǎn)錄失活問題沼瘫,DNA甲基化已經(jīng)成為表觀遺傳學(xué)和表觀基因組學(xué)的重要研究內(nèi)容。
什么是基因組注釋 基因組注釋(Genomeannotation) 是利用生物信息學(xué)方法和工具,對(duì)基因組所有基因的生物學(xué)功能進(jìn)行高通量注釋,是當(dāng)前功能基因組學(xué)研究的一個(gè)熱點(diǎn)咙俩」⑵荩基因組注釋的研究內(nèi)容包括基因識(shí)別和基因功能注釋兩個(gè)方面“⒊茫基因識(shí)別的核心是確定全基因組序列中所有基因的確切位置膜蛔。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市脖阵,隨后出現(xiàn)的幾起案子皂股,更是在濱河造成了極大的恐慌,老刑警劉巖独撇,帶你破解...
    沈念sama閱讀 206,013評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件屑墨,死亡現(xiàn)場離奇詭異躁锁,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)卵史,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門战转,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人以躯,你說我怎么就攤上這事槐秧。” “怎么了忧设?”我有些...
    開封第一講書人閱讀 152,370評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵刁标,是天一觀的道長。 經(jīng)常有香客問我址晕,道長膀懈,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,168評(píng)論 1 278
  • 正文 為了忘掉前任谨垃,我火速辦了婚禮启搂,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘刘陶。我一直安慰自己胳赌,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,153評(píng)論 5 371
  • 文/花漫 我一把揭開白布匙隔。 她就那樣靜靜地躺著疑苫,像睡著了一般。 火紅的嫁衣襯著肌膚如雪纷责。 梳的紋絲不亂的頭發(fā)上捍掺,一...
    開封第一講書人閱讀 48,954評(píng)論 1 283
  • 那天,我揣著相機(jī)與錄音碰逸,去河邊找鬼乡小。 笑死,一個(gè)胖子當(dāng)著我的面吹牛饵史,可吹牛的內(nèi)容都是我干的满钟。 我是一名探鬼主播,決...
    沈念sama閱讀 38,271評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼胳喷,長吁一口氣:“原來是場噩夢啊……” “哼湃番!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起吭露,我...
    開封第一講書人閱讀 36,916評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤吠撮,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后讲竿,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體泥兰,經(jīng)...
    沈念sama閱讀 43,382評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡弄屡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,877評(píng)論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了鞋诗。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片膀捷。...
    茶點(diǎn)故事閱讀 37,989評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖削彬,靈堂內(nèi)的尸體忽然破棺而出全庸,到底是詐尸還是另有隱情,我是刑警寧澤融痛,帶...
    沈念sama閱讀 33,624評(píng)論 4 322
  • 正文 年R本政府宣布壶笼,位于F島的核電站,受9級(jí)特大地震影響雁刷,放射性物質(zhì)發(fā)生泄漏覆劈。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,209評(píng)論 3 307
  • 文/蒙蒙 一安券、第九天 我趴在偏房一處隱蔽的房頂上張望墩崩。 院中可真熱鬧,春花似錦侯勉、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至徘键,卻和暖如春练对,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背吹害。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評(píng)論 1 260
  • 我被黑心中介騙來泰國打工螟凭, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人它呀。 一個(gè)月前我還...
    沈念sama閱讀 45,401評(píng)論 2 352
  • 正文 我出身青樓螺男,卻偏偏與公主長得像,于是被迫代替她去往敵國和親纵穿。 傳聞我的和親對(duì)象是個(gè)殘疾皇子下隧,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,700評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容