什么是高通量測(cè)序?
高通量測(cè)序技術(shù)(High-throughput sequencing玫恳,HTS)是對(duì)傳統(tǒng)Sanger測(cè)序(稱(chēng)為一代測(cè)序技術(shù))革命性的改變,一次對(duì)幾十萬(wàn)到幾百萬(wàn)條核酸分子進(jìn)行序列測(cè)定, 因此在有些文獻(xiàn)中稱(chēng)其為下一代測(cè)序技術(shù)(next generation sequencing,NGS )足見(jiàn)其劃時(shí)代的改變, 同時(shí)高通量測(cè)序使得對(duì)一個(gè)物種的轉(zhuǎn)錄組和基因組進(jìn)行細(xì)致全貌的分析成為可能, 所以又被稱(chēng)為深度測(cè)序(Deep sequencing)疚鲤。
什么是Sanger法測(cè)序(一代測(cè)序)
Sanger法測(cè)序利用一種DNA聚合酶來(lái)延伸結(jié)合在待定序列模板上的引物泞当。直到摻入一種鏈終止核苷酸為止。每一次序列測(cè)定由一套四個(gè)單獨(dú)的反應(yīng)構(gòu)成样刷,每個(gè)反應(yīng)含有所有四種脫氧核苷酸三磷酸(dNTP),并混入限量的一種不同的雙脫氧核苷三磷酸(ddNTP)览爵。由于ddNTP缺乏延伸所需要的3-OH基團(tuán)置鼻,使延長(zhǎng)的寡聚核苷酸選擇性地在G、A蜓竹、T或C處終止箕母。終止點(diǎn)由反應(yīng)中相應(yīng)的雙脫氧而定。每一種dNTPs和ddNTPs的相對(duì)濃度可以調(diào)整俱济,使反應(yīng)得到一組長(zhǎng)幾百至幾千堿基的鏈終止產(chǎn)物嘶是。它們具有共同的起始點(diǎn),但終止在不同的的核苷酸上蛛碌,可通過(guò)高分辨率變性凝膠電泳分離大小不同的片段聂喇,凝膠處理后可用X-光膠片放射自顯影或非同位素標(biāo)記進(jìn)行檢測(cè)。
什么是基因組重測(cè)序(Genome Re-sequencing)
全基因組重測(cè)序是對(duì)基因組序列已知的個(gè)體進(jìn)行基因組測(cè)序蔚携,并在個(gè)體或群體水平上進(jìn)行差異性分析的方法希太。隨著基因組測(cè)序成本的不斷降低,人類(lèi)疾病的致病突變研究由外顯子區(qū)域擴(kuò)大到全基因組范圍酝蜒。通過(guò)構(gòu)建不同長(zhǎng)度的插入片段文庫(kù)和短序列誊辉、雙末端測(cè)序相結(jié)合的策略進(jìn)行高通量測(cè)序,實(shí)現(xiàn)在全基因組水平上檢測(cè)疾病關(guān)聯(lián)的常見(jiàn)亡脑、低頻堕澄、甚至是罕見(jiàn)的突變位點(diǎn)洲尊,以及結(jié)構(gòu)變異等,具有重大的科研和產(chǎn)業(yè)價(jià)值奈偏。
什么是de novo測(cè)序
de novo測(cè)序也稱(chēng)為從頭測(cè)序:其不需要任何現(xiàn)有的序列資料就可以對(duì)某個(gè)物種進(jìn)行測(cè)序,利用生物信息學(xué)分析手段對(duì)序列進(jìn)行拼接躯护,組裝惊来,從而獲得該物種的基因組圖譜。獲得一個(gè)物種的全基因組序列是加快對(duì)此物種了解的重要捷徑棺滞。隨著新一代測(cè)序技術(shù)的飛速發(fā)展裁蚁,基因組測(cè)序所需的成本和時(shí)間較傳統(tǒng)技術(shù)都大大降低,大規(guī)募套迹基因組測(cè)序漸入佳境枉证,基因組學(xué)研究也迎來(lái)新的發(fā)展契機(jī)和革命性突破。利用新一代高通量移必、高效率測(cè)序技術(shù)以及強(qiáng)大的生物信息分析能力室谚,可以高效、低成本地測(cè)定并分析所有生物的基因組序列崔泵。
什么是外顯子測(cè)序(whole exon sequencing)
外顯子組測(cè)序是指利用序列捕獲技術(shù)將全基因組外顯子區(qū)域DNA捕捉并富集后進(jìn)行高通量測(cè)序的基因組分析方法秒赤。外顯子測(cè)序相對(duì)于基因組重測(cè)序成本較低,對(duì)研究已知基因的SNP憎瘸、Indel等具有較大的優(yōu)勢(shì)入篮,但無(wú)法研究基因組結(jié)構(gòu)變異如染色體斷裂重組等。
什么是mRNA測(cè)序 (RNA-seq)
轉(zhuǎn)錄組學(xué)(transcriptomics)是在基因組學(xué)后新興的一門(mén)學(xué)科幌甘,即研究特定細(xì)胞在某一功能狀態(tài)下所能轉(zhuǎn)錄出來(lái)的所有RNA(包括mRNA和非編碼RNA)的類(lèi)型與拷貝數(shù)潮售。Illumina提供的mRNA測(cè)序技術(shù)可在整個(gè)mRNA領(lǐng)域進(jìn)行各種相關(guān)研究和新的發(fā)現(xiàn)。mRNA測(cè)序不對(duì)引物或探針進(jìn)行設(shè)計(jì)锅风,可自由提供關(guān)于轉(zhuǎn)錄的客觀和權(quán)威信息酥诽。研究人員僅需要一次試驗(yàn)即可快速生成完整的poly-A尾的RNA完整序列信息,并分析基因表達(dá)皱埠、cSNP盆均、全新的轉(zhuǎn)錄、全新異構(gòu)體漱逸、剪接位點(diǎn)泪姨、等位基因特異性表達(dá)和罕見(jiàn)轉(zhuǎn)錄等最全面的轉(zhuǎn)錄組信息。簡(jiǎn)單的樣品制備和數(shù)據(jù)分析軟件支持在所有物種中的mRNA測(cè)序研究饰抒。
什么是small RNA測(cè)序
Small RNA(micro RNAs肮砾、siRNAs和 pi RNAs)是生命活動(dòng)重要的調(diào)控因子,在基因表達(dá)調(diào)控袋坑、生物個(gè)體發(fā)育仗处、代謝及疾病的發(fā)生等生理過(guò)程中起著重要的作用。Illumina能夠?qū)?xì)胞或者組織中的全部Small RNA進(jìn)行深度測(cè)序及定量分析等研究。實(shí)驗(yàn)時(shí)首先將18-30 nt范圍的Small RNA從總RNA中分離出來(lái)婆誓,兩端分別加上特定接頭后體外反轉(zhuǎn)錄做成cDNA再做進(jìn)一步處理后吃环,利用測(cè)序儀對(duì)DNA片段進(jìn)行單向末端直接測(cè)序。通過(guò)Illumina對(duì)Small RNA大規(guī)模測(cè)序分析洋幻,可以從中獲得物種全基因組水平的miRNA圖譜郁轻,實(shí)現(xiàn)包括新miRNA分子的挖掘,其作用靶基因的預(yù)測(cè)和鑒定文留、樣品間差異表達(dá)分析好唯、miRNAs聚類(lèi)和表達(dá)譜分析等科學(xué)應(yīng)用。
什么是miRNA測(cè)序
成熟的microRNA(miRNA)是17~24nt的單鏈非編碼RNA分子燥翅,通過(guò)與mRNA相互作用影響目標(biāo)mRNA的穩(wěn)定性及翻譯骑篙,最終誘導(dǎo)基因沉默,調(diào)控著基因表達(dá)森书、細(xì)胞生長(zhǎng)靶端、發(fā)育等生物學(xué)過(guò)程×莞啵基于第二代測(cè)序技術(shù)的microRNA測(cè)序躲查,可以一次性獲得數(shù)百萬(wàn)條microRNA序列,能夠快速鑒定出不同組織译柏、不同發(fā)育階段镣煮、不同疾病狀態(tài)下已知和未知的microRNA及其表達(dá)差異,為研究microRNA對(duì)細(xì)胞進(jìn)程的作用及其生物學(xué)影響提供了有力工具鄙麦。
什么是Chip-seq
染色質(zhì)免疫共沉淀技術(shù)(ChromatinImmunoprecipitation典唇,ChIP)也稱(chēng)結(jié)合位點(diǎn)分析法,是研究體內(nèi)蛋白質(zhì)與DNA相互作用的有力工具胯府,通常用于轉(zhuǎn)錄因子結(jié)合位點(diǎn)或組蛋白特異性修飾位點(diǎn)的研究介衔。將ChIP與第二代測(cè)序技術(shù)相結(jié)合的ChIP-Seq技術(shù),能夠高效地在全基因組范圍內(nèi)檢測(cè)與組蛋白骂因、轉(zhuǎn)錄因子等互作的DNA區(qū)段炎咖。
ChIP-Seq的原理是:首先通過(guò)染色質(zhì)免疫共沉淀技術(shù)(ChIP)特異性地富集目的蛋白結(jié)合的DNA片段,并對(duì)其進(jìn)行純化與文庫(kù)構(gòu)建寒波;然后對(duì)富集得到的DNA片段進(jìn)行高通量測(cè)序乘盼。研究人員通過(guò)將獲得的數(shù)百萬(wàn)條序列標(biāo)簽精確定位到基因組上,從而獲得全基因組范圍內(nèi)與組蛋白俄烁、轉(zhuǎn)錄因子等互作的DNA區(qū)段信息绸栅。
什么是CHIRP-Seq
CHIRP-Seq( Chromatin Isolation by RNA Purification )是一種檢測(cè)與RNA綁定的DNA和蛋白的高通量測(cè)序方法。方法是通過(guò)設(shè)計(jì)生物素或鏈霉親和素探針页屠,把目標(biāo)RNA拉下來(lái)以后粹胯,與其共同作用的DNA染色體片段就會(huì)附在到磁珠上蓖柔,最后把染色體片段做高通量測(cè)序,這樣會(huì)得到該RNA能夠結(jié)合到在基因組的哪些區(qū)域风纠,但由于蛋白測(cè)序技術(shù)不夠成熟况鸣,無(wú)法知道與該RNA結(jié)合的蛋白。
什么是RIP-seq
RNA Immunoprecipitation是研究細(xì)胞內(nèi)RNA與蛋白結(jié)合情況的技術(shù)竹观,是了解轉(zhuǎn)錄后調(diào)控網(wǎng)絡(luò)動(dòng)態(tài)過(guò)程的有力工具镐捧,能幫助我們發(fā)現(xiàn)miRNA的調(diào)節(jié)靶點(diǎn)。這種技術(shù)運(yùn)用針對(duì)目標(biāo)蛋白的抗體把相應(yīng)的RNA-蛋白復(fù)合物沉淀下來(lái)栈幸,然后經(jīng)過(guò)分離純化就可以對(duì)結(jié)合在復(fù)合物上的RNA進(jìn)行測(cè)序分析。
RIP可以看成是普遍使用的染色質(zhì)免疫沉淀ChIP技術(shù)的類(lèi)似應(yīng)用帮辟,但由于研究對(duì)象是RNA-蛋白復(fù)合物而不是DNA-蛋白復(fù)合物速址,RIP實(shí)驗(yàn)的優(yōu)化條件與ChIP實(shí)驗(yàn)不太相同(如復(fù)合物不需要固定,RIP反應(yīng)體系中的試劑和抗體絕對(duì)不能含有RNA酶由驹,抗體需經(jīng)RIP實(shí)驗(yàn)驗(yàn)證等等)芍锚。RIP技術(shù)下游結(jié)合microarray技術(shù)被稱(chēng)為RIP-Chip,幫助我們更高通量地了解癌癥以及其它疾病整體水平的RNA變化蔓榄。
什么是CLIP-seq
CLIP-seq,又稱(chēng)為HITS-CLIP并炮,即紫外交聯(lián)免疫沉淀結(jié)合高通量測(cè)序(crosslinking-immunprecipitation and high-throughput sequencing), 是一項(xiàng)在全基因組水平揭示RNA分子與RNA結(jié)合蛋白相互作用的革命性技術(shù)。其主要原理是基于RNA分子與RNA結(jié)合蛋白在紫外照射下發(fā)生耦聯(lián)甥郑,以RNA結(jié)合蛋白的特異性抗體將RNA-蛋白質(zhì)復(fù)合體沉淀之后逃魄,回收其中的RNA片段,經(jīng)添加接頭澜搅、RT-PCR等步驟伍俘,對(duì)這些分子進(jìn)行高通量測(cè)序,再經(jīng)生物信息學(xué)的分析和處理勉躺、總結(jié)癌瘾,挖掘出其特定規(guī)律,從而深入揭示RNA結(jié)合蛋白與RNA分子的調(diào)控作用及其對(duì)生命的意義饵溅。
什么是metagenomic(宏基因組):
Magenomics研究的對(duì)象是整個(gè)微生物群落妨退。相對(duì)于傳統(tǒng)單個(gè)細(xì)菌研究來(lái)說(shuō),它具有眾多優(yōu)勢(shì)蜕企,其中很重要的兩點(diǎn):(1)微生物通常是以群落方式共生于某一小生境中咬荷,它們的很多特性是基于整個(gè)群落環(huán)境及個(gè)體間的相互影響的,因此做Metagenomics研究比做單個(gè)個(gè)體的研究更能發(fā)現(xiàn)其特性轻掩;(2) Metagenomics研究無(wú)需分離單個(gè)細(xì)菌萍丐,可以研究那些不能被實(shí)驗(yàn)室分離培養(yǎng)的微生物。
宏基因組是基因組學(xué)一個(gè)新興的科學(xué)研究方向放典。宏基因組學(xué)(又稱(chēng)元基因組學(xué)逝变,環(huán)境基因組學(xué)基茵,生態(tài)基因組學(xué)等),是研究直接從環(huán)境樣本中提取的基因組遺傳物質(zhì)的學(xué)科壳影。傳統(tǒng)的微生物研究依賴(lài)于實(shí)驗(yàn)室培養(yǎng)拱层,元基因組的興起填補(bǔ)了無(wú)法在傳統(tǒng)實(shí)驗(yàn)室中培養(yǎng)的微生物研究的空白。過(guò)去幾年中宴咧,DNA測(cè)序技術(shù)的進(jìn)步以及測(cè)序通量和分析方法的改進(jìn)使得人們得以一窺這一未知的基因組科學(xué)領(lǐng)域根灯。
什么是SNP、SNV(單核苷酸位點(diǎn)變異)
單核苷酸多態(tài)性singlenucleotide polymorphism掺栅,SNP 或單核苷酸位點(diǎn)變異SNV烙肺。個(gè)體間基因組DNA序列同一位置單個(gè)核苷酸變異(替代、插入或缺失)所引起的多態(tài)性氧卧。不同物種桃笙、個(gè)體基因組DNA序列同一位置上的單個(gè)核苷酸存在差別的現(xiàn)象。有這種差別的基因座沙绝、DNA序列等可作為基因組作圖的標(biāo)志搏明。人基因組上平均約每1000個(gè)核苷酸即可能出現(xiàn)1個(gè)單核苷酸多態(tài)性的變化,其中有些單核苷酸多態(tài)性可能與疾病有關(guān)闪檬,但可能大多數(shù)與疾病無(wú)關(guān)星著。單核苷酸多態(tài)性是研究人類(lèi)家族和動(dòng)植物品系遺傳變異的重要依據(jù)。在研究癌癥基因組變異時(shí)粗悯,相對(duì)于正常組織虚循,癌癥中特異的單核苷酸變異是一種體細(xì)胞突變(somatic mutation),稱(chēng)做SNV样傍。
什么是INDEL (基因組小片段插入)
基因組上小片段(>50bp)的插入或缺失邮丰,形同SNP/SNV。
什么是copy number variation (CNV):基因組拷貝數(shù)變異
基因組拷貝數(shù)變異是基因組變異的一種形式铭乾,通常使基因組中大片段的DNA形成非正常的拷貝數(shù)量剪廉。例如人類(lèi)正常染色體拷貝數(shù)是2,有些染色體區(qū)域拷貝數(shù)變成1或3炕檩,這樣斗蒋,該區(qū)域發(fā)生拷貝數(shù)缺失或增加,位于該區(qū)域內(nèi)的基因表達(dá)量也會(huì)受到影響笛质。如果把一條染色體分成A-B-C-D四個(gè)區(qū)域泉沾,則A-B-C-C-D/A-C-B-C-D/A-C-C-B-C-D/A-B-D分別發(fā)生了C區(qū)域的擴(kuò)增及缺失,擴(kuò)增的位置可以是連續(xù)擴(kuò)增如A-B-C-C-D也可以是在其他位置的擴(kuò)增妇押,如A-C-B-C-D跷究。
什么是structure variation (SV):基因組結(jié)構(gòu)變異
染色體結(jié)構(gòu)變異是指在染色體上發(fā)生了大片段的變異。主要包括染色體大片段的插入和缺失(引起CNV的變化)敲霍,染色體內(nèi)部的某塊區(qū)域發(fā)生翻轉(zhuǎn)顛換俊马,兩條染色體之間發(fā)生重組(inter-chromosome trans-location)等丁存。一般SV的展示利用Circos 軟件。
什么是Segment duplication
一般稱(chēng)為SD區(qū)域柴我,串聯(lián)重復(fù)是由序列相近的一些DNA片段串聯(lián)組成解寝。串聯(lián)重復(fù)在人類(lèi)基因多樣性的靈長(zhǎng)類(lèi)基因中發(fā)揮重要作用。在人類(lèi)染色體Y和22號(hào)染色體上艘儒,有很大的SD序列聋伦。
什么是genotype and phenotype
既基因型與表型;一般指某些單核苷酸位點(diǎn)變異與表現(xiàn)形式間的關(guān)系界睁。
什么是Read? 高通量測(cè)序平臺(tái)產(chǎn)生的序列標(biāo)簽就稱(chēng)為reads觉增。
什么是soft-clipped reads
當(dāng)基因組發(fā)生某一段的缺失,或轉(zhuǎn)錄組的剪接翻斟,在測(cè)序過(guò)程中逾礁,橫跨缺失位點(diǎn)及剪接位點(diǎn)的reads回帖到基因組時(shí),一條reads被切成兩段杨赤,匹配到不同的區(qū)域敞斋,這樣的reads叫做soft-clipped reads截汪,這些reads對(duì)于鑒定染色體結(jié)構(gòu)變異及外源序列整合具有重要作用疾牲。
什么是multi-hits reads
由于大部分測(cè)序得到的reads較短,一個(gè)reads能夠匹配到基因組多個(gè)位置衙解,無(wú)法區(qū)分其真實(shí)來(lái)源的位置阳柔。一些工具根據(jù)統(tǒng)計(jì)模型,如將這類(lèi)reads分配給reads較多的區(qū)域蚓峦。
什么是Contig? 拼接軟件基于reads之間的overlap區(qū)舌剂,拼接獲得的序列稱(chēng)為Contig(重疊群)刺桃。 什么是Scaffold? 基因組de novo測(cè)序遏暴,通過(guò)reads拼接獲得Contigs后,往往還需要構(gòu)建454 Paired-end庫(kù)或Illumina Mate-pair庫(kù)低匙,以獲得一定大小片段(如3Kb一汽、6Kb避消、10Kb、20Kb)兩端的序列召夹⊙遗纾基于這些序列,可以確定一些Contig之間的順序關(guān)系监憎,這些先后順序已知的Contigs組成Scaffold纱意。 什么是Contig N50? Reads拼接后會(huì)獲得一些不同長(zhǎng)度的Contigs鲸阔。將所有的Contig長(zhǎng)度相加偷霉,能獲得一個(gè)Contig總長(zhǎng)度迄委。然后將所有的Contigs按照從長(zhǎng)到短進(jìn)行排序,如獲得Contig 1腾它,Contig 2跑筝,Contig 3...………Contig 25。將Contig按照這個(gè)順序依次相加瞒滴,當(dāng)相加的長(zhǎng)度達(dá)到Contig總長(zhǎng)度的一半時(shí)曲梗,最后一個(gè)加上的Contig長(zhǎng)度即為Contig N50。舉例:Contig 1+Contig 2+ Contig 3+Contig 4=Contig總長(zhǎng)度*1/2時(shí)妓忍,Contig 4的長(zhǎng)度即為Contig N50虏两。Contig N50可以作為基因組拼接的結(jié)果好壞的一個(gè)判斷標(biāo)準(zhǔn)。 什么是Scaffold N50世剖? Scaffold N50與Contig N50的定義類(lèi)似定罢。Contigs拼接組裝獲得一些不同長(zhǎng)度的Scaffolds。將所有的Scaffold長(zhǎng)度相加旁瘫,能獲得一個(gè)Scaffold總長(zhǎng)度祖凫。然后將所有的Scaffolds按照從長(zhǎng)到短進(jìn)行排序,如獲得Scaffold 1酬凳,Scaffold 2惠况,Scaffold 3...………Scaffold 25。將Scaffold按照這個(gè)順序依次相加宁仔,當(dāng)相加的長(zhǎng)度達(dá)到Scaffold總長(zhǎng)度的一半時(shí)稠屠,最后一個(gè)加上的Scaffold長(zhǎng)度即為Scaffold N50。舉例:Scaffold 1+Scaffold 2+ Scaffold 3 +Scaffold 4 +Scaffold 5=Scaffold總長(zhǎng)度*1/2時(shí)翎苫,Scaffold 5的長(zhǎng)度即為Scaffold N50权埠。Scaffold N50可以作為基因組拼接的結(jié)果好壞的一個(gè)判斷標(biāo)準(zhǔn)。 什么是測(cè)序深度和覆蓋度煎谍? 測(cè)序深度是指測(cè)序得到的總堿基數(shù)與待測(cè)基因組大小的比值攘蔽。假設(shè)一個(gè)基因大小為2M,測(cè)序深度為10X呐粘,那么獲得的總數(shù)據(jù)量為20M满俗。覆蓋度是指測(cè)序獲得的序列占整個(gè)基因組的比例。由于基因組中的高GC事哭、重復(fù)序列等復(fù)雜結(jié)構(gòu)的存在漫雷,測(cè)序最終拼接組裝獲得的序列往往無(wú)法覆蓋有所的區(qū)域,這部分沒(méi)有獲得的區(qū)域就稱(chēng)為Gap鳍咱。例如一個(gè)細(xì)菌基因組測(cè)序降盹,覆蓋度是98%,那么還有2%的序列區(qū)域是沒(méi)有通過(guò)測(cè)序獲得的谤辜。
什么是RPKM蓄坏、FPKM
RPKM,Reads Per Kilobase of exon model per Million mapped reads, is defined in thisway [Mortazavi etal., 2008]: 每1百萬(wàn)個(gè)map上的reads中map到外顯子的每1K個(gè)堿基上的reads個(gè)數(shù)价捧。 假如有1百萬(wàn)個(gè)reads映射到了人的基因組上,那么具體到每個(gè)外顯子呢涡戳,有多少映射上了呢结蟋,而外顯子的長(zhǎng)度不一,那么每1K個(gè)堿基上又有多少reads映射上了呢渔彰,這大概就是這個(gè)RPKM的直觀解釋嵌屎。
如果對(duì)應(yīng)特定基因的話,那么就是每1000000 mapped到該基因上的reads中每kb有多少是mapped到該基因上的exon的read Total exon reads:This is the number in the column with header Total exonreads in the row for the gene. This is the number of reads that have beenmapped to a region in which an exon is annotated for the gene or across theboundaries of two exons or an intron and an exon for an annotated transcript ofthe gene. For eukaryotes, exons and their internal relationships are defined byannotations of type mRNA.映射到外顯子上總的reads個(gè)數(shù)恍涂。這個(gè)是映射到某個(gè)區(qū)域上的reads個(gè)數(shù)宝惰,這個(gè)區(qū)域或者是已知注釋的基因或者跨兩個(gè)外顯子的邊界或者是某個(gè)基因已經(jīng)注釋的轉(zhuǎn)錄本的內(nèi)含子、外顯子再沧。對(duì)于真核生物來(lái)說(shuō)尼夺,外顯子和它們自己內(nèi)部的關(guān)系由某類(lèi)型的mRNA來(lái)注釋。
Exonlength: This is the number in the column with the header Exon length inthe row for the gene, divided by 1000. This is calculated as the sum of thelengths of all exons annotated for the gene. Each exon is included only once inthis sum, even if it is present in more annotated transcripts for the gene.Partly overlapping exons will count with their full length, even though theyshare the same region.外顯子的長(zhǎng)度炒瘸。計(jì)算時(shí)淤堵,計(jì)算所有某個(gè)基因已注釋的所有外顯子長(zhǎng)度的總和。即使某個(gè)基因以多種注釋的轉(zhuǎn)錄本呈現(xiàn)顷扩,這個(gè)外顯子在求和時(shí)只被包含一次拐邪。即使部分重疊的外顯子共享相同的區(qū)域,重疊的外顯子以其總長(zhǎng)來(lái)計(jì)算屎即。 Mapped reads: The sum of all the numbers in the column with header Totalgene reads. The Total gene reads for a gene is the total number ofreads that after mapping have been mapped to the region of the gene. Thus thisincludes all the reads uniquely mapped to the region of the gene as well asthose of the reads which match in more places (below the limit set in thedialog in figure18.110) that have been allocated tothis gene's region. A gene's region is that comprised of the flanking regions(if it was specified in figure 18.110), the exons, the introns andacross exon-exon boundaries of all transcripts annotated for the gene. Thus,the sum of the total gene reads numbers is the number of mapped reads for thesample (you can find the number in the RNA-Seq report).map的reads總和庙睡。映射到某個(gè)基因上的所有reads總數(shù)事富。因此這包含所有的唯一映射到這個(gè)區(qū)域上的reads技俐。
舉例:比如對(duì)應(yīng)到該基因的read有1000個(gè),總reads個(gè)數(shù)有100萬(wàn)统台,而該基因的外顯子總長(zhǎng)為5kb雕擂,那么它的RPKM為:10^9*1000(reads個(gè)數(shù))/10^6(總reads個(gè)數(shù))*5000(外顯子長(zhǎng)度)=200或者:1000(reads個(gè)數(shù))/1(百萬(wàn))*5(K)=200這個(gè)值反映基因的表達(dá)水平。
FPKM(fragments per kilobase of exon per million fragments mapped). FPKM與RPKM計(jì)算方法基本一致贱勃。不同點(diǎn)就是FPKM計(jì)算的是fragments井赌,而RPKM計(jì)算的是reads。Fragment比read的含義更廣贵扰,因此FPKM包含的意義也更廣仇穗,可以是pair-end的一個(gè)fragment,也可以是一個(gè)read戚绕。
什么是轉(zhuǎn)錄本重構(gòu)
用測(cè)序的數(shù)據(jù)組裝成轉(zhuǎn)錄本纹坐。有兩種組裝方式:1,de-novo構(gòu)建舞丛; 2耘子,有參考基因組重構(gòu)果漾。其中de-novo組裝是指在不依賴(lài)參考基因組的情況下,將有overlap的reads連接成一個(gè)更長(zhǎng)的序列谷誓,經(jīng)過(guò)不斷的延伸绒障,拼成一個(gè)個(gè)的contig及scaffold。常用工具包括velvet捍歪,trans-ABYSS户辱,Trinity等。有參考基因組重構(gòu)糙臼,是指先將read貼回到基因組上焕妙,然后在基因組通過(guò)reads覆蓋度,junction位點(diǎn)的信息等得到轉(zhuǎn)錄本弓摘,常用工具包括scripture焚鹊、cufflinks。
什么是genefusion
將基因組位置不同的兩個(gè)基因中的一部分或全部整合到一起韧献,形成新的基因末患,稱(chēng)作融合基因,或嵌合體基因锤窑。該基因有可能翻譯出融合或嵌合體蛋白璧针。
什么是表達(dá)譜
基因表達(dá)譜(geneexpression profile):指通過(guò)構(gòu)建處于某一特定狀態(tài)下的細(xì)胞或組織的非偏性cDNA文庫(kù),大規(guī)模cDNA測(cè)序,收集cDNA序列片段、定性渊啰、定量分析其mRNA群體組成,從而描繪該特定細(xì)胞或組織在特定狀態(tài)下的基因表達(dá)種類(lèi)和豐度信息,這樣編制成的數(shù)據(jù)表就稱(chēng)為基因表達(dá)譜
什么是功能基因組學(xué)
功能基因組學(xué)(Functuionalgenomics)又往往被稱(chēng)為后基因組學(xué)(Postgenomics)探橱,它利用結(jié)構(gòu)基因組所提供的信息和產(chǎn)物,發(fā)展和應(yīng)用新的實(shí)驗(yàn)手段绘证,通過(guò)在基因組或系統(tǒng)水平上全面分析基因的功能隧膏,使得生物學(xué)研究從對(duì)單一基因或蛋白質(zhì)得研究轉(zhuǎn)向多個(gè)基因或蛋白質(zhì)同時(shí)進(jìn)行系統(tǒng)的研究。這是在基因組靜態(tài)的堿基序列弄清楚之后轉(zhuǎn)入對(duì)基因組動(dòng)態(tài)的生物學(xué)功能學(xué)研究嚷那。研究?jī)?nèi)容包括基因功能發(fā)現(xiàn)胞枕、基因表達(dá)分析及突變檢測(cè)∥嚎恚基因的功能包括:生物學(xué)功能腐泻,如作為蛋白質(zhì)激酶對(duì)特異蛋白質(zhì)進(jìn)行磷酸化修飾;細(xì)胞學(xué)功能队询,如參與細(xì)胞間和細(xì)胞內(nèi)信號(hào)傳遞途徑派桩;發(fā)育上功能,如參與形態(tài)建成等蚌斩。采用的手段包括經(jīng)典的減法雜交铆惑,差示篩選,cDNA代表差異分析以及mRNA差異顯示等,但這些技術(shù)不能對(duì)基因進(jìn)行全面系統(tǒng)的
分析鸭津,新的技術(shù)應(yīng)運(yùn)而生彤侍,包括基因表達(dá)的系統(tǒng)分析(serial analysis of gene expression,SAGE),cDNA微陣列(cDNA microarray)逆趋,DNA 芯片(DNA chip)和序列標(biāo)志片段顯示(sequence tagged fragmentsdisplay盏阶。
什么是比較基因組學(xué)
比較基因組學(xué)(ComparativeGenomics)是基于基因組圖譜和測(cè)序基礎(chǔ)上,對(duì)已知的基因和基因組結(jié)構(gòu)進(jìn)行比較闻书,來(lái)了解基因的功能名斟、表達(dá)機(jī)理和物種進(jìn)化的學(xué)科。利用模式生物基因組與人類(lèi)基因組之間編碼順序上和結(jié)構(gòu)上的同源性魄眉,克隆人類(lèi)疾病基因砰盐,揭示基因功能和疾病分子機(jī)制,闡明物種進(jìn)化關(guān)系坑律,及基因組的內(nèi)在結(jié)構(gòu)岩梳。
什么是表觀遺傳學(xué)
表觀遺傳學(xué)是研究基因的核苷酸序列不發(fā)生改變的情況下,基因表達(dá)了可遺傳的變化的一門(mén)遺傳學(xué)分支學(xué)科晃择。表觀遺傳的現(xiàn)象很多冀值,已知的有DNA甲基化(DNAmethylation),基因組印記(genomicimpriting)宫屠,母體效應(yīng)(maternaleffects)列疗,基因沉默(genesilencing),核仁顯性浪蹂,休眠轉(zhuǎn)座子激活和RNA編輯(RNA editing)等抵栈。
什么是計(jì)算生物學(xué)
計(jì)算生物學(xué)是指開(kāi)發(fā)和應(yīng)用數(shù)據(jù)分析及理論的方法、數(shù)學(xué)建模坤次、計(jì)算機(jī)仿真技術(shù)等古劲。當(dāng)前,生物學(xué)數(shù)據(jù)量和復(fù)雜性不斷增長(zhǎng)浙踢,每14個(gè)月基因研究產(chǎn)生的數(shù)據(jù)就會(huì)翻一番绢慢,單單依靠觀察和實(shí)驗(yàn)已難以應(yīng)付灿渴。因此洛波,必須依靠大規(guī)模計(jì)算模擬技術(shù),從海量信息中提取最有用的數(shù)據(jù)骚露。
什么是基因組印記
基因組印記(又稱(chēng)遺傳印記)是指基因根據(jù)親代的不同而有不同的表達(dá)蹬挤。印記基因的存在能導(dǎo)致細(xì)胞中兩個(gè)等位基因的一個(gè)表達(dá)而另一個(gè)不表達(dá)〖遥基因組印記是一正常過(guò)程焰扳,此現(xiàn)象在一些低等動(dòng)物和植物中已發(fā)現(xiàn)多年。印記的基因只占人類(lèi)基因組中的少數(shù),可能不超過(guò)5%吨悍,但在胎兒的生長(zhǎng)和行為發(fā)育中起著至關(guān)重要的作用扫茅。基因組印記病主要表現(xiàn)為過(guò)度生長(zhǎng)育瓜、生長(zhǎng)遲緩葫隙、智力障礙、行為異常躏仇。目前在腫瘤的研究中認(rèn)為印記缺失是引起腫瘤最常見(jiàn)的遺傳學(xué)因素之一恋脚。
什么是基因組學(xué)
基因組學(xué)(英文genomics),研究生物基因組和如何利用基因的一門(mén)學(xué)問(wèn)焰手。用于概括涉及基因作圖糟描、測(cè)序和整個(gè)基因組功能分析的遺傳學(xué)分支。該學(xué)科提供基因組信息以及相關(guān)數(shù)據(jù)系統(tǒng)利用书妻,試圖解決生物船响,醫(yī)學(xué),和工業(yè)領(lǐng)域的重大問(wèn)題躲履。
什么是DNA甲基化
DNA甲基化是指在DNA甲基化轉(zhuǎn)移酶的作用下灿意,在基因組CpG二核苷酸的胞嘧啶5'碳位共價(jià)鍵結(jié)合一個(gè)甲基基團(tuán)。正常情況下崇呵,人類(lèi)基因組“垃圾”序列的CpG二核苷酸相對(duì)稀少缤剧,并且總是處于甲基化狀態(tài),與之相反域慷,人類(lèi)基因組中大小為100—1000 bp左右且富含CpG二核苷酸的CpG島則總是處于未甲基化狀態(tài)荒辕,并且與56%的人類(lèi)基因組編碼基因相關(guān)。人類(lèi)基因組序列草圖分析結(jié)果表明犹褒,人類(lèi)基因組CpG島約為28890個(gè)抵窒,大部分染色體每1 Mb就有5—15個(gè)CpG島,平均值為每Mb含10.5個(gè)CpG島叠骑,CpG島的數(shù)目與基因密度有良好的對(duì)應(yīng)關(guān)系[9]李皇。由于DNA甲基化與人類(lèi)發(fā)育和腫瘤疾病的密切關(guān)系,特別是CpG島甲基化所致抑癌基因轉(zhuǎn)錄失活問(wèn)題宙枷,DNA甲基化已經(jīng)成為表觀遺傳學(xué)和表觀基因組學(xué)的重要研究?jī)?nèi)容掉房。
什么是基因組注釋?zhuān)?/p>
基因組注釋(Genomeannotation) 是利用生物信息學(xué)方法和工具,對(duì)基因組所有基因的生物學(xué)功能進(jìn)行高通量注釋,是當(dāng)前功能基因組學(xué)研究的一個(gè)熱點(diǎn)∥看裕基因組注釋的研究?jī)?nèi)容包括基因識(shí)別和基因功能注釋兩個(gè)方面卓囚。基因識(shí)別的核心是確定全基因組序列中所有基因的確切位置诅病。
什么是Q30哪亿?
Q30是指一個(gè)堿基的識(shí)別可靠性等于99.9%粥烁,或者說(shuō)出錯(cuò)可能性是0.1%。Q20則是指堿基識(shí)別的可靠性等于99%蝇棉。
Q30數(shù)據(jù)量是指一批數(shù)據(jù)中讨阻,質(zhì)量高于等于Q30的數(shù)據(jù)的量的總和。
測(cè)序數(shù)據(jù)的PF data/PF reads是什么意思篡殷?
PF是pass filter的意思变勇。也就是質(zhì)量合格的意思。Illumina的測(cè)儀序會(huì)自動(dòng)地對(duì)一個(gè)read(序列)的質(zhì)量可靠性進(jìn)行打分贴唇。
對(duì)于前25個(gè)堿基中的是否有兩個(gè)堿基的識(shí)別可靠性低于0.6搀绣,是PF的判斷標(biāo)準(zhǔn)。這句話翻譯成較容易理解的話: 就是前25個(gè)堿基中戳气,如果低質(zhì)量的數(shù)據(jù)有2個(gè)或更多链患,則這條read被判定為不合格,PF就不通過(guò)瓶您。反之麻捻,則質(zhì)檢通過(guò)。
PF是國(guó)際公認(rèn)的質(zhì)檢標(biāo)準(zhǔn)呀袱。
你們給的數(shù)據(jù)是什么質(zhì)量的贸毕?
對(duì)于哺乳動(dòng)物基因組重測(cè)序、外顯子測(cè)序夜赵,我們保證數(shù)據(jù)質(zhì)量是Q30的比例高于80%明棍。對(duì)于mRNA測(cè)序,smRNA測(cè)序寇僧,我們保證對(duì)照Lane的數(shù)據(jù)質(zhì)是Q30的比例高于80%摊腋。
一般情況下:
哺乳動(dòng)物基因組重測(cè)序、外顯子測(cè)序嘁傀,GC比例在40%左右兴蒸,Q30的比例是80~95%
RNA-seq,GC比例在50%左右细办,Q30的比例是~80%橙凳。如果Poly(A)特別多的情況下,Q30會(huì)更低一些
SmRNA-seq笑撞,因?yàn)橛性S多的read讀通之后岛啸,只剩下一串的A,質(zhì)量會(huì)更低娃殖,我們的實(shí)驗(yàn)結(jié)果%Q30在70~75%
測(cè)序中的Duplication是什么值戳,如何避免,一般會(huì)有多少Duplication?
所謂Duplication是指起始與終止位置完全一致的片段炉爆。
引起Duplication的主要原因是因?yàn)樵跍y(cè)序中有PCR過(guò)程,來(lái)源于同一個(gè)DNA片段PCR的產(chǎn)物被重復(fù)測(cè)序,就會(huì)是Duplication芬首。次要原因是正巧兩個(gè)片段的頭和尾的位置完全一致赴捞。
一般通過(guò)控制PCR的循環(huán)數(shù)來(lái)控制Duplication。我們一般控制PCR的循環(huán)次數(shù)在10~12個(gè)循環(huán)郁稍。
在藥明康德外顯子測(cè)序中赦政,如果用illumina的捕獲試劑盒Duplication的比例約為10%,如果用Nimblegen的捕獲試劑盒Duplication的比例波動(dòng)較大耀怜,在5~50%范圍 恢着,平均為30%。
在RNA-seq中财破,Duplication的比例約為40%掰派。RNA-seq中,因?yàn)楦哓S度的mRNA集中在幾個(gè)基因上左痢,集中度很高靡羡,所以Duplication的比例也就高。
測(cè)序的插入片段一般是多長(zhǎng)俊性?
測(cè)序的插入片段一般是100bp到600bp.
因?yàn)镠iseq測(cè)序過(guò)程中有一個(gè)橋式PCR的過(guò)程略步。如果插入片段過(guò)長(zhǎng),測(cè)橋式PCR產(chǎn)生的Cluster就會(huì)太大定页,而且光強(qiáng)也會(huì)減弱趟薄。所以插入片段的長(zhǎng)度是有限制的。
PhiX文庫(kù)有什么用典徊?
PhiX文庫(kù)是一種用病毒基因組做的文庫(kù)竟趾。其基因序列已精確知曉,GC比例約為40%宫峦,與人類(lèi)岔帽、哺乳類(lèi)的基因組的GC比例接近。其基因序列又與人類(lèi)的基因序列相去甚遠(yuǎn)导绷,在與哺乳類(lèi)基因組一些測(cè)序時(shí)犀勒,可以輕松地通過(guò)基因序列比對(duì)而將之去除。
在測(cè)四種堿基不平衡(A妥曲、G贾费、C、T四種堿基的含量遠(yuǎn)遠(yuǎn)偏離25%)的樣本時(shí)檐盟,可以加入大量的PhiX文庫(kù)褂萧,以部分抵消樣本的不平衡性。例如ChIPed DNA測(cè)序葵萎,或者亞硫酸氫鹽處理過(guò)的DNA文庫(kù)导犹,或者擴(kuò)增子測(cè)序(PCR樣測(cè)序)唱凯,都可以加入PhiX,以部分彌補(bǔ)堿基不平衡性谎痢。
也可以少量地加入樣本磕昼,以作為control library來(lái)驗(yàn)證測(cè)序質(zhì)量。
Hiseq和Miseq有什么差別节猿?
Hiseq 2000的測(cè)序數(shù)據(jù)產(chǎn)量很高票从,一條Lane一次可以產(chǎn)生35G的Q30數(shù)據(jù),一張F(tuán)lowcell可以產(chǎn)生約300G的Q30數(shù)據(jù)滨嘱。但是測(cè)一次序要9~11天的時(shí)間峰鄙。所以較慢。
Hiseq 2500的一張PE 200 Flowcell可以給出60G的Q30數(shù)據(jù)太雨,測(cè)序本身是一天時(shí)間吟榴,可以快速地以較高的通量給出高質(zhì)量的測(cè)序數(shù)據(jù)。
Miseq的測(cè)序數(shù)據(jù)產(chǎn)量低躺彬,一次可以產(chǎn)生1G~4G的數(shù)據(jù)煤墙。但是測(cè)長(zhǎng)可以做到較長(zhǎng),目前可以測(cè)250*2宪拥。而且測(cè)序的速度非撤乱埃快,一般一天就可以測(cè)完一張F(tuán)lowcell她君。
Hiseq 2000和Hiseq 2500有什么差別脚作?
儀器升級(jí):
Hiseq 2500是Hiseq 2000的升級(jí)版。
其主要的改進(jìn)點(diǎn)是:Hiseq 2500可以在快速缔刹、高通量?jī)煞N模式之間切換球涛。高通量模式就是原來(lái)的Hiseq 2000的每張F(tuán)lowcell有8個(gè)Lane的模式。
Hiseq 2500的快速模式校镐,核心的改進(jìn)是用2個(gè)Lane的Flowcell來(lái)測(cè)序亿扁,而且這種快速Flowcell的Lane比Hiseq 2000的Lane要短,數(shù)據(jù)產(chǎn)量也略低于高通量模式的2條Lane鸟廓。
Hiseq 2500快速模式的試劑也有所改進(jìn)从祝。
速度提升:
Hiseq高通量模式,PE100引谜,雙Flowcell牍陌,11天完成測(cè)序。數(shù)據(jù)量每Flowcell在270G PF data以上员咽。
Hiseq快速模式毒涧,PE100,雙Flowcel贝室,27小時(shí)完成測(cè)序契讲。數(shù)據(jù)量每Flowcell在60G PF data以上仿吞。
數(shù)據(jù)質(zhì)量提升:
在快速模式下,Hiseq機(jī)器可以更快地拍完一個(gè)cycle的所有照片怀泊,也就是每個(gè)cycle的用時(shí)更少茫藏。SR50可以在1天內(nèi)走完误趴,PE100可以在2天內(nèi)走完霹琼。這明顯比原來(lái)的3天(SR50)、11天(PE100)要快得多凉当。
在速度加快的同時(shí)枣申,還帶來(lái)質(zhì)量的提升。因?yàn)镠iseq測(cè)序過(guò)程中兩個(gè)主要的物質(zhì):酶和熒光劑都是不穩(wěn)定的看杭,或者說(shuō)是在融化后(原來(lái)是冰凍的)隨時(shí)間延長(zhǎng)而不斷降解的忠藤。為此Hiseq還為試劑準(zhǔn)備了4度冰格,以減慢其降解楼雹。原來(lái)的Hiseq 2000要走11天,現(xiàn)在2天完成模孩,這帶來(lái)了明顯的測(cè)序質(zhì)量提升。
實(shí)測(cè)哺乳類(lèi)動(dòng)物的基因組DNA文庫(kù)贮缅, Q30比例可達(dá)85%以上榨咐,而且其中絕大部分是90%以上。
測(cè)序長(zhǎng)度提升:
而且因?yàn)闇y(cè)序質(zhì)量的提升谴供,也帶動(dòng)測(cè)序長(zhǎng)度的提升块茁,目前Illumina官方支持的Hiseq 2500的測(cè)長(zhǎng)是PE 2*150。
特別需要注意的桂肌,Illumina目前不直接提供PE150的試劑数焊,客戶要用1*PE Cluster kit + 1*PE100 SBS kit + 2*SR50 SBS kit合起來(lái),才能測(cè)PE150崎场。
直接兼容更多文庫(kù):
Hiseq 2500的快速模式試劑直接支持雙Index測(cè)序模式:
雙Index是指兩個(gè)接頭各有一個(gè)Index佩耳。這樣兩套Index排列組合,一個(gè)Lane里可以放更多的文庫(kù)谭跨。目前Illumina官方試劑是支持96個(gè)排列組合( 12*8 = 96)干厚,這對(duì)充分利用Hiseq平臺(tái)巨大的測(cè)序數(shù)據(jù)產(chǎn)量有很大的幫助。原來(lái)的單Index是支持單側(cè)24種Index饺蚊。
這與Hiseq PE100高通量模式標(biāo)準(zhǔn)PE100試劑只能測(cè)單Index萍诱。當(dāng)然,Hiseq2000b也可以測(cè)雙Index污呼,但是用4個(gè)50 cycles SBS kit(每Kit保證58個(gè)cycles)拼起來(lái)(58*4=232)裕坊,才可以保證有足夠的SBS試劑量,因?yàn)殡pIndex會(huì)實(shí)際需要216 cycles燕酷,這超過(guò)了200 cycle SBS試劑可以保證的cycle數(shù)籍凝。
儀器操作更方便:
Hiseq 2500快速模式可以直接在Hiseq儀上進(jìn)行Cluster生成周瞎,這大大節(jié)約了先要在cBOT上生成Cluster,再要將Flowcell從cBOT上移到Hiseq的麻煩饵蒂。
但是請(qǐng)注意声诸,如果直接在Hiseq 2500上生成cluster,兩條Lane就只能上一種預(yù)混合文庫(kù)退盯,而不能象原來(lái)的Hiseq 2000上那樣彼乌,兩條Lane物理分開(kāi)。也就是說(shuō)預(yù)混合文庫(kù)中的Index一定是要分得開(kāi)的才行渊迁。
當(dāng)然慰照,快速模式也可以還用cBOT生成cluster,但是那要另外買(mǎi)一個(gè)編號(hào)為CT-402-4001(全名:TruSeq? Rapid Duo cBot? Sample Loading Kit )的試劑盒琉朽,這個(gè)試劑盒要好幾百美元毒租。
試劑操作更方便 :
Hiseq 2500快速模式的試劑是做成Master Mix的,也就是酶箱叁、Buffer墅垮、熒光dNTP等都預(yù)先混合好了,一大管耕漱,拿來(lái)一化凍就可以用算色,很方便。這與高通量模式試劑把酶孤个、熒光dNTP分幾管的模式是不一樣的剃允,高通量模式的試劑因?yàn)槭欠止艿模允褂弥斑€要人工再混合齐鲤,這樣會(huì)多占用一點(diǎn)人工斥废。
Hiseq 2500的兩個(gè)機(jī)位同時(shí)只能運(yùn)行一種模式:
Hiseq 2500在一臺(tái)機(jī)器的兩個(gè)機(jī)位同時(shí)只能跑同一種模式,也就是要么都跑快速模式给郊,要么都跑高通量模式牡肉,而不能一個(gè)機(jī)位跑快速模式,另一個(gè)機(jī)位同時(shí)跑高通量模式淆九。
Illumina统锤、Roche 454、Life Ion Torrent炭庙、SOLID和PacBio的高通量測(cè)序儀的優(yōu)缺點(diǎn)是什么饲窿?
Illumina的測(cè)序儀的數(shù)據(jù)產(chǎn)量高,數(shù)據(jù)質(zhì)量也是最高的焕蹄。因?yàn)椴捎脦ЫK止基團(tuán)的熒光dNTP逾雄,所以在測(cè)Homopolyer(堿基同聚物,例如一串4個(gè)T:TTTT)等的時(shí)候,不會(huì)產(chǎn)生移碼錯(cuò)讀鸦泳。
Roche 454采用的是pyrosequencing的測(cè)序原理银锻,通過(guò)水解DNA全成過(guò)程中所產(chǎn)生的焦磷,放出光做鹰,通過(guò)測(cè)這光來(lái)讀出序列击纬。優(yōu)點(diǎn)是讀長(zhǎng)最長(zhǎng)。但是數(shù)據(jù)產(chǎn)量是最低的钾麸。
Ion Torrent更振,包括PGM和Proton,采用測(cè)量DNA合成過(guò)程中所釋放的氫離子引起的PH值的變化喂走,來(lái)得到序列殃饿。優(yōu)點(diǎn)是速度最快谋作,上機(jī)前約3~4天的時(shí)間芋肠,上機(jī)只要2~4個(gè)小時(shí)。
SOLID采用的是雜交遵蚜,連接反應(yīng)帖池,再測(cè)熒光的方法。因?yàn)殡s交吭净,所以速度慢睡汹,測(cè)長(zhǎng)
較短。現(xiàn)在事實(shí)上已被淘汰寂殉。
PacBio是三代測(cè)序囚巴,也就是單分子測(cè)序。目前的情況是測(cè)序長(zhǎng)度可以在1個(gè)KB以上友扰,而且可以測(cè)出DNA序列的修飾情況彤叉。但是其缺點(diǎn)在于測(cè)序的準(zhǔn)確度很低,目前的測(cè)序準(zhǔn)確度只有每個(gè)堿基80~90%村怪。另一方面通量較小秽浇,一次讀7萬(wàn)條reads.
Illumina測(cè)序過(guò)程中,Multiplex index之間會(huì)有多少交叉的污染甚负?
我們?cè)?jīng)專(zhuān)門(mén)做過(guò)實(shí)驗(yàn)柬焕,用4個(gè)親緣關(guān)系很遠(yuǎn)的物種的DNA,用4個(gè)index標(biāo)記梭域,進(jìn)行測(cè)序斑举。測(cè)序之后進(jìn)行基因組比對(duì),發(fā)現(xiàn)每種index之內(nèi)會(huì)有0.02~0.03%的reads是別的物種的病涨。也就是說(shuō)因?yàn)镸ultiplex index引入的交叉污染富玷,會(huì)以0.02%上下的比例存在。
這主要是由化學(xué)合成index oligo過(guò)程中的誤差引起的。根據(jù)我司的引物合成專(zhuān)家的經(jīng)驗(yàn)凌彬,即使經(jīng)過(guò)HPLC的純化沸柔,oligo中還是會(huì)有0.5~1%甚至更高的錯(cuò)的引物。現(xiàn)在的0.02%的污染率铲敛,已經(jīng)是很低了褐澎。
Hiseq和Miseq都可以做雙index測(cè)序嗎?
Miseq是天生就可以做雙index測(cè)序的伐蒋。
Hiseq要升級(jí)到2500之后工三,才可以做雙index測(cè)序。而且先鱼,在測(cè)的時(shí)候要加一個(gè)試劑盒:Truseq Dual Index Sequencing Primer Box(下稱(chēng)Dual Index Box)俭正。
這個(gè)試劑盒只能用于一整個(gè)Hiseq 2000的Flowcell,也就是說(shuō)無(wú)論一張F(tuán)lowcell中有幾條Lane是雙index的焙畔,只要其中有一條Lane是雙index的掸读,就需要用一個(gè)Dual Index Box.
我們對(duì)一個(gè)Dual Index Box, 收取1000元人民幣的費(fèi)用宏多。
Dual Index Box中主要是新加的測(cè)第2條Index的引物儿惫。
轉(zhuǎn)自:https://wenku.baidu.com/view/08da752b5f0e7cd185253602.html###