二代測(cè)序基礎(chǔ)知識(shí)
二代測(cè)序基礎(chǔ)概念
(這個(gè)是與二代測(cè)序相關(guān)每個(gè)部門(mén)都要掌握的)
FQ數(shù)據(jù)格式
- 高通量測(cè)序(如Illumina HiSeqTM/MiseqTM)得到的原始圖像數(shù)據(jù)文件經(jīng)CASAVA堿基識(shí)別(Base Calling)分析轉(zhuǎn)化為原始測(cè)序序列(Sequenced Reads)漠烧,我們稱(chēng)之為 Raw Data或Raw Reads,結(jié)果以 FASTQ (簡(jiǎn)稱(chēng)為fq)文件格式存儲(chǔ)价说,其中包含測(cè)序序列(reads)的序列信息以及其對(duì)應(yīng)的測(cè)序質(zhì)量信息。
FASTQ格式文件中每個(gè)read由四行描述洒敏,如下:
@HWI-ST1276:71:C1162ACXX:1:1101:1208:2458 1:N:0:CGATGT
NAAGAACACGTTCGGTCACCTCAGCACACTTGTGAATGTCATGGGATCCAT
+
#55???BBBBB?BA@DEEFFCFFHHFFCFFHHHHHHHFAE0ECFFD/AEHH
- 其中:
第一行以“@”開(kāi)頭蒋歌,隨后為Illumina 測(cè)序標(biāo)識(shí)別符(Sequence Identifiers)和描述文字(選擇性部分);
第二行是堿基序列壁顶;
第三行以“+”開(kāi)頭近零,隨后為Illumina 測(cè)序標(biāo)識(shí)別符(選擇性部分)诺核;
第四行是對(duì)應(yīng)堿基的測(cè)序質(zhì)量抄肖,該行中每個(gè)字符對(duì)應(yīng)的 ASCII 值減去 33,即為對(duì)應(yīng)第二行堿基的測(cè)序質(zhì)量值窖杀。
原始數(shù)據(jù)過(guò)濾
- 測(cè)序得到的原始測(cè)序序列(Sequenced Reads)或者 raw reads漓摩,里面含有帶接頭的、低質(zhì)量的reads入客。為了保證信息分析質(zhì)量管毙,必須對(duì)raw reads過(guò)濾,得到clean reads桌硫,后續(xù)分析都基于 clean reads夭咬。數(shù)據(jù)處理的條件如下(非標(biāo)準(zhǔn)條件,可參考铆隘,比較松的條件,這個(gè)是諾禾的過(guò)濾條件卓舵,大家比例會(huì)有所調(diào)整,但是都是過(guò)濾的這三項(xiàng)):
- 去除帶接頭(adapter)的reads pair膀钠;
- 當(dāng)單端測(cè)序read中含有的N的含量超過(guò)該條read長(zhǎng)度比例的10%時(shí)掏湾,需要去除此對(duì)paired reads;
- 當(dāng)單端測(cè)序read中含有的低質(zhì)量(Q ≤ 5)堿基數(shù)超過(guò)該條read長(zhǎng)度比例的 50% 時(shí)肿嘲,需要去除此對(duì)paired reads融击。
數(shù)據(jù)質(zhì)量統(tǒng)計(jì)概念:
Raw Base(bp):原始數(shù)據(jù)產(chǎn)量,測(cè)序序列的個(gè)數(shù)乘以測(cè)序序列的長(zhǎng)度雳窟,以bp為單位尊浪。
Clean Base(bp):過(guò)濾之后的有效數(shù)據(jù)量,過(guò)濾后測(cè)序序列的個(gè)數(shù)乘以測(cè)序序列的長(zhǎng)度涩拙,以bp為單位际长。
Effective Rate(%):過(guò)濾后獲得clean data 與raw data的比值。
Error Rate(%):堿基錯(cuò)誤率兴泥。
GC Content(%):堿基G和C的數(shù)量總和占總的堿基數(shù)量的百分比。
adapter:接頭虾宇,用于上機(jī)測(cè)序搓彻。建庫(kù)時(shí)引入的接頭序列與測(cè)序芯片(flow cell)上固定的接頭相互識(shí)別。
index:測(cè)序的標(biāo)簽嘱朽,用于測(cè)定混合樣本旭贬,通過(guò)每個(gè)樣本添加的不同標(biāo)簽進(jìn)行數(shù)據(jù)區(qū)分,鑒別測(cè)序樣品搪泳。
Q20,Q30:Phred 數(shù)值大于20稀轨、30的堿基占總體堿基的百分比,其中Phred=-10log10(e),e為錯(cuò)誤率岸军。
raw data/raw reads:測(cè)序下機(jī)的原始數(shù)據(jù)奋刽。
clean data/clean reads:對(duì)原始數(shù)據(jù)進(jìn)行過(guò)濾后瓦侮,剔除了低質(zhì)量數(shù)據(jù)的剩余數(shù)據(jù)。后續(xù)分析均基于clean data佣谐。
參考基因組的一些概念:
- Seq number:基因組組裝的序列總數(shù)肚吏。
- Total length:基因組組裝結(jié)果總長(zhǎng)度。
- GC content:堿基G和C的含量狭魂。
- Gap rate:組裝結(jié)果中N所占的比例罚攀。
- N50 length:scaffold N50長(zhǎng)度,表示組裝結(jié)果中有一半的序列長(zhǎng)度大于該值雌澄。
- N90 length:scaffold N90長(zhǎng)度斋泄,表示組裝結(jié)果中有90%的序列長(zhǎng)度大于該值。
比對(duì)統(tǒng)計(jì)的一些概念:
- Mapped reads:比對(duì)到reference上的reads條數(shù)(包括單端比對(duì)和雙端比對(duì))镐牺。
- Total reads:有效測(cè)序數(shù)據(jù)的reads總條數(shù)炫掐。
- Mapping rate:比對(duì)率,比對(duì)到參考基因組上的reads數(shù)目除以有效測(cè)序數(shù)據(jù)的reads數(shù)目任柜。
- Average depth:平均測(cè)序深度卒废,比對(duì)到參考基因組的堿基總數(shù)除以基因組大小。
- Coverage at least 1X:參考基因組中至少有1個(gè)堿基覆蓋的位點(diǎn)占基因組的百分比宙地。
- Coverage at least 4X:參考基因組至少有4個(gè)堿基覆蓋的位點(diǎn)占基因組的百分比摔认。
SNP概念
- SNP(單核苷酸多態(tài)性) 主要是指在基因組水平上由單個(gè)核苷酸的變異所引起的DNA序列多態(tài)性,包括單個(gè)堿基的轉(zhuǎn)換宅粥、顛換等参袱。
主要類(lèi)型: - Exonic:變異位于外顯子區(qū)域;
- missense:非同義變異秽梅;
- Stop gain:使基因獲得終止密碼子的變異抹蚀;
- Stop loss:使基因失去終止密碼子的變異
- synonymous:同義變異。
- Intronic:變異位于內(nèi)含子區(qū)域企垦。
- Splicing:變異位于剪接位點(diǎn)(內(nèi)含子中靠近外顯子/內(nèi)含子邊界的2bp)环壤。
- Downstream:基因下游1 Kb區(qū)域。
- Upstream/Downstream: 基因上游1 Kb區(qū)域钞诡,同時(shí)也在另一基因的下游1 Kb區(qū)域郑现。
- Intergenic:變異位于基因間區(qū)。
- ts:transitions荧降,轉(zhuǎn)換接箫。
- tv:transversions,顛換朵诫。
- ts/tv:轉(zhuǎn)換與顛換的比率辛友。
二代測(cè)序原理
測(cè)序技術(shù)發(fā)展
illumina測(cè)序原理
- 高通量測(cè)序(High-Throughput Sequencing)又名二代測(cè)序|下一代測(cè)序(Next Generation Sequencing,NGS)剪返,是相對(duì)于傳統(tǒng)的桑格測(cè)序|一代測(cè)序(Sanger Sequencing)而言的废累。相對(duì)于Sanger測(cè)序而言邓梅,二代測(cè)序可以提供中等的讀長(zhǎng)和適中的價(jià)格,適合de novo 測(cè)序九默、轉(zhuǎn)錄組測(cè)序震放、宏基因組研究等。
- Solexa的測(cè)序原理是可逆終止化學(xué)反應(yīng)驼修。Solexa是一種基于邊合成邊測(cè)序技術(shù)(Sequencing-By-Synthesis殿遂,SBS)的新型測(cè)序方法。通過(guò)利用單分子陣列實(shí)現(xiàn)在小型芯片(Flow Cell)上進(jìn)行橋式PCR反應(yīng)乙各。由于新的可逆阻斷技術(shù)可以實(shí)現(xiàn)每次只合成一個(gè)堿基墨礁,并標(biāo)記熒光基團(tuán),再利用相應(yīng)的激光激發(fā)熒光基團(tuán)耳峦,捕獲激發(fā)光恩静,從而讀取堿基信息。
- 橋氏PCR原理
- 在這里插入圖片描述
- 二代測(cè)序建庫(kù)測(cè)序大致流程
DNA片段經(jīng)末端修復(fù)蹲坷、加ployA尾驶乾、加測(cè)序接頭、純化循签、PCR擴(kuò)增等步驟完成整個(gè)文庫(kù)制備级乐。構(gòu)建好的文庫(kù)通過(guò)illumina HiSeqTM PE150進(jìn)行測(cè)序。文庫(kù)構(gòu)建完成后县匠,先使用Qubit2.0進(jìn)行初步定量风科,稀釋文庫(kù)至1ng/μl,隨后使用Agilent 2100對(duì)文庫(kù)的insert size進(jìn)行檢測(cè)乞旦,insert size符合預(yù)期后贼穆,使用Q-PCR方法對(duì)文庫(kù)的有效濃度進(jìn)行準(zhǔn)確定量(文庫(kù)有效濃度>2nM),以保證文庫(kù)質(zhì)量兰粉。
二代測(cè)序數(shù)據(jù)拆分
- 原始下機(jī)數(shù)據(jù)睡bcl文件故痊,根據(jù)前面建庫(kù)的index信息,進(jìn)行數(shù)據(jù)的拆分玖姑,除非是包lane或者包run崖蜜,否則二代測(cè)序公司是不會(huì)提供該文件的
- 外包測(cè)序返回的是拆分后的rawdata及質(zhì)控后的cleandata,由rawdata到cleandata的數(shù)據(jù)過(guò)濾過(guò)程稱(chēng)為質(zhì)控
二代測(cè)序數(shù)據(jù)質(zhì)控
- 質(zhì)控主要進(jìn)行低質(zhì)量客峭,含N,含adpter的過(guò)濾
- 過(guò)濾主要考慮的參數(shù):
- 數(shù)據(jù)有效數(shù)據(jù)利用率抡柿,一般要求高于95%舔琅,現(xiàn)在正常項(xiàng)目大多在99%
- 數(shù)據(jù)量,數(shù)據(jù)量所有樣品洲劣,高于約定數(shù)據(jù)量的95%备蚓,看合同簽訂的是raw還是clean
- Q20一般要>90%(illunima官方承諾85%)
- Q30一般要>85%(illunima官方承諾80%)
- GC含量课蔬,一般波動(dòng)不大,5%波動(dòng)以?xún)?nèi)郊尝,群體復(fù)雜的要特殊考慮
- GC波動(dòng)情況(WGS幾乎無(wú)波動(dòng)二跋,簡(jiǎn)化基因組及panel的另行考慮)
- NT比對(duì)情況,要求無(wú)污染流昏,現(xiàn)在公司不會(huì)直接提供扎即,GC波動(dòng)大時(shí),可以要求測(cè)序公司提供况凉,以排除污染谚鄙。
- 參考資料:兩份測(cè)序公司的質(zhì)控報(bào)告,供參考學(xué)習(xí)(有報(bào)告是有明顯異常的刁绒,需要大家找出)
- 上述質(zhì)控參考指標(biāo)的圖表
- 在這里插入圖片描述
- 在這里插入圖片描述
- 在這里插入圖片描述
二代測(cè)序數(shù)據(jù)比對(duì)分析
比對(duì)分析軟件及最重要的軟件流程
- 重測(cè)序
必做
bwa index # 基因組建索引
bwa mem #比對(duì)
samtools/gatk sort #排序
可選
samtools/gatk rmdup #去重
gatk remap # 重call
比對(duì)分析統(tǒng)計(jì)結(jié)果展示
在這里插入圖片描述
- 一般要求:
- 比對(duì)率闷营,大部分非異常樣品都會(huì)在90%甚至99%以上
- 深度,達(dá)到合同或者后續(xù)分析的需求
- coverage達(dá)到一定水平(85%以上)
- 重復(fù)率低于20%知市,這個(gè)報(bào)告沒(méi)有傻盟,但是我們可以統(tǒng)計(jì),不會(huì)提供給客戶(hù)嫂丙,但是是內(nèi)部測(cè)評(píng)的重要指標(biāo)
二代測(cè)序變異檢測(cè)
變異檢測(cè)軟件
- samtools
- GATK
- angsd
- freebase
- 前兩個(gè)還是主流軟件
變異檢測(cè)注釋軟件
- annvoar(人娘赴,動(dòng)物比較多)
- snpEff(植物較多使用)
過(guò)濾條件
- 個(gè)體過(guò)濾
- 根據(jù)深度情況過(guò)濾深度4或者更高的7,10
- 質(zhì)量值20/30
- 群體過(guò)濾
- 根據(jù)群體情況奢入,進(jìn)行總體深度的過(guò)濾
- 質(zhì)量值20/30
- 個(gè)體質(zhì)量值5/10/20和個(gè)體深度4/7/10
- miss:0.1/0.2/0.5~
- maf:0.01/0.05
- 上述僅供參考筝闹,還需要根據(jù)具體情況進(jìn)行參數(shù)的調(diào)整,但是一般這些項(xiàng)是要過(guò)濾的