二代測(cè)序基礎(chǔ)知識(shí)

二代測(cè)序基礎(chǔ)知識(shí)

二代測(cè)序基礎(chǔ)概念

(這個(gè)是與二代測(cè)序相關(guān)每個(gè)部門(mén)都要掌握的)

FQ數(shù)據(jù)格式

  • 高通量測(cè)序(如Illumina HiSeqTM/MiseqTM)得到的原始圖像數(shù)據(jù)文件經(jīng)CASAVA堿基識(shí)別(Base Calling)分析轉(zhuǎn)化為原始測(cè)序序列(Sequenced Reads)漠烧,我們稱(chēng)之為 Raw Data或Raw Reads,結(jié)果以 FASTQ (簡(jiǎn)稱(chēng)為fq)文件格式存儲(chǔ)价说,其中包含測(cè)序序列(reads)的序列信息以及其對(duì)應(yīng)的測(cè)序質(zhì)量信息。
    FASTQ格式文件中每個(gè)read由四行描述洒敏,如下:
@HWI-ST1276:71:C1162ACXX:1:1101:1208:2458 1:N:0:CGATGT
NAAGAACACGTTCGGTCACCTCAGCACACTTGTGAATGTCATGGGATCCAT
+
#55???BBBBB?BA@DEEFFCFFHHFFCFFHHHHHHHFAE0ECFFD/AEHH
  • 其中:
    第一行以“@”開(kāi)頭蒋歌,隨后為Illumina 測(cè)序標(biāo)識(shí)別符(Sequence Identifiers)和描述文字(選擇性部分);
    第二行是堿基序列壁顶;
    第三行以“+”開(kāi)頭近零,隨后為Illumina 測(cè)序標(biāo)識(shí)別符(選擇性部分)诺核;
    第四行是對(duì)應(yīng)堿基的測(cè)序質(zhì)量抄肖,該行中每個(gè)字符對(duì)應(yīng)的 ASCII 值減去 33,即為對(duì)應(yīng)第二行堿基的測(cè)序質(zhì)量值窖杀。

原始數(shù)據(jù)過(guò)濾

  • 測(cè)序得到的原始測(cè)序序列(Sequenced Reads)或者 raw reads漓摩,里面含有帶接頭的、低質(zhì)量的reads入客。為了保證信息分析質(zhì)量管毙,必須對(duì)raw reads過(guò)濾,得到clean reads桌硫,后續(xù)分析都基于 clean reads夭咬。數(shù)據(jù)處理的條件如下(非標(biāo)準(zhǔn)條件,可參考铆隘,比較松的條件,這個(gè)是諾禾的過(guò)濾條件卓舵,大家比例會(huì)有所調(diào)整,但是都是過(guò)濾的這三項(xiàng)):
    • 去除帶接頭(adapter)的reads pair膀钠;
    • 當(dāng)單端測(cè)序read中含有的N的含量超過(guò)該條read長(zhǎng)度比例的10%時(shí)掏湾,需要去除此對(duì)paired reads;
    • 當(dāng)單端測(cè)序read中含有的低質(zhì)量(Q ≤ 5)堿基數(shù)超過(guò)該條read長(zhǎng)度比例的 50% 時(shí)肿嘲,需要去除此對(duì)paired reads融击。

數(shù)據(jù)質(zhì)量統(tǒng)計(jì)概念:

  • Raw Base(bp):原始數(shù)據(jù)產(chǎn)量,測(cè)序序列的個(gè)數(shù)乘以測(cè)序序列的長(zhǎng)度雳窟,以bp為單位尊浪。

  • Clean Base(bp):過(guò)濾之后的有效數(shù)據(jù)量,過(guò)濾后測(cè)序序列的個(gè)數(shù)乘以測(cè)序序列的長(zhǎng)度涩拙,以bp為單位际长。

  • Effective Rate(%):過(guò)濾后獲得clean data 與raw data的比值。

  • Error Rate(%):堿基錯(cuò)誤率兴泥。

  • GC Content(%):堿基G和C的數(shù)量總和占總的堿基數(shù)量的百分比。

  • adapter:接頭虾宇,用于上機(jī)測(cè)序搓彻。建庫(kù)時(shí)引入的接頭序列與測(cè)序芯片(flow cell)上固定的接頭相互識(shí)別。

  • index:測(cè)序的標(biāo)簽嘱朽,用于測(cè)定混合樣本旭贬,通過(guò)每個(gè)樣本添加的不同標(biāo)簽進(jìn)行數(shù)據(jù)區(qū)分,鑒別測(cè)序樣品搪泳。

  • Q20,Q30:Phred 數(shù)值大于20稀轨、30的堿基占總體堿基的百分比,其中Phred=-10log10(e),e為錯(cuò)誤率岸军。

  • raw data/raw reads:測(cè)序下機(jī)的原始數(shù)據(jù)奋刽。

  • clean data/clean reads:對(duì)原始數(shù)據(jù)進(jìn)行過(guò)濾后瓦侮,剔除了低質(zhì)量數(shù)據(jù)的剩余數(shù)據(jù)。后續(xù)分析均基于clean data佣谐。

參考基因組的一些概念:

  • Seq number:基因組組裝的序列總數(shù)肚吏。
  • Total length:基因組組裝結(jié)果總長(zhǎng)度。
  • GC content:堿基G和C的含量狭魂。
  • Gap rate:組裝結(jié)果中N所占的比例罚攀。
  • N50 length:scaffold N50長(zhǎng)度,表示組裝結(jié)果中有一半的序列長(zhǎng)度大于該值雌澄。
  • N90 length:scaffold N90長(zhǎng)度斋泄,表示組裝結(jié)果中有90%的序列長(zhǎng)度大于該值。

比對(duì)統(tǒng)計(jì)的一些概念:

  • Mapped reads:比對(duì)到reference上的reads條數(shù)(包括單端比對(duì)和雙端比對(duì))镐牺。
  • Total reads:有效測(cè)序數(shù)據(jù)的reads總條數(shù)炫掐。
  • Mapping rate:比對(duì)率,比對(duì)到參考基因組上的reads數(shù)目除以有效測(cè)序數(shù)據(jù)的reads數(shù)目任柜。
  • Average depth:平均測(cè)序深度卒废,比對(duì)到參考基因組的堿基總數(shù)除以基因組大小。
  • Coverage at least 1X:參考基因組中至少有1個(gè)堿基覆蓋的位點(diǎn)占基因組的百分比宙地。
  • Coverage at least 4X:參考基因組至少有4個(gè)堿基覆蓋的位點(diǎn)占基因組的百分比摔认。

SNP概念

  • SNP(單核苷酸多態(tài)性) 主要是指在基因組水平上由單個(gè)核苷酸的變異所引起的DNA序列多態(tài)性,包括單個(gè)堿基的轉(zhuǎn)換宅粥、顛換等参袱。
    主要類(lèi)型:
  • Exonic:變異位于外顯子區(qū)域;
    • missense:非同義變異秽梅;
    • Stop gain:使基因獲得終止密碼子的變異抹蚀;
    • Stop loss:使基因失去終止密碼子的變異
    • synonymous:同義變異。
  • Intronic:變異位于內(nèi)含子區(qū)域企垦。
  • Splicing:變異位于剪接位點(diǎn)(內(nèi)含子中靠近外顯子/內(nèi)含子邊界的2bp)环壤。
  • Downstream:基因下游1 Kb區(qū)域。
  • Upstream/Downstream: 基因上游1 Kb區(qū)域钞诡,同時(shí)也在另一基因的下游1 Kb區(qū)域郑现。
  • Intergenic:變異位于基因間區(qū)。
  • ts:transitions荧降,轉(zhuǎn)換接箫。
  • tv:transversions,顛換朵诫。
  • ts/tv:轉(zhuǎn)換與顛換的比率辛友。

二代測(cè)序原理

測(cè)序技術(shù)發(fā)展

在這里插入圖片描述

illumina測(cè)序原理

  • 高通量測(cè)序(High-Throughput Sequencing)又名二代測(cè)序|下一代測(cè)序(Next Generation Sequencing,NGS)剪返,是相對(duì)于傳統(tǒng)的桑格測(cè)序|一代測(cè)序(Sanger Sequencing)而言的废累。相對(duì)于Sanger測(cè)序而言邓梅,二代測(cè)序可以提供中等的讀長(zhǎng)和適中的價(jià)格,適合de novo 測(cè)序九默、轉(zhuǎn)錄組測(cè)序震放、宏基因組研究等。
  • Solexa的測(cè)序原理是可逆終止化學(xué)反應(yīng)驼修。Solexa是一種基于邊合成邊測(cè)序技術(shù)(Sequencing-By-Synthesis殿遂,SBS)的新型測(cè)序方法。通過(guò)利用單分子陣列實(shí)現(xiàn)在小型芯片(Flow Cell)上進(jìn)行橋式PCR反應(yīng)乙各。由于新的可逆阻斷技術(shù)可以實(shí)現(xiàn)每次只合成一個(gè)堿基墨礁,并標(biāo)記熒光基團(tuán),再利用相應(yīng)的激光激發(fā)熒光基團(tuán)耳峦,捕獲激發(fā)光恩静,從而讀取堿基信息。
  • 橋氏PCR原理
  • 在這里插入圖片描述
  • 二代測(cè)序建庫(kù)測(cè)序大致流程
    DNA片段經(jīng)末端修復(fù)蹲坷、加ployA尾驶乾、加測(cè)序接頭、純化循签、PCR擴(kuò)增等步驟完成整個(gè)文庫(kù)制備级乐。構(gòu)建好的文庫(kù)通過(guò)illumina HiSeqTM PE150進(jìn)行測(cè)序。文庫(kù)構(gòu)建完成后县匠,先使用Qubit2.0進(jìn)行初步定量风科,稀釋文庫(kù)至1ng/μl,隨后使用Agilent 2100對(duì)文庫(kù)的insert size進(jìn)行檢測(cè)乞旦,insert size符合預(yù)期后贼穆,使用Q-PCR方法對(duì)文庫(kù)的有效濃度進(jìn)行準(zhǔn)確定量(文庫(kù)有效濃度>2nM),以保證文庫(kù)質(zhì)量兰粉。

二代測(cè)序數(shù)據(jù)拆分

  • 原始下機(jī)數(shù)據(jù)睡bcl文件故痊,根據(jù)前面建庫(kù)的index信息,進(jìn)行數(shù)據(jù)的拆分玖姑,除非是包lane或者包run崖蜜,否則二代測(cè)序公司是不會(huì)提供該文件的
  • 外包測(cè)序返回的是拆分后的rawdata及質(zhì)控后的cleandata,由rawdata到cleandata的數(shù)據(jù)過(guò)濾過(guò)程稱(chēng)為質(zhì)控

二代測(cè)序數(shù)據(jù)質(zhì)控

  • 質(zhì)控主要進(jìn)行低質(zhì)量客峭,含N,含adpter的過(guò)濾
  • 過(guò)濾主要考慮的參數(shù):
    1. 數(shù)據(jù)有效數(shù)據(jù)利用率抡柿,一般要求高于95%舔琅,現(xiàn)在正常項(xiàng)目大多在99%
    2. 數(shù)據(jù)量,數(shù)據(jù)量所有樣品洲劣,高于約定數(shù)據(jù)量的95%备蚓,看合同簽訂的是raw還是clean
    3. Q20一般要>90%(illunima官方承諾85%)
    4. Q30一般要>85%(illunima官方承諾80%)
    5. GC含量课蔬,一般波動(dòng)不大,5%波動(dòng)以?xún)?nèi)郊尝,群體復(fù)雜的要特殊考慮
    6. GC波動(dòng)情況(WGS幾乎無(wú)波動(dòng)二跋,簡(jiǎn)化基因組及panel的另行考慮)
    7. NT比對(duì)情況,要求無(wú)污染流昏,現(xiàn)在公司不會(huì)直接提供扎即,GC波動(dòng)大時(shí),可以要求測(cè)序公司提供况凉,以排除污染谚鄙。
  • 參考資料:兩份測(cè)序公司的質(zhì)控報(bào)告,供參考學(xué)習(xí)(有報(bào)告是有明顯異常的刁绒,需要大家找出)
  • 上述質(zhì)控參考指標(biāo)的圖表
  • 在這里插入圖片描述
  • 在這里插入圖片描述
  • 在這里插入圖片描述

二代測(cè)序數(shù)據(jù)比對(duì)分析

比對(duì)分析軟件及最重要的軟件流程

  • 重測(cè)序
    必做
bwa index # 基因組建索引
bwa mem #比對(duì)
samtools/gatk sort #排序 

可選

samtools/gatk rmdup #去重
gatk remap # 重call

比對(duì)分析統(tǒng)計(jì)結(jié)果展示
在這里插入圖片描述

  • 一般要求:
    • 比對(duì)率闷营,大部分非異常樣品都會(huì)在90%甚至99%以上
    • 深度,達(dá)到合同或者后續(xù)分析的需求
    • coverage達(dá)到一定水平(85%以上)
    • 重復(fù)率低于20%知市,這個(gè)報(bào)告沒(méi)有傻盟,但是我們可以統(tǒng)計(jì),不會(huì)提供給客戶(hù)嫂丙,但是是內(nèi)部測(cè)評(píng)的重要指標(biāo)

二代測(cè)序變異檢測(cè)

變異檢測(cè)軟件

  • samtools
  • GATK
  • angsd
  • freebase
  • 前兩個(gè)還是主流軟件

變異檢測(cè)注釋軟件

  • annvoar(人娘赴,動(dòng)物比較多)
  • snpEff(植物較多使用)

過(guò)濾條件

  • 個(gè)體過(guò)濾
    • 根據(jù)深度情況過(guò)濾深度4或者更高的7,10
    • 質(zhì)量值20/30
  • 群體過(guò)濾
    • 根據(jù)群體情況奢入,進(jìn)行總體深度的過(guò)濾
    • 質(zhì)量值20/30
    • 個(gè)體質(zhì)量值5/10/20和個(gè)體深度4/7/10
    • miss:0.1/0.2/0.5~
    • maf:0.01/0.05
  • 上述僅供參考筝闹,還需要根據(jù)具體情況進(jìn)行參數(shù)的調(diào)整,但是一般這些項(xiàng)是要過(guò)濾的

結(jié)果展示

在這里插入圖片描述
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末腥光,一起剝皮案震驚了整個(gè)濱河市关顷,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌武福,老刑警劉巖议双,帶你破解...
    沈念sama閱讀 222,378評(píng)論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異捉片,居然都是意外死亡平痰,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,970評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門(mén)伍纫,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)宗雇,“玉大人,你說(shuō)我怎么就攤上這事莹规∨馄眩” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 168,983評(píng)論 0 362
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)舞虱。 經(jīng)常有香客問(wèn)我欢际,道長(zhǎng),這世上最難降的妖魔是什么矾兜? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 59,938評(píng)論 1 299
  • 正文 為了忘掉前任损趋,我火速辦了婚禮,結(jié)果婚禮上椅寺,老公的妹妹穿的比我還像新娘浑槽。我一直安慰自己,他們只是感情好配并,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,955評(píng)論 6 398
  • 文/花漫 我一把揭開(kāi)白布括荡。 她就那樣靜靜地躺著,像睡著了一般溉旋。 火紅的嫁衣襯著肌膚如雪畸冲。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 52,549評(píng)論 1 312
  • 那天观腊,我揣著相機(jī)與錄音邑闲,去河邊找鬼。 笑死梧油,一個(gè)胖子當(dāng)著我的面吹牛苫耸,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播儡陨,決...
    沈念sama閱讀 41,063評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼褪子,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了骗村?” 一聲冷哼從身側(cè)響起嫌褪,我...
    開(kāi)封第一講書(shū)人閱讀 39,991評(píng)論 0 277
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎胚股,沒(méi)想到半個(gè)月后笼痛,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,522評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡琅拌,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,604評(píng)論 3 342
  • 正文 我和宋清朗相戀三年缨伊,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片进宝。...
    茶點(diǎn)故事閱讀 40,742評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡刻坊,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出党晋,到底是詐尸還是另有隱情紧唱,我是刑警寧澤活尊,帶...
    沈念sama閱讀 36,413評(píng)論 5 351
  • 正文 年R本政府宣布,位于F島的核電站漏益,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏深胳。R本人自食惡果不足惜绰疤,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,094評(píng)論 3 335
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望舞终。 院中可真熱鬧轻庆,春花似錦、人聲如沸敛劝。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,572評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)夸盟。三九已至蛾方,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間上陕,已是汗流浹背桩砰。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,671評(píng)論 1 274
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留释簿,地道東北人亚隅。 一個(gè)月前我還...
    沈念sama閱讀 49,159評(píng)論 3 378
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像庶溶,于是被迫代替她去往敵國(guó)和親煮纵。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,747評(píng)論 2 361