轉自 http://www.biodiscover.com/news/research/732481.html
文庫結構可分為以下幾個部分:插入片段押赊,P5惦蚊、P7接頭呼猪,測序引物結合位點及index卤档。
? ? P5、P7接頭位于文庫兩端谣辞,可以與flowcell上的寡核苷酸結合迫摔,在簇生成和測序過程中可作為引物或起到固定模板鏈的作用。
? ? ?Index是不同樣本的區(qū)分依據潦闲,當同一條lane中混入多個樣本測序時攒菠,即可根據index區(qū)分來自不同樣本的reads迫皱。根據建庫時使用接頭結構不同歉闰,又分為單index文庫和雙index文庫。隨著測序通量的不斷增加卓起,每條lane可以容納的樣本量也越來越多和敬,雙index可以變化出更多種組合,且能夠降低標簽串擾的比例戏阅,因此一些對靈敏度要求較高的檢測通常會構建雙index文庫[1]昼弟。
? ? 圖中黃色和藍色的部分是測序引物結合位點:index5在NovaSeq 6000和HiSeq X平臺的測序方向是不同的。完成Read1奕筐、index7測序之后舱痘,NovaSeq 6000平臺會繼續(xù)以這條鏈為模板進行index5的測序,測序引物是flowcell上的P5接頭离赫,因此index5的測序方向和Read1芭逝、index7是一致的。而HiSeq X平臺的index5渊胸、Read2測序則是在末端翻轉后進行的旬盯,因此index5的測序方向與Read2一致,而與Read1、index7相反胖翰,同樣的index5在HiSeq X和NovaSeq?6000平臺測得的序列是反向互補的接剩,因此在填寫文庫信息的時候一定要注意測序平臺和序列的對應關系。
? ? ? ? Illumina 測序儀在收集信號時萨咳,并不是拍攝一張彩色照片一次完成的懊缺,而是分 A、C某弦、G桐汤、T 4 個波長,分別拍攝 4 張單色照片靶壮,然后通過軟件處理把這 4 張圖疊加成一張怔毛。這是一種權宜之計,目的是減少圖片文件的大小腾降,從而降低對于數據存貯空間的要求拣度。但也有缺點,一旦某一張或幾張照片的信號強度不夠螃壤,或者沒有信號抗果,則圖片的疊加就不能準確完成。堿基不平衡文庫(即A奸晴、G冤馏、C、T 四種堿基的含量遠遠偏離 25%)在測序時會導致某些圖片(波長)沒有信號或者信號很弱寄啼,在堿基識別時準確性降低逮光。常見的堿基不平衡文庫有BS甲基化文庫、單細胞轉錄組文庫墩划、PCR產物文庫等涕刚,為了減少堿基不平衡對測序結果的影響,通常會混入一定比例的phix文庫乙帮。
Phix 文庫是校準文庫杜漠,是 illumina 的一種試劑,來源于病毒基因組DNA察净。其基因序列已精確知曉驾茴,GC 比例約為 40%,與人類氢卡、哺乳類的基因組的 GC 比例接近锈至。其基因序列又與人類的基因序列相去甚遠,且不含有index异吻。在與哺乳類基因組一起測序時裹赴,可以通過基因序列比對或數據拆分而將之去除喜庞。在測堿基不平衡的文庫樣本時,可以加入大量的 phix 文庫棋返,以部分抵消樣本的不平衡性延都。也可以少量地加入phix文庫,以作為 control library 來驗證測序質量睛竣。
Index可以容納多少種文庫晰房?以8堿基index為例,單端index文庫理論上可以有4^8=65536種index射沟,雙端index文庫理論上可以有65536^2=4294967296種index殊者,但實際pooling時為了避免因對焦不準造成index讀錯,造成數據無法拆分验夯,需要使用堿基分布均勻的index猖吴。
文庫質檢的方法:上機前使用Aglient 2100或LabChip GX Touch生物芯片分析系統(tǒng)檢測文庫片段大小,并使用StepOnePlusTM?Real-Time PCR System挥转,以P5海蔽、P7接頭作為引物進行QPCR定量(最準確)。由于Illumina文庫開始測序之前會先以P5绑谣、P7接頭為引物進行橋式PCR党窜,在flowcell上生成簇,因此這樣的上機定量結果是比較準確的借宵。
文庫pooling的原則:1)去除低質量的reads:reads中質量值Q≤19的堿基占總堿基的50%以上則舍棄該條read幌衣,對于雙端測序,若一端為低質量reads壤玫,則會去掉兩端reads豁护;2)去除接頭污染的reads:reads中接頭污染的堿基數大于5bp則舍棄該條read,對于雙端測序垦细,若一端受到接頭污染择镇,則去掉兩端的reads挡逼;3)去除含N較多的reads:reads中讀N堿基比例大于5%則舍棄該條read括改,對于雙端測序,若一端含N比例大于5%家坎,則會去掉兩端reads嘱能。
Duplication是指起始與終止位置完全一致的片段。引起Duplication的主要原因是在測序中有PCR過程虱疏,來源于同一個DNA片段PCR的產物被重復測序惹骂,就會產生duplication。次要原因是正巧兩個插入片段的頭和尾的位置完全一致做瞪,導致這一現象可能的原因有以下幾種:a. 物種基因組小对粪,本身的片段多樣性低右冻,測定的數據量多,重復的數據多著拭;b. 建庫過程中建庫起始量少纱扭,片段多樣性低,在相同的PCR條件下儡遮,會造成文庫總量低乳蛾,后期數據的dup率高;c.片段打斷或加接頭存在偏好性鄙币,文庫的多樣性較差肃叶。Dup率計算主要有以下2種方法:一種是數據質控時計算,利用 reads 序列來計算dup十嘿,要求 read 序列一樣才算作duplication因惭,duplicate reads數目除以總 reads數目計算比率;另一種是比對分析時計算绩衷,根據read比對上基因組的位置來判斷筛欢,比對的位置一樣就算作duplication,一般會有 2bp的容錯唇聘。
參考文獻
[1] Macconaill L E, Burns R T, NagA, et al. Unique, dual-indexed sequencing adapters with UMIs effectively eliminate index cross-talk and significantly improve sensitivity of massively parallel sequencing[J].Bmc Genomics, 2018, 19(1):30.