思維導圖
-
測序魔鬼集中營
正式筆記
1)幾代測序技術和illumina原理見思維導圖
2)數(shù)據(jù)產生
workflow:
從熒光信號的產生到堿基序列的識別這一過程庭猩,主要包括圖象校正(即空間校正)双戳、cluster識別汹胃、熒光校正(即光學校正)剔蹋、phasing/prephasing(即化學校正)官扣、堿基識別谷炸、PF(Illumina默認的數(shù)據(jù)過濾算法Pass Filtering)懦傍、質量評估等7個步驟
照相機的識別:
利用了CCD相機(1)對每一個簇(cluster)進行識別只锭,確定其坐標;(2)提取每個簇分別在A洒嗤、G、C魁亦、T四個波長的信號強度值渔隶。
- 拍照過程相當耗時,一次循環(huán)所產生的信號需要40分鐘左右才能拍照收集完畢洁奈。使用相機的掃描功能會更快一些间唉。
數(shù)據(jù)量產出:
測序儀搭配了兩個flowcell,簡稱雙流動槽利术。比較經典的Hiseq2500一次能產出700-800Gb數(shù)據(jù)(此處Gb為測序堿基數(shù)呈野,不同于字節(jié)數(shù)的Gb)。
- 關于數(shù)據(jù)轉換印叁,舉個例子比較好理解:以人類基因組為例被冒,包括30億堿基對(bp),測序深度30x的話轮蜕,就會有900億堿基對(=1800億字母)=90G測序量昨悼;900億個堿基對/150(測序策略PE150)=6億條reads(=60Mreads);6億條reads x 45(reads長度)= 2700億 字母跃洛;
每個字母=1字節(jié)率触,換算成計算機大小就是:2700億字節(jié)/(1024 x1024 x1024)=192.7837G存儲(非常大的數(shù)據(jù)量了)
給未來的問題
- 為什么測序中讀取index 就能提高效率知道其來自何處。
- 接頭的設計和連接原理汇竭。
- 測序技術原理及常用數(shù)據(jù)格式簡介有哪些葱蝗?
- 如何進行數(shù)據(jù)分析?
參考:
生信公眾號 生信星球 教程
【陳巍學基因】視頻1:Illumina測序化學原理
《測序的世界》 劉小澤 的簡書