在高通量測序(High-Throughput Sequencing, HTS)中,reads矮慕、contig 和 scaffold 是基因組組裝和分析中的重要概念帮匾,它們描述了不同層級的序列數(shù)據(jù)。以下是詳細(xì)解釋:
1. Reads(讀段)
定義:
Reads 是測序儀生成的原始序列片段痴鳄,通常是基因組測序的最基本單元瘟斜。它們是從樣本 DNA 中隨機(jī)分布的片段中測序得到的,長度一般為幾十到幾百個(gè)堿基對痪寻,具體長度取決于測序平臺螺句。
特點(diǎn):
- 短讀長(Short Reads):Illumina 平臺一般為 50–300 bp。
- 長讀長(Long Reads):PacBio 或 Oxford Nanopore 可達(dá)數(shù)千到幾萬 bp橡类。
- Reads 通常是原始數(shù)據(jù)蛇尚,可能包含測序錯誤,需要質(zhì)量控制和過濾顾画。
用途:
- 用于基因組裝的初始輸入取劫。
- 對比參考基因組以進(jìn)行變異檢測(如 SNP 和 INDEL)。
2. Contig(重疊群/拼接序列)
定義:
Contig 是通過將重疊的 reads 拼接起來生成的連續(xù)序列研侣,是基因組組裝的第一步結(jié)果谱邪。它們代表基因組中的一段連貫序列,通常沒有包含未知堿基(N)庶诡。
特點(diǎn):
- 連續(xù)且沒有間隙(gap)惦银。
- 長度取決于測序覆蓋度和組裝算法的性能。
- 數(shù)量多末誓,長度短于 scaffold璧函。
用途:
- 表示局部基因組片段。
- 用于進(jìn)一步的 scaffold 構(gòu)建基显。
3. Scaffold(框架序列/支架)
定義:
Scaffold 是在 contig 基礎(chǔ)上蘸吓,通過信息(如配對末端測序數(shù)據(jù)、物理圖譜或 Hi-C 數(shù)據(jù))將多個(gè) contig 連接起來生成的更長序列撩幽。連接的 contig 之間可能包含未知堿基(N)库继,表示組裝時(shí)無法明確的間隙。
特點(diǎn):
- 包含間隙(gap)窜醉,用一串 N 表示宪萄。
- 長度更接近真實(shí)染色體長度。
- 能提供更高的基因組結(jié)構(gòu)信息(如 contig 的排列和方向)榨惰。
用途:
- 構(gòu)建接近完整的基因組序列拜英。
- 為基因注釋和基因組比較分析提供框架。
三者關(guān)系與層級
- Reads: 測序的原始片段琅催,最基礎(chǔ)的數(shù)據(jù)居凶。
- Contig: 將重疊的 reads 組裝成連續(xù)序列虫给,表示局部基因組區(qū)域。
- Scaffold: 通過結(jié)合額外信息(如配對末端 reads)侠碧,將 contig 按順序和方向連接起來抹估,代表更大的基因組結(jié)構(gòu)。
示例:
假設(shè)一個(gè)基因組片段的真實(shí)序列為:
ATCGGCTAAGCTTAGGCTTACGATCG
-
測序生成的 reads:
Read 1: ATCGGCTAA Read 2: GCTAAGCTT Read 3: AGGCTTACG Read 4: TTACGATCG
-
拼接成 contig:
Contig 1: ATCGGCTAAGCTTAGGCTTACGATCG
-
如果組裝過程存在不確定區(qū)域弄兜,可能得到 scaffold:
Scaffold 1: ATCGGCTAAGCTTNNNNNNNNNNTACGATCG
實(shí)際應(yīng)用中的思考
- 如果測序數(shù)據(jù)量足夠且組裝算法強(qiáng)大药蜻,contig 和 scaffold 的長度可以接近染色體級別。
- 使用額外的實(shí)驗(yàn)數(shù)據(jù)(如 Hi-C 或光學(xué)圖譜)替饿,可以進(jìn)一步將 scaffold 提升為染色體級別的組裝语泽。
通過理解這三個(gè)概念,可以更好地理解基因組組裝過程和數(shù)據(jù)處理的不同階段视卢。