測序文件中的reads滑负、contig在张、scaffold

在高通量測序(High-Throughput Sequencing, HTS)中,reads矮慕、contigscaffold 是基因組組裝和分析中的重要概念帮匾,它們描述了不同層級的序列數(shù)據(jù)。以下是詳細(xì)解釋:


1. Reads(讀段)

定義:
Reads 是測序儀生成的原始序列片段痴鳄,通常是基因組測序的最基本單元瘟斜。它們是從樣本 DNA 中隨機(jī)分布的片段中測序得到的,長度一般為幾十到幾百個(gè)堿基對痪寻,具體長度取決于測序平臺螺句。

特點(diǎn):

  • 短讀長(Short Reads):Illumina 平臺一般為 50–300 bp。
  • 長讀長(Long Reads):PacBio 或 Oxford Nanopore 可達(dá)數(shù)千到幾萬 bp橡类。
  • Reads 通常是原始數(shù)據(jù)蛇尚,可能包含測序錯誤,需要質(zhì)量控制和過濾顾画。

用途:

  • 用于基因組裝的初始輸入取劫。
  • 對比參考基因組以進(jìn)行變異檢測(如 SNP 和 INDEL)。

2. Contig(重疊群/拼接序列)

定義:
Contig 是通過將重疊的 reads 拼接起來生成的連續(xù)序列研侣,是基因組組裝的第一步結(jié)果谱邪。它們代表基因組中的一段連貫序列,通常沒有包含未知堿基(N)庶诡。

特點(diǎn):

  • 連續(xù)且沒有間隙(gap)惦银。
  • 長度取決于測序覆蓋度和組裝算法的性能。
  • 數(shù)量多末誓,長度短于 scaffold璧函。

用途:

  • 表示局部基因組片段。
  • 用于進(jìn)一步的 scaffold 構(gòu)建基显。

3. Scaffold(框架序列/支架)

定義:
Scaffold 是在 contig 基礎(chǔ)上蘸吓,通過信息(如配對末端測序數(shù)據(jù)、物理圖譜或 Hi-C 數(shù)據(jù))將多個(gè) contig 連接起來生成的更長序列撩幽。連接的 contig 之間可能包含未知堿基(N)库继,表示組裝時(shí)無法明確的間隙。

特點(diǎn):

  • 包含間隙(gap)窜醉,用一串 N 表示宪萄。
  • 長度更接近真實(shí)染色體長度。
  • 能提供更高的基因組結(jié)構(gòu)信息(如 contig 的排列和方向)榨惰。

用途:

  • 構(gòu)建接近完整的基因組序列拜英。
  • 為基因注釋和基因組比較分析提供框架。

三者關(guān)系與層級

  1. Reads: 測序的原始片段琅催,最基礎(chǔ)的數(shù)據(jù)居凶。
  2. Contig: 將重疊的 reads 組裝成連續(xù)序列虫给,表示局部基因組區(qū)域。
  3. Scaffold: 通過結(jié)合額外信息(如配對末端 reads)侠碧,將 contig 按順序和方向連接起來抹估,代表更大的基因組結(jié)構(gòu)。

示例:

假設(shè)一個(gè)基因組片段的真實(shí)序列為:

ATCGGCTAAGCTTAGGCTTACGATCG
  • 測序生成的 reads:

    Read 1: ATCGGCTAA
    Read 2: GCTAAGCTT
    Read 3: AGGCTTACG
    Read 4: TTACGATCG
    
  • 拼接成 contig:

    Contig 1: ATCGGCTAAGCTTAGGCTTACGATCG
    
  • 如果組裝過程存在不確定區(qū)域弄兜,可能得到 scaffold:

    Scaffold 1: ATCGGCTAAGCTTNNNNNNNNNNTACGATCG
    

實(shí)際應(yīng)用中的思考

  • 如果測序數(shù)據(jù)量足夠且組裝算法強(qiáng)大药蜻,contig 和 scaffold 的長度可以接近染色體級別
  • 使用額外的實(shí)驗(yàn)數(shù)據(jù)(如 Hi-C 或光學(xué)圖譜)替饿,可以進(jìn)一步將 scaffold 提升為染色體級別的組裝语泽。

通過理解這三個(gè)概念,可以更好地理解基因組組裝過程和數(shù)據(jù)處理的不同階段视卢。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末湿弦,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子腾夯,更是在濱河造成了極大的恐慌,老刑警劉巖蔬充,帶你破解...
    沈念sama閱讀 218,451評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蝶俱,死亡現(xiàn)場離奇詭異,居然都是意外死亡饥漫,警方通過查閱死者的電腦和手機(jī)榨呆,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,172評論 3 394
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來庸队,“玉大人积蜻,你說我怎么就攤上這事〕瓜” “怎么了竿拆?”我有些...
    開封第一講書人閱讀 164,782評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長宾尚。 經(jīng)常有香客問我丙笋,道長,這世上最難降的妖魔是什么煌贴? 我笑而不...
    開封第一講書人閱讀 58,709評論 1 294
  • 正文 為了忘掉前任御板,我火速辦了婚禮,結(jié)果婚禮上牛郑,老公的妹妹穿的比我還像新娘怠肋。我一直安慰自己,他們只是感情好淹朋,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,733評論 6 392
  • 文/花漫 我一把揭開白布笙各。 她就那樣靜靜地躺著钉答,像睡著了一般。 火紅的嫁衣襯著肌膚如雪酪惭。 梳的紋絲不亂的頭發(fā)上希痴,一...
    開封第一講書人閱讀 51,578評論 1 305
  • 那天,我揣著相機(jī)與錄音春感,去河邊找鬼砌创。 笑死,一個(gè)胖子當(dāng)著我的面吹牛鲫懒,可吹牛的內(nèi)容都是我干的嫩实。 我是一名探鬼主播,決...
    沈念sama閱讀 40,320評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼窥岩,長吁一口氣:“原來是場噩夢啊……” “哼甲献!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起颂翼,我...
    開封第一講書人閱讀 39,241評論 0 276
  • 序言:老撾萬榮一對情侶失蹤晃洒,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后朦乏,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體冀偶,經(jīng)...
    沈念sama閱讀 45,686評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡质况,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,878評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片司恳。...
    茶點(diǎn)故事閱讀 39,992評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡涝桅,死狀恐怖彪蓬,靈堂內(nèi)的尸體忽然破棺而出朽砰,到底是詐尸還是另有隱情,我是刑警寧澤并思,帶...
    沈念sama閱讀 35,715評論 5 346
  • 正文 年R本政府宣布庐氮,位于F島的核電站,受9級特大地震影響宋彼,放射性物質(zhì)發(fā)生泄漏旭愧。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,336評論 3 330
  • 文/蒙蒙 一宙暇、第九天 我趴在偏房一處隱蔽的房頂上張望输枯。 院中可真熱鬧,春花似錦占贫、人聲如沸桃熄。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,912評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽瞳收。三九已至碉京,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間螟深,已是汗流浹背谐宙。 一陣腳步聲響...
    開封第一講書人閱讀 33,040評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留界弧,地道東北人凡蜻。 一個(gè)月前我還...
    沈念sama閱讀 48,173評論 3 370
  • 正文 我出身青樓,卻偏偏與公主長得像垢箕,于是被迫代替她去往敵國和親划栓。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,947評論 2 355

推薦閱讀更多精彩內(nèi)容