MAS-seq技術原理(PacBio)

1. 技術產(chǎn)生背景

PacBio構建這種文庫的一個主要原因是邢享,在其測序芯片中有很多零模波導孔(ZMW),每個孔在測序時只能測一條DNA分子噩翠,這樣其測序通量就受到孔數(shù)和文庫長度的限制氛魁。近些年PacBio確實也在不停的增加ZMW孔的數(shù)目,從而來提升通量隆箩,ZMW孔的數(shù)目也從剛開始的3千個,一路增加到15萬個羔杨、100萬個和800萬個捌臊,即將在2023年上市的Revio機型,單個芯片會包含2500萬個ZMW孔兜材。

當然這對于DNA分子較長的文庫理澎,和所需測序數(shù)據(jù)量較高的項目來說沒有什么影響。但是實際中像細菌16S項目曙寡,全長的16S也只有1.5kb糠爬,或者轉錄組文庫,反轉錄后的DNA分子長度平均也就1.5-2kb左右卵皂。就目前測序的酶讀長秩铆,對于HiFi 15kb的文庫數(shù)據(jù)砚亭,平均測序準確性可以達到QV30左右灯变,即千分之一的錯誤率。如果文庫較短捅膘,雖然可以獲取更多的pass數(shù)添祸,經(jīng)過CCS矯正后具有較高的準確性,但是分子長度較短會使有效數(shù)據(jù)量變少寻仗,所以MAS-seq應運而生刃泌。

2. 文庫構建過程

MAS-seq文庫構建原理簡單介紹如下:

  1. 構建樣本的短片段文庫,并將其平均分為多個獨立的子文庫署尤,下圖1是一個單細胞轉錄組文庫構建過程耙替,它分為了4個獨立的子文庫;
  2. 在每個文庫中兩端添加不同的接頭曹体,例如cDNA1文庫的5'和3'分別添加AB接頭俗扇,cDNA2文庫的DNA分子5‘和3’分別添加B'C接頭,cDNA3添加C'D接頭箕别,cDNA4添加D'E接頭铜幽。再將這四個文庫混成一個文庫滞谢,由于BB'、CC'除抛、DD'反向互補狮杨,連接生產(chǎn)一個較長片段文庫;
  3. 目前PacBio官方提供8個子文庫接頭試劑盒到忽,在15kb片段長度時就可以HiFi文庫可以得到較高測序質量的數(shù)據(jù)橄教,那么平均子文庫的長度長度15/8約等于2kb;
圖1. 單細胞轉錄組MAS-seq

3. MAS-seq數(shù)據(jù)拆分

PacBio測序儀可以支持Subreads類型下機數(shù)據(jù)和HiFi類型下機數(shù)據(jù)喘漏。兩者之間的區(qū)別是颤陶,HiFi數(shù)據(jù)是將同一個ZMW孔中相同分子多次測到的Subreads經(jīng)過合并糾錯后生成的,具有較高的準確性陷遮,這一步轉換稱為CCS過程滓走。在實際項目中,建議和服務商要求提供HiFi數(shù)據(jù)帽馋,因為這一轉換過程非常消耗CPU資源搅方。在CCS過程中,軟件是不會去除MAS-seq數(shù)據(jù)中的接頭序列的绽族。為了將接頭去除姨涡,獲取實際DNA分子的堿基序列,可以使用軟件Skera吧慢。拆分后的數(shù)據(jù)通常稱為Segmented reads.


圖2. Skera對MAS-seq數(shù)據(jù)拆分

5. 演示

官方提供了一組MAS-seq文庫結構的HiFi數(shù)據(jù)涛漂,我們可以拿過來學習,了解具體的輸入和輸出數(shù)據(jù)格式检诗,以及Skera軟件的用法匈仗。

# download HiFi reads for MAS-Seq PBMCs run on Sequel IIe
wget https://downloads.pacbcloud.com/public/dataset/MAS-Seq/DATA-SQ2-PBMC_5kcells/0-CCS/m64476e_220618_014917.hifi_reads.bam

# download MAS adapter fasta
wget https://downloads.pacbcloud.com/public/dataset/MAS-Seq/REF-MAS_adapters/MAS-Seq_Adapter_v1/mas16_primers.fasta

# run skera split to generate segmented reads
skera split m64476e_220618_014917.hifi_reads.bam mas16_primers.fasta segmented.bam

其中mas16_primers.fasta為包含adapter序列文件,文件中接頭序列的存放順序逢慌,必須按照多個小片段文庫連接生成最終長片段文庫中悠轩,adapter從5‘到3’的順序存放。

4. 輸出文件

skera split 運行完成后會生成很多文件攻泼,它們包含不同信息火架。

文件名稱 內容說明
segmented.bam 去除adapter后的測序數(shù)據(jù)
segmented.non_passing.bam 兩端adapter不合理的序列
summary.csv 去除adapter后數(shù)據(jù)的統(tǒng)計信息
ligations.csv 5'和3'不同adapter組合的統(tǒng)計
read_lengths.csv HiFi數(shù)據(jù)和Segmented reads長度統(tǒng)計信息

*summary.csv 輸出文件格式說明:

Input Reads,2622891  #輸入HiFI數(shù)據(jù)的總reads數(shù)嗎
Segmented Reads (S-Reads),40131832  #被分割后得到segmented Reads總數(shù)
Mean Length of S-Reads,672 #segmented reads平均長度
Percentage of Reads with Full Array,86.3247  #拆分時一條HiFi reads得到的segmented reads數(shù)與文庫設計一致的比例,本實例中包含15個segmented reads的HiFi reads數(shù)目占輸入條數(shù)的比例
Mean Array Size (Concatenation Factor),15  #文庫構建時完整HiFi reads理論包含segment數(shù)目

拆分數(shù)據(jù)時只輸出按照adapter順序連接的segment reads忙菠,例如官方提供的測試數(shù)據(jù)包含16個adapter何鸡,按照1-2,2‘-3牛欢,3’-4 ... 15‘-16 的方式加入到小片段文庫中骡男,然后通過2-2‘,3-3’ ... 15-15'粘性末端連接的方式將15條segment reads連接成一條長序列用于測序氢惋。由于在小片段文庫中添加adapter是獨立的洞翩,所以不應該產(chǎn)生1-3’稽犁、3-6‘這樣連接方式,在拆分時也不回輸出骚亿,下例中可以看出順序連接的數(shù)目也是最多的已亥。

sed 's/,/\t/g' m64476e_220618_014917.skera.ligations.csv|sort -k3,3rn | awk '{sum+=$3;print $0,sum}'|less -S

1       2       2579711 2579711
2       3       2569629 5149340
3       4       2555360 7704700
4       5       2548285 10252985
5       6       2535822 12788807
6       7       2522046 15310853
7       8       2509664 17820517
8       9       2502244 20322761
9       10      2495860 22818621
0       1       2494407 25313028
10      11      2490646 27803674
11      12      2486362 30290036
12      13      2481755 32771791
13      14      2478636 35250427
14      15      2475053 37725480
15      16      2406352 40131832
#只輸出上面連接的segmented reads
2       4       8220 40140052
7       16      3157 40143209
6       16      2915 40146124
1       3       2885 40149009
5       16      2327 40151336
...
...

segment.bam文件中包含去除adapter的數(shù)據(jù),Skera還會在每個序列后面添加很多tag以表示不同的信息来屠。

BAM tag名 類型 含義 舉例
di i segment的編號 di:i:0
qs i segment在原始HiFI數(shù)據(jù)中的起始位置 qs:i:16
qe i segment在原始HiFI數(shù)據(jù)中的終止位置 qe:i:450
dl i 5'端adapter在adatper fasta文件中的索引 dl:i:0
dr i 3'端adapter在adapter fasta文件中的索引 dr:i:1
ds b binary json虑椎,用于將segment還原為HiFi數(shù)據(jù) ds:b:10,21,23

另外,被分割生成的segment reads可以反向生成連接到一起的HiFi數(shù)據(jù)俱笛,由于去掉了非順序連接的segments reads捆姜,所以生成的undo bam會比原來的小:

skera undo *.skera.bam *undo.bam   #undo bam就是反向生成的HiFi數(shù)據(jù)的bam

6. 參考資料

  1. https://www.pacb.com/products-and-services/applications/rna-sequencing/single-cell-rna-sequencing/
  2. https://skera.how/read-segments.html
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末迎膜,一起剝皮案震驚了整個濱河市泥技,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌磕仅,老刑警劉巖珊豹,帶你破解...
    沈念sama閱讀 206,839評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異榕订,居然都是意外死亡店茶,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評論 2 382
  • 文/潘曉璐 我一進店門劫恒,熙熙樓的掌柜王于貴愁眉苦臉地迎上來贩幻,“玉大人,你說我怎么就攤上這事两嘴〈猿” “怎么了?”我有些...
    開封第一講書人閱讀 153,116評論 0 344
  • 文/不壞的土叔 我叫張陵溶诞,是天一觀的道長鸯檬。 經(jīng)常有香客問我决侈,道長螺垢,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,371評論 1 279
  • 正文 為了忘掉前任赖歌,我火速辦了婚禮枉圃,結果婚禮上,老公的妹妹穿的比我還像新娘庐冯。我一直安慰自己孽亲,他們只是感情好,可當我...
    茶點故事閱讀 64,384評論 5 374
  • 文/花漫 我一把揭開白布展父。 她就那樣靜靜地躺著返劲,像睡著了一般玲昧。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上篮绿,一...
    開封第一講書人閱讀 49,111評論 1 285
  • 那天孵延,我揣著相機與錄音,去河邊找鬼亲配。 笑死尘应,一個胖子當著我的面吹牛,可吹牛的內容都是我干的吼虎。 我是一名探鬼主播犬钢,決...
    沈念sama閱讀 38,416評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼思灰!你這毒婦竟也來了玷犹?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 37,053評論 0 259
  • 序言:老撾萬榮一對情侶失蹤洒疚,失蹤者是張志新(化名)和其女友劉穎箱舞,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體拳亿,經(jīng)...
    沈念sama閱讀 43,558評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡晴股,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,007評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了肺魁。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片电湘。...
    茶點故事閱讀 38,117評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖鹅经,靈堂內的尸體忽然破棺而出寂呛,到底是詐尸還是另有隱情,我是刑警寧澤瘾晃,帶...
    沈念sama閱讀 33,756評論 4 324
  • 正文 年R本政府宣布贷痪,位于F島的核電站,受9級特大地震影響蹦误,放射性物質發(fā)生泄漏劫拢。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,324評論 3 307
  • 文/蒙蒙 一强胰、第九天 我趴在偏房一處隱蔽的房頂上張望舱沧。 院中可真熱鬧,春花似錦偶洋、人聲如沸熟吏。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽牵寺。三九已至悍引,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間帽氓,已是汗流浹背吗铐。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留杏节,地道東北人唬渗。 一個月前我還...
    沈念sama閱讀 45,578評論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像奋渔,于是被迫代替她去往敵國和親镊逝。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,877評論 2 345

推薦閱讀更多精彩內容