1. 技術產(chǎn)生背景
PacBio構建這種文庫的一個主要原因是邢享,在其測序芯片中有很多零模波導孔(ZMW),每個孔在測序時只能測一條DNA分子噩翠,這樣其測序通量就受到孔數(shù)和文庫長度的限制氛魁。近些年PacBio確實也在不停的增加ZMW孔的數(shù)目,從而來提升通量隆箩,ZMW孔的數(shù)目也從剛開始的3千個,一路增加到15萬個羔杨、100萬個和800萬個捌臊,即將在2023年上市的Revio機型,單個芯片會包含2500萬個ZMW孔兜材。
當然這對于DNA分子較長的文庫理澎,和所需測序數(shù)據(jù)量較高的項目來說沒有什么影響。但是實際中像細菌16S項目曙寡,全長的16S也只有1.5kb糠爬,或者轉錄組文庫,反轉錄后的DNA分子長度平均也就1.5-2kb左右卵皂。就目前測序的酶讀長秩铆,對于HiFi 15kb的文庫數(shù)據(jù)砚亭,平均測序準確性可以達到QV30左右灯变,即千分之一的錯誤率。如果文庫較短捅膘,雖然可以獲取更多的pass數(shù)添祸,經(jīng)過CCS矯正后具有較高的準確性,但是分子長度較短會使有效數(shù)據(jù)量變少寻仗,所以MAS-seq應運而生刃泌。
2. 文庫構建過程
MAS-seq文庫構建原理簡單介紹如下:
- 構建樣本的短片段文庫,并將其平均分為多個獨立的子文庫署尤,下圖1是一個單細胞轉錄組文庫構建過程耙替,它分為了4個獨立的子文庫;
- 在每個文庫中兩端添加不同的接頭曹体,例如cDNA1文庫的5'和3'分別添加AB接頭俗扇,cDNA2文庫的DNA分子5‘和3’分別添加B'C接頭,cDNA3添加C'D接頭箕别,cDNA4添加D'E接頭铜幽。再將這四個文庫混成一個文庫滞谢,由于BB'、CC'除抛、DD'反向互補狮杨,連接生產(chǎn)一個較長片段文庫;
- 目前PacBio官方提供8個子文庫接頭試劑盒到忽,在15kb片段長度時就可以HiFi文庫可以得到較高測序質量的數(shù)據(jù)橄教,那么平均子文庫的長度長度15/8約等于2kb;
3. MAS-seq數(shù)據(jù)拆分
PacBio測序儀可以支持Subreads類型下機數(shù)據(jù)和HiFi類型下機數(shù)據(jù)喘漏。兩者之間的區(qū)別是颤陶,HiFi數(shù)據(jù)是將同一個ZMW孔中相同分子多次測到的Subreads經(jīng)過合并糾錯后生成的,具有較高的準確性陷遮,這一步轉換稱為CCS過程滓走。在實際項目中,建議和服務商要求提供HiFi數(shù)據(jù)帽馋,因為這一轉換過程非常消耗CPU資源搅方。在CCS過程中,軟件是不會去除MAS-seq數(shù)據(jù)中的接頭序列的绽族。為了將接頭去除姨涡,獲取實際DNA分子的堿基序列,可以使用軟件Skera吧慢。拆分后的數(shù)據(jù)通常稱為Segmented reads.
5. 演示
官方提供了一組MAS-seq文庫結構的HiFi數(shù)據(jù)涛漂,我們可以拿過來學習,了解具體的輸入和輸出數(shù)據(jù)格式检诗,以及Skera軟件的用法匈仗。
# download HiFi reads for MAS-Seq PBMCs run on Sequel IIe
wget https://downloads.pacbcloud.com/public/dataset/MAS-Seq/DATA-SQ2-PBMC_5kcells/0-CCS/m64476e_220618_014917.hifi_reads.bam
# download MAS adapter fasta
wget https://downloads.pacbcloud.com/public/dataset/MAS-Seq/REF-MAS_adapters/MAS-Seq_Adapter_v1/mas16_primers.fasta
# run skera split to generate segmented reads
skera split m64476e_220618_014917.hifi_reads.bam mas16_primers.fasta segmented.bam
其中mas16_primers.fasta為包含adapter序列文件,文件中接頭序列的存放順序逢慌,必須按照多個小片段文庫連接生成最終長片段文庫中悠轩,adapter從5‘到3’的順序存放。
4. 輸出文件
skera split 運行完成后會生成很多文件攻泼,它們包含不同信息火架。
文件名稱 | 內容說明 |
---|---|
segmented.bam | 去除adapter后的測序數(shù)據(jù) |
segmented.non_passing.bam | 兩端adapter不合理的序列 |
summary.csv | 去除adapter后數(shù)據(jù)的統(tǒng)計信息 |
ligations.csv | 5'和3'不同adapter組合的統(tǒng)計 |
read_lengths.csv | HiFi數(shù)據(jù)和Segmented reads長度統(tǒng)計信息 |
*summary.csv 輸出文件格式說明:
Input Reads,2622891 #輸入HiFI數(shù)據(jù)的總reads數(shù)嗎
Segmented Reads (S-Reads),40131832 #被分割后得到segmented Reads總數(shù)
Mean Length of S-Reads,672 #segmented reads平均長度
Percentage of Reads with Full Array,86.3247 #拆分時一條HiFi reads得到的segmented reads數(shù)與文庫設計一致的比例,本實例中包含15個segmented reads的HiFi reads數(shù)目占輸入條數(shù)的比例
Mean Array Size (Concatenation Factor),15 #文庫構建時完整HiFi reads理論包含segment數(shù)目
拆分數(shù)據(jù)時只輸出按照adapter順序連接的segment reads忙菠,例如官方提供的測試數(shù)據(jù)包含16個adapter何鸡,按照1-2,2‘-3牛欢,3’-4 ... 15‘-16 的方式加入到小片段文庫中骡男,然后通過2-2‘,3-3’ ... 15-15'粘性末端連接的方式將15條segment reads連接成一條長序列用于測序氢惋。由于在小片段文庫中添加adapter是獨立的洞翩,所以不應該產(chǎn)生1-3’稽犁、3-6‘這樣連接方式,在拆分時也不回輸出骚亿,下例中可以看出順序連接的數(shù)目也是最多的已亥。
sed 's/,/\t/g' m64476e_220618_014917.skera.ligations.csv|sort -k3,3rn | awk '{sum+=$3;print $0,sum}'|less -S
1 2 2579711 2579711
2 3 2569629 5149340
3 4 2555360 7704700
4 5 2548285 10252985
5 6 2535822 12788807
6 7 2522046 15310853
7 8 2509664 17820517
8 9 2502244 20322761
9 10 2495860 22818621
0 1 2494407 25313028
10 11 2490646 27803674
11 12 2486362 30290036
12 13 2481755 32771791
13 14 2478636 35250427
14 15 2475053 37725480
15 16 2406352 40131832
#只輸出上面連接的segmented reads
2 4 8220 40140052
7 16 3157 40143209
6 16 2915 40146124
1 3 2885 40149009
5 16 2327 40151336
...
...
segment.bam文件中包含去除adapter的數(shù)據(jù),Skera還會在每個序列后面添加很多tag以表示不同的信息来屠。
BAM tag名 | 類型 | 含義 | 舉例 |
---|---|---|---|
di | i | segment的編號 | di:i:0 |
qs | i | segment在原始HiFI數(shù)據(jù)中的起始位置 | qs:i:16 |
qe | i | segment在原始HiFI數(shù)據(jù)中的終止位置 | qe:i:450 |
dl | i | 5'端adapter在adatper fasta文件中的索引 | dl:i:0 |
dr | i | 3'端adapter在adapter fasta文件中的索引 | dr:i:1 |
ds | b | binary json虑椎,用于將segment還原為HiFi數(shù)據(jù) | ds:b:10,21,23 |
另外,被分割生成的segment reads可以反向生成連接到一起的HiFi數(shù)據(jù)俱笛,由于去掉了非順序連接的segments reads捆姜,所以生成的undo bam會比原來的小:
skera undo *.skera.bam *undo.bam #undo bam就是反向生成的HiFi數(shù)據(jù)的bam