10x基因組數(shù)據(jù)的組裝

10x genomics除了有非常出名的單細胞轉(zhuǎn)錄組的業(yè)務線以外還有基于10x的基因組的業(yè)務馅袁。接下來就帶大家走一走10x基因組數(shù)據(jù)的組裝流程芭析。

軟件下載

組裝的軟件叫做supernova蕉斜,可以從10x genomics的官網(wǎng)下載:
https://support.10xgenomics.com/de-novo-assembly/software/downloads/latest
這里需要填一個表盯荤,填完之后會給一個包含token的下載地址扣讼,用wget或者curl就可以開始下載啦鲁冯。

wget -O supernova-2.1.1.tar.gz "https://cf.10xgenomics.com/releases/assembly/supernova-2.1.1.tar.gz?這里后面有一大段很長的token"

supernova是不需要安裝的猜极,下載好之后解壓開中姜,把所在路徑加入環(huán)境變量中就可以使用了。
接下來可以運行下面的代碼測試一下看看能不能正常運行:

# check the environment
supernova sitecheck > sitecheck.txt

# test the pipeline
supernova testrun --id=tiny

如果都能運行成功就可以開始處理自己的數(shù)據(jù)啦。

supernova mkfastq

組裝的第一步是先運行supernova mkfastq得到一個xxx
一個step-by-step的演示可以參考這里:
https://support.10xgenomics.com/de-novo-assembly/software/pipelines/latest/using/mkfastq

# 我的命令找不到了丢胚,下面的是官網(wǎng)上摘錄的
supernova mkfastq --id=tiny-bcl \
                     --run=/path/to/tiny_bcl
                     -csv=tiny-bcl-simple-2.1.0.csv

supernova run

由于軟件的要求翩瓜,必須把測序文件重命名成如下的形式

xxx_S0_L001_R1_001.fastq.gz
xxx_S0_L001_R2_001.fastq.gz

命名的規(guī)則可以參考:
https://support.10xgenomics.com/de-novo-assembly/software/pipelines/latest/using/fastq-input

運行命令:

supernova run \
  --id=test_10x  \
  --fastqs=/path/to/10x/01rawData \
  --sample=test \
  --maxreads=all \
  --localcores=32

32個核心跑了96個小時左右跑完了主體部分,但是還沒完成, 還要跑一個supernova mkoutput.

supernova mkoutput

在跑這一步的時候要確定style, 具體參考: https://support.10xgenomics.com/de-novo-assembly/software/pipelines/latest/output/generating

style分為
--style=raw|megabubbles|pseudohap|pseudohap2
四種携龟, 我的建議是可以都測試一下, 如果需要的時間比較少的話, 四個都跑一遍取結(jié)果最優(yōu)的. 另外可以優(yōu)先試試megabubbles. 因為它不會像raw一樣引入N, 而后兩種似乎都是出haplotype的結(jié)果的.

# style 為 megabubbles
nohup supernova mkoutput \
--asmdir=/path/to/outs/assembly \
--outprefix=test_10x \
--style=megabubbles \
--nozip > mkoutput_megabubbles.log &
# style 為 raw
nohup supernova mkoutput \
--asmdir=/path/to/outs/assembly \
--outprefix=test_10x \
--style=raw \
--nozip > mkoutput_raw.log &
# style 為 pseudohap
nohup supernova mkoutput \
--asmdir=/path/to/outs/assembly \
--outprefix=test_10x \
--style=pseudohap \
--nozip > mkoutput_pseudohap.log &
# style 為 pseudohap2
nohup supernova mkoutput \
--asmdir=/path/to/outs/assembly \
--outprefix=test_10x \
--style=pseudohap2 \
--nozip > mkoutput_pseudohap2.log &

報錯解決

  1. 我在分析的時候遇到了一個NCBI導致的bug:

當數(shù)據(jù)被傳到NCBI上之后會原本的序列的ID就會被NCBI自動替換成SRR數(shù)據(jù)庫的編號兔跌,但是我的這個10x的數(shù)據(jù)的ID里是包含了adapter信息的,10x的程序需要這個adapter信息來判斷哪些reads被標記了相同的adapter以進行聚類分堆等后續(xù)操作的峡蟋。當時的解決辦法是用NCBI的data deliver的功能坟桅,把上傳者上傳到S3的原始數(shù)據(jù)給下載下來了。這個辦法如果不在美國似乎是無法使用的蕊蝗。當時遇到的報錯信息如下:

cannot assembly it because the adaper file missing

這個bug可能跟版本有關(guān)系仅乓。一般而言10x會給你三個文件,除了雙端的reads之外匿又,還有一個adapter的文件方灾。但是我這個數(shù)據(jù)或許是版本比較早或許是啥版本限定的問題,只有雙端reads文件碌更,沒有單獨的adapter文件。

  1. 在跑supernova mkoutput的時候遇到了另一個報錯:
version=1.10 style=3
Sat Feb 05 15:37:59 2022: loading assembly files

Fatal error (pid=2957755) at Sat Feb 05 15:37:59 2022:
Attempt to open ~/project/test/outs/assembly/a.base/gang/micro/final/a.sup.hbx for reading failed: No such file or directory [errno=2].

但是這個找不到的a.sup.hbx文件是存在的, 而且大小不是0. 非常奇怪. 也搜不到對應的報錯信息.
后來鼓搗了一下解決了洞慎,解決辦法也比較簡單, 只要用絕對路徑代替~就可以了.

私貨時間

這個軟件的需求會很高痛单,所需的存儲空間得有1~2Tb,對內(nèi)存的需求也很高劲腿。我當時在我們組的服務器里完成不了旭绒,把數(shù)據(jù)轉(zhuǎn)移到生信技能樹的服務器里才完成。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末焦人,一起剝皮案震驚了整個濱河市挥吵,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌花椭,老刑警劉巖忽匈,帶你破解...
    沈念sama閱讀 206,839評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異矿辽,居然都是意外死亡丹允,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評論 2 382
  • 文/潘曉璐 我一進店門袋倔,熙熙樓的掌柜王于貴愁眉苦臉地迎上來雕蔽,“玉大人,你說我怎么就攤上這事宾娜∨” “怎么了?”我有些...
    開封第一講書人閱讀 153,116評論 0 344
  • 文/不壞的土叔 我叫張陵前塔,是天一觀的道長嚣艇。 經(jīng)常有香客問我缘眶,道長,這世上最難降的妖魔是什么髓废? 我笑而不...
    開封第一講書人閱讀 55,371評論 1 279
  • 正文 為了忘掉前任巷懈,我火速辦了婚禮,結(jié)果婚禮上慌洪,老公的妹妹穿的比我還像新娘顶燕。我一直安慰自己,他們只是感情好冈爹,可當我...
    茶點故事閱讀 64,384評論 5 374
  • 文/花漫 我一把揭開白布涌攻。 她就那樣靜靜地躺著,像睡著了一般频伤。 火紅的嫁衣襯著肌膚如雪恳谎。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,111評論 1 285
  • 那天憋肖,我揣著相機與錄音因痛,去河邊找鬼。 笑死岸更,一個胖子當著我的面吹牛鸵膏,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播怎炊,決...
    沈念sama閱讀 38,416評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼谭企,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了评肆?” 一聲冷哼從身側(cè)響起债查,我...
    開封第一講書人閱讀 37,053評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎瓜挽,沒想到半個月后盹廷,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,558評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡秸抚,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,007評論 2 325
  • 正文 我和宋清朗相戀三年速和,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片剥汤。...
    茶點故事閱讀 38,117評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡颠放,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出吭敢,到底是詐尸還是另有隱情碰凶,我是刑警寧澤,帶...
    沈念sama閱讀 33,756評論 4 324
  • 正文 年R本政府宣布,位于F島的核電站欲低,受9級特大地震影響辕宏,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜砾莱,卻給世界環(huán)境...
    茶點故事閱讀 39,324評論 3 307
  • 文/蒙蒙 一瑞筐、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧腊瑟,春花似錦聚假、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至财松,卻和暖如春瘪贱,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背辆毡。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評論 1 262
  • 我被黑心中介騙來泰國打工菜秦, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人胚迫。 一個月前我還...
    沈念sama閱讀 45,578評論 2 355
  • 正文 我出身青樓喷户,卻偏偏與公主長得像,于是被迫代替她去往敵國和親访锻。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,877評論 2 345

推薦閱讀更多精彩內(nèi)容