使用Macbook進(jìn)行單細(xì)胞測序上游sra文件處理

前言

想要白嫖子宮內(nèi)膜癌的單細(xì)胞測序數(shù)據(jù)用來做驗(yàn)證,搜到一篇做的很全面的單測文章屎篱,但作者上傳的是SRA文件,只好拾起3年前跟生信技能樹曾老師啟蒙的上游數(shù)據(jù)分析技能。

網(wǎng)上一頓搜索突雪,裝了好多包,結(jié)果本次白嫖前的工作準(zhǔn)備真正用上的就3個涡贱,sra-tool咏删,parallel-fastq-dump(基于 sra-tool,所以 sra-tool 是必須的)和star solo问词,嗯還有迅雷(10年沒用過了我)督函。

這篇筆記旨在記錄一些我記不住的設(shè)置(主要是star使用的g++編譯,在非intel芯片上安裝需要進(jìn)行的環(huán)境設(shè)置),也希望能給想用mac進(jìn)行上游數(shù)據(jù)分析的同道一些參考侨核。


image.png

一草穆、搭建測序數(shù)據(jù)處理環(huán)境

1. conda環(huán)境搭建參考

https://blog.csdn.net/weixin_47614014/article/details/118070452

image.png

2. 上游數(shù)據(jù)處理包安裝參考

https://mp.weixin.qq.com/s/mo_oDD_ZWrC18EKHkLNR9g

image.png

二、參考基因組下載

http://ftp.ebi.ac.uk/pub/databases/gencode/

①genome.fa.gz是基因組文件搓译,解壓為genome.fa文件
②gtf或gff3.gz是注釋文件(有全基因組注釋的悲柱、外顯子注釋的、非編碼RNA注釋的些己,按需)
③可用復(fù)制鏈接使用迅雷下載


image.png

三豌鸡、上游測序數(shù)據(jù)下載(本例數(shù)據(jù)量大,勿作練習(xí)用)

https://www.ncbi.nlm.nih.gov/sra/?term=SRP349751

1. 網(wǎng)上教程教我的

①點(diǎn)All runs


image.png

②下載Accession list


image.png

③使用Sra toolkit下載
image.png

2. 速度實(shí)在太慢了段标,我用的迅雷

①15個數(shù)據(jù)涯冠,也不是很多,鏈接慢慢改吧逼庞,速度喜人蛇更!
②下載 normalize 的數(shù)據(jù),跟使用 sra toolkit 下載的一致赛糟,可以用 fast-dump 直接轉(zhuǎn)派任,lite.sra的數(shù)據(jù)需要特殊處理
③需添加后綴.sra


image.png

四、sra文件解壓為fastq文件

使用parallel-fastq-dump璧南,因?yàn)榭?/strong>
1. 安裝 parallel-fastq-dump
https://anaconda.org/bioconda/parallel-fastq-dump/files
下載noarch版本(python環(huán)境掌逛,兼容Mac系統(tǒng))或者osx版本,因?yàn)樵诮K端使用conda下載容易出現(xiàn)不兼容OSX的版本司倚,所以我都是進(jìn)官網(wǎng)下載豆混,再解壓安裝(反正用Macbook,也是因?yàn)闆]租用linux服務(wù)器是吧动知?不需要在乎服務(wù)器可視化問題)

image.png

# 需要使用python環(huán)境的包皿伺,我都放在miniforge2/pkgs文件夾里面了,我也不知道不放里面解壓有沒有影響
tar -vxzf parallel-fastq-dump-0.6.3-py36_1.tar.bz2
# 配置環(huán)境
vim ~/.zshrc
# export PATH="/Users/用戶名/miniforge2/pkgs/parallel-fastq-dump-0.6.3-py36_1/bin:$PATH"
source ~/.zshrc
# 查看是否安裝成功
conda list

2. 使用parallel-fastq-dump解壓sra文件
雙端的單測數(shù)據(jù)一般都生成3個fastq文件拍柒,分別是I1(index文件)心傀,R1(細(xì)胞標(biāo)簽read文件)和R2(單個細(xì)胞內(nèi)測序文件),后續(xù)分析主要用到R1和R2具體可參考http://www.reibang.com/p/dadd202c34be

# 即便使用parallel-fastq-dump 8線程拆讯,20幾G的sra文件也用了半個多小時
parallel-fastq-dump --sra-id SRR17165228 --threads 4 --outdir ../rawfq/ --split-files --gzip
# 如果測序文件只是幾個G(細(xì)胞量少吧)脂男,可以使用批量程序掛機(jī)
ls *.sra | while read id
do ( nohup parallel-fastq-dump -t 72  -O ../rawfq/ --split-files --gzip -s $id &)
done
# 沒有試fasterq-dump,雖然它也支持多線程种呐,但不支持gzip壓縮宰翅,本例數(shù)據(jù)太大,應(yīng)該不夠空間存放爽室。汁讼。fastq-dump、fasterq-dump和parallel-fastq-dump區(qū)別和使用可以參考http://www.reibang.com/p/97e7a70aaf79

五、fastq文件比對并輸出Counts文件

1. 安裝STAR

https://github.com/alexdobin/STAR
我遇到的主要問題包括:
①git clone速度慢→可以通過GitHub Desktop進(jìn)行下載
②gcc編譯→修改編譯環(huán)境嘿架,參考https://blog.csdn.net/qq_33957603/article/details/131757260
③-mavx2報錯→source/Makefile文件里修改為CXX_SIMD_FLAGS=-march=native
ps. 更新了2.7.11a版本似乎可以使用zip下載了瓶珊,同時makefile文件里面也不存在“CXX_SIMD_FLAGS”了,應(yīng)該已經(jīng)解決Mac安裝該軟件時候-mavx2報錯問題耸彪。

image.png

image.png

image.png

image.png

2. 建立比對索引

STAR --runMode genomeGenerate --genomeDir ~/Downloads/Reference/hg38 --genomeFastaFiles ~/Downloads/Reference/hg38/GRCh38.p14.genome.fa --sjdbGTFfile ~/Downloads/Reference/hg38/gencode.v44.annotation.gtf

3. 下載barcodes

STARsolo與普通的轉(zhuǎn)錄組比對區(qū)別在于你需要在比對時加上whitelist伞芹,參考http://www.reibang.com/p/b2076d670558
barcodes是細(xì)胞的標(biāo)簽序列文件,使用10XGenomics試劑盒產(chǎn)生的數(shù)據(jù)蝉娜,可以從10XGenomics處下載barcodes
https://github.com/10XGenomics/cellranger/tree/master/lib/python/cellranger/barcodes
本例用到的是3M-february-2018.txt

image.png

4. 運(yùn)行單細(xì)胞比對

先解壓fastq.gz文件解壓到移動硬盤(其實(shí)上面可以用faster-dump生成fastq文件唱较,這里就不需要解壓了,主要還是硬盤容量不夠召川,fastq緩沖文件會占用硬盤空間)
盡量刪除占用電腦硬盤的文件南缓,因?yàn)閎am文件比fastq文件大幾倍,本例生成的bam文件200G左右(請大佬們教我怎么將緩沖文件也保存到移動硬盤荧呐,可能可以解決這個電腦硬盤不夠的問題)

STAR --runThreadN 16 \ #多線程汉形,所以比cellrange快,但是Mac本來也用不了cellrange倍阐,不知道修改編譯環(huán)境后能不能安裝获雕,未嘗試   
--genomeDir ../../Reference/hg38 \ #比對索引目錄
--readFilesIn *_3.fastq *_2.fastq \ #見上述3為R2文件,2為R1文件收捣,starsolo需要先比對R2文件,再通過R1文件分配到單細(xì)胞里面去
--soloType CB_UMI_Simple \ #10X的單細(xì)胞測序用這個one UMI and one Cell Barcode of xed length in read2, e.g. Drop-seq and 10X Chromium
--soloCBwhitelist ../../Reference/barcodes/3M-february-2018.txt \ #barcodes文件
--soloBarcodeReadLength 0 #默認(rèn)是1庵楷,但本例報錯罢艾,可能與添加了接頭序列導(dǎo)致與barcodes文件的堿基數(shù)不匹配

starsolo還可以根據(jù)不同的比對文件使用單細(xì)胞測序數(shù)據(jù)進(jìn)行多種分析,例如ncRNA尽纽、exon可變剪接等咐蚯,參考文章先保存在這了https://mp.weixin.qq.com/s/XoXBq6OMkghlhsg4yurHJA

5. 生成進(jìn)行下游分析的文件啦

image.png

后話

這次白嫖花了半個月時間,希望后面再白嫖需要上游分析的測序數(shù)據(jù)弄贿,可以少花些時間春锋,畢竟代碼這東西用著用著就又報錯了??????

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市差凹,隨后出現(xiàn)的幾起案子期奔,更是在濱河造成了極大的恐慌,老刑警劉巖危尿,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件呐萌,死亡現(xiàn)場離奇詭異,居然都是意外死亡谊娇,警方通過查閱死者的電腦和手機(jī)肺孤,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人赠堵,你說我怎么就攤上這事小渊。” “怎么了茫叭?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵酬屉,是天一觀的道長。 經(jīng)常有香客問我杂靶,道長梆惯,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任吗垮,我火速辦了婚禮垛吗,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘烁登。我一直安慰自己怯屉,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布饵沧。 她就那樣靜靜地躺著锨络,像睡著了一般。 火紅的嫁衣襯著肌膚如雪狼牺。 梳的紋絲不亂的頭發(fā)上羡儿,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天,我揣著相機(jī)與錄音是钥,去河邊找鬼掠归。 笑死,一個胖子當(dāng)著我的面吹牛悄泥,可吹牛的內(nèi)容都是我干的虏冻。 我是一名探鬼主播,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼弹囚,長吁一口氣:“原來是場噩夢啊……” “哼厨相!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起鸥鹉,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤蛮穿,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后毁渗,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體绪撵,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年祝蝠,在試婚紗的時候發(fā)現(xiàn)自己被綠了音诈。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片幻碱。...
    茶點(diǎn)故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖细溅,靈堂內(nèi)的尸體忽然破棺而出褥傍,到底是詐尸還是另有隱情,我是刑警寧澤喇聊,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布恍风,位于F島的核電站,受9級特大地震影響誓篱,放射性物質(zhì)發(fā)生泄漏朋贬。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一窜骄、第九天 我趴在偏房一處隱蔽的房頂上張望锦募。 院中可真熱鬧,春花似錦邻遏、人聲如沸糠亩。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽赎线。三九已至,卻和暖如春糊饱,著一層夾襖步出監(jiān)牢的瞬間垂寥,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工另锋, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留矫废,地道東北人。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓砰蠢,卻偏偏與公主長得像,于是被迫代替她去往敵國和親唉铜。 傳聞我的和親對象是個殘疾皇子台舱,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容