單細(xì)胞轉(zhuǎn)錄組之從fastq到counts

1 原始數(shù)據(jù)下載及轉(zhuǎn)換

從GEO下載原始數(shù)據(jù)需要使用官方工具SRA-tools,安裝SRA-tools

conda install -y sra-tools

1.1 原始數(shù)據(jù)下載

進(jìn)入NCBI SRA數(shù)據(jù)庫(kù)奔滑,輸入GSE編號(hào)琐旁,選擇要下載的數(shù)據(jù)定欧,下載Accession List信殊,至rawdata文件夾.

在rawdata文件夾中挽绩,使用SRA-tools中prefetch來(lái)下載文件荧库。

cat SRR_Acc_List.txt |xargs -I [] echo 'nohup prefetch [] &'>prefetch.sh
bash prefetch.sh

運(yùn)行上述命令后堰塌,會(huì)在后臺(tái)下載數(shù)據(jù)。
或者

prefetch --option-file SRR_Acc_List.txt 

下載完成后會(huì)在目錄下得到包含SRA的文件夾


1.2 SRA批量轉(zhuǎn)換為fastq

在rawdata文件夾下电爹,運(yùn)行批量轉(zhuǎn)換腳本

##-e:線程數(shù)(dflt=6) --include-technical:包含technical reads -b:文件緩存區(qū)(dflt=1MB) -c:動(dòng)態(tài)緩存(dflt=10MB) -m:排序的內(nèi)存限制(dflt=100MB)

ls SRR*/*sra |while read id;do (fasterq-dump --split-files -e 10 --include-technical -b 100MB -c 200MB -m 2000MB $id);done 

運(yùn)行完畢后蔫仙,每個(gè)sra文件會(huì)解壓出3個(gè)fq文件,如下所示

$ ls -lh *gz |cut -d" " -f 5- 

985M  21:45 SRR13924917_1.fastq.gz
2.2G  21:45 SRR13924917_2.fastq.gz
6.7G  21:45 SRR13924917_3.fastq.gz

987M  21:59 SRR13924918_1.fastq.gz
2.2G  21:59 SRR13924918_2.fastq.gz
6.7G  21:59 SRR13924918_3.fastq.gz

這里可能出現(xiàn)三種情況

  • 從sra拆分的fastq文件只有一個(gè):?jiǎn)味藴y(cè)序
  • 從sra拆分的fastq文件有兩個(gè):雙端測(cè)序
  • 從sra拆分的fastq文件有三個(gè):雙端測(cè)序read+index

詳見(jiàn)以下說(shuō)明


從這3個(gè)fq文件的大小就可以看得出來(lái)它們的格式丐箩,分別是I1摇邦,R1,和R2屎勘。

2 Cell Ranger流程

Cell Ranger是10X Genomics為單細(xì)胞分析專門打造的分析軟件施籍,直接對(duì)10X的下機(jī)數(shù)據(jù)進(jìn)行基因組比對(duì)、定量概漱、生成單細(xì)胞矩陣丑慎、聚類以及其他的分析等。

為了在下游分析中讓Cell Ranger指定識(shí)別我們的fastq文件進(jìn)行下游分析瓤摧,使用官網(wǎng)推薦的命名格式進(jìn)行命名


所以要對(duì)之前得到的fastq文件竿裂,批量改名。

##重命名腳本1
ls *_1.fastq.gz |while read id;do (pre=`basename $id|cut -d"_" -f 1`;echo $pre; ln -s $id ${pre}_S1_L001_I1_001.fastq.gz);done
ls *_2.fastq.gz |while read id;do (pre=`basename $id|cut -d"_" -f 1`;echo $pre; ln -s $id ${pre}_S1_L001_R1_001.fastq.gz);done
ls *_3.fastq.gz |while read id;do (pre=`basename $id|cut -d"_" -f 1`;echo $pre; ln -s $id ${pre}_S1_L001_R2_001.fastq.gz);done

##重命名腳本2
cat SRR_Acc_List.txt | while read id ;do (mv ${id}_1*.gz ${id}_S1_L001_I1_001.fastq.gz;mv ${id}_2*.gz ${i}_S1_L001_R1_001.fastq.gz;mv ${id}_3*.gz ${i}_S1_L001_R3_001.fastq.gz);done

2.1 Cell Ranger的下載與安裝

進(jìn)入CellRanger官網(wǎng)照弥,點(diǎn)擊下載腻异,如果是第一次進(jìn)入下載界面,需要填寫一些基本信息这揣,填寫完后點(diǎn)擊Continue to Download即可悔常。

##LINUX版本下載
curl -o cellranger-6.1.2.tar.gz "https://cf.10xgenomics.com/releases/cell-exp/cellranger-6.1.2.tar.gz?Expires=1652062386&Policy=eyJTdGF0ZW1lbnQiOlt7IlJlc291cmNlIjoiaHR0cHM6Ly9jZi4xMHhnZW5vbWljcy5jb20vcmVsZWFzZXMvY2VsbC1leHAvY2VsbHJhbmdlci02LjEuMi50YXIuZ3oiLCJDb25kaXRpb24iOnsiRGF0ZUxlc3NUaGFuIjp7IkFXUzpFcG9jaFRpbWUiOjE2NTIwNjIzODZ9fX1dfQ__&Signature=A9adfYE-gTZugUA8HDIt7K9BaLs72lc8dU3X-Oqj0NMMA-zG5POwSSi9SsBME1pOX8iGyEI1gknodSfFWcf2oBEyF6gZLPxFoFQ71ATS1Z7pQaTWzAVzbnDXj4swuMqX-OM~zngTrKxqDQ9UPcuvTriMCmc2LYVgMjuNR5kxGWKfI1xCXyMpimKNlpttw-~w-xqBGwi2PQ6exgF1oUIAVEeLnl~pd6hm6Ia8IMJEJmpuLDlBVKHzmruimXSoZxIaSphdnSglYqGBltcYHdEUVLZ1LtgwQKvEvlaEo8wtA7IVX9WWB~N2zqiLW0BvHucQUiQAtjYQwfCdclbkhor2Xg__&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA"
  • 安裝包下載完成后使用tar命令進(jìn)行解壓。
tar -xzvf cellranger-6.1.2.tar.gz
  • 把Cell Ranger添加到系統(tǒng)環(huán)境给赞。
vim ~/.bashrc
##將下方語(yǔ)句添加到.bashrc中机打,注意修改路徑
export PATH=~/t010328/download/cellranger-6.1.2:$PATH
  • 更新一下.bashrc文件。
source ~/.bashrc
  • 測(cè)試是否正確安裝
cellranger testrun --id=tiny
##顯示Pipestance completed successfully!則成功

2.2 參考基因組下載

CellRanger官網(wǎng)提供了人和小鼠的參考基因組片迅。

##Human reference (GRCh38),Download – 11 GB – md5sum: dfd654de39bff23917471e7fcc7a00cd
curl -O https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-GRCh38-2020-A.tar.gz

##Mouse reference dataset,Download – 9.7 GB – md5sum: 886eeddde8731ffb58552d0bb81f533d
curl -O https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-mm10-2020-A.tar.gz

2.3 CellRanger定量

編寫一個(gè)cellranger運(yùn)行腳本残邀,命名為run-cellranger.sh。內(nèi)容如下:

##db為參考基因組目錄,fq_dir為原始fastq文件目錄,--localcores為最大使用線程數(shù)罐旗,--nosecondary為不進(jìn)行聚類分群分析膳汪,--expect-cells為指定最大細(xì)胞數(shù)
db=~/t010328/download/cellranger/refdata-gex-GRCh38-2020-A;  
ls $db 
fq_dir=~/t010328/download/10X/raw  
echo '
cellranger count --id=$1 \  
--localcores=20 \  
--transcriptome=$db \  
--fastqs=$fq_dir \  
--sample=$1 \  
--nosecondary \  
--expect-cells=5000 ' >run-cellranger.sh

批量運(yùn)行run-cellranger.sh進(jìn)行比對(duì)定量。

nohup cat SRR_Acc_List.txt |while read id;do ( bash run-cellranger.sh $id  );done &

2.4 定量結(jié)果

成功運(yùn)行之后會(huì)生成sample目錄(腳本中id參數(shù))九秀,最終結(jié)果都保存在sample/outs中。


analysis:cellranger聚類的結(jié)果

filtered_feature_bc_matrix:過(guò)濾后的單細(xì)胞表達(dá)矩陣(后續(xù)可以對(duì)接到seurat包)

raw_feature_bc_matrix:過(guò)濾前的單細(xì)胞表達(dá)數(shù)據(jù)

possorted_genome_bam.bam:?jiǎn)渭?xì)胞比對(duì)的bam文件粘我,其中包含了每個(gè)reads的信息

web_summary.html:報(bào)告網(wǎng)頁(yè)(單細(xì)胞定量后的報(bào)告鼓蜒,包括檢測(cè)到的細(xì)胞數(shù)、基因數(shù)征字、UMI都弹、分群等等)

參考來(lái)源
http://www.reibang.com/p/0b32fe7a2859
https://mp.weixin.qq.com/s/xvXtgzWAFpw-b00HBUVMCg

THE END

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市匙姜,隨后出現(xiàn)的幾起案子畅厢,更是在濱河造成了極大的恐慌,老刑警劉巖氮昧,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件框杜,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡袖肥,警方通過(guò)查閱死者的電腦和手機(jī)咪辱,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)椎组,“玉大人油狂,你說(shuō)我怎么就攤上這事〈绨” “怎么了专筷?”我有些...
    開封第一講書人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)蒸苇。 經(jīng)常有香客問(wèn)我磷蛹,道長(zhǎng),這世上最難降的妖魔是什么填渠? 我笑而不...
    開封第一講書人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任弦聂,我火速辦了婚禮,結(jié)果婚禮上氛什,老公的妹妹穿的比我還像新娘莺葫。我一直安慰自己,他們只是感情好枪眉,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開白布捺檬。 她就那樣靜靜地躺著,像睡著了一般贸铜。 火紅的嫁衣襯著肌膚如雪堡纬。 梳的紋絲不亂的頭發(fā)上聂受,一...
    開封第一講書人閱讀 48,970評(píng)論 1 284
  • 那天,我揣著相機(jī)與錄音烤镐,去河邊找鬼蛋济。 笑死,一個(gè)胖子當(dāng)著我的面吹牛炮叶,可吹牛的內(nèi)容都是我干的碗旅。 我是一名探鬼主播,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼镜悉,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼祟辟!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起侣肄,我...
    開封第一講書人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤旧困,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后稼锅,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體吼具,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年缰贝,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了馍悟。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡剩晴,死狀恐怖锣咒,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情赞弥,我是刑警寧澤毅整,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布,位于F島的核電站绽左,受9級(jí)特大地震影響悼嫉,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜拼窥,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一戏蔑、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧鲁纠,春花似錦总棵、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春骤视,著一層夾襖步出監(jiān)牢的瞬間鞍爱,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來(lái)泰國(guó)打工专酗, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留睹逃,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓祷肯,卻偏偏與公主長(zhǎng)得像唯卖,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子躬柬,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容