day54單細(xì)胞 cellranger處理Fastq文件

10X文庫(kù)送測(cè)序后,從測(cè)序公司拿到的測(cè)序數(shù)據(jù)是fastq格式的东且,要經(jīng)過(guò)linux上跑cellranger程序,得到表達(dá)矩陣金度,才能做后面的功能分析应媚。這里就是講一下如何跑cellranger。
biomamba沒(méi)有做視頻猜极,但是提供了文字版學(xué)習(xí)資料:?jiǎn)渭?xì)胞分析的最上游——處理Fastq文件:cellranger中姜。鏈接如下:
https://mp.weixin.qq.com/s?__biz=MzAwMzIzOTk5OQ==&mid=2247484923&idx=1&sn=b5876af14fbee68d1e9db4b0f70cd1c8&chksm=9b3f7cabac48f5bdb3aac7d20201d89121a83720b41a10017564fedbb8c4a13df0da92daffd7&scene=21#wechat_redirect

一、下載安裝cellranger

https://support.10xgenomics.com/single-cell-gene-expression/software/downloads/latest
在表格中填寫(xiě)具體信息跟伏。之后會(huì)轉(zhuǎn)到下載界面丢胚。可以直接點(diǎn)擊:Download - Linux 64-bit – 600 MB下載受扳,再上傳到服務(wù)器携龟。也可以在服務(wù)器上直接用curl或者wget命令下載。點(diǎn)擊右下角紅色數(shù)字勘高,也可以下載老版本的cellranger峡蟋。我選擇下載稍微老一些的版本文件名是cellranger-6.1.2.tar。要把這個(gè)文件放到software文件夾下相满,而不是直接就在家目錄下,因?yàn)樽詈靡獙④浖w類(lèi)放置桦卒。

image.png

在服務(wù)器上進(jìn)入到software文件夾下立美,輸入:tar -xzvf cellranger-6.1.2.tar.gz 來(lái)解壓縮。會(huì)生成一個(gè)新的文件夾名為cellranger-6.1.2情萤。

二达传、在北鯤云服務(wù)器里設(shè)置環(huán)境變量棍潘,添加系統(tǒng)路徑

首先通過(guò)WinSCP軟件登錄北鯤云服務(wù)器,用WinSCP比直接從網(wǎng)頁(yè)界面操作要更方便洞慎,因?yàn)?bashrc等隱藏文件,在軟件里可以點(diǎn)擊直接打開(kāi)嘿棘,如同文本一樣操作保存就行劲腿。可是網(wǎng)頁(yè)界面就不能直接打開(kāi)編輯隱藏文件鸟妙。


image.png

在.bashrc文件里面加一句:export PATH=/home/cloudam/software/cellranger-6.1.2:$PATH焦人。之后到家目錄下運(yùn)行:source .bashrc,來(lái)激活環(huán)境重父。


image.png

在任何目錄下花椭,輸入:cellranger,都會(huì)顯示如下界面房午,表明安裝cellranger成功矿辽。


image.png

三、準(zhǔn)備reference

一般常用的就是人和小鼠的,在前面下載cellranger的界面下面就有下載鏈接袋倔。


image.png

下載文件:refdata-gex-GRCh38-2020-A.tar.gz和refdata-gex-mm10-2020-A.tar.gz雕蔽,放到reference文件夾下。
在服務(wù)器進(jìn)入到reference文件夾下解壓就行:tar -xzvf refdata-gex-GRCh38-2020-A.tar.gz 奕污,tar -xzvf refdata-gex-mm10-2020-A.tar.gz萎羔。會(huì)生成相應(yīng)種屬的文件夾,其中包括參考基因組序列碳默、gtf文件以及star的索引文件等贾陷。

四、準(zhǔn)備fastq格式的測(cè)序文件

公司測(cè)序回來(lái)的文件都有一定的格式嘱根,Illumina測(cè)序儀下機(jī)FASTQ命名類(lèi)似Ery_S1_L004_R2_001.fastq.gz(V2有12個(gè)文件)
比如下圖


image.png

1髓废,最前面Ery是樣本名,和填寫(xiě)測(cè)序單上樣本名一樣该抒。
2慌洪,S后跟的數(shù)字與樣本在sampleSheet中的順序一致,從1開(kāi)始凑保。同一個(gè)樣本名可能對(duì)應(yīng)多個(gè)S冈爹,因?yàn)闀?huì)有一個(gè)樣本有多個(gè)index的情況,在10X單細(xì)胞V2版本的實(shí)驗(yàn)里欧引,一個(gè)樣本就對(duì)應(yīng)4個(gè)index频伤,也就會(huì)依次從S1-S4。
3芝此,L后面表明在那個(gè)line上憋肖。
4,同一個(gè)樣本同一個(gè)index有三個(gè)fastq文件婚苹,I1為index岸更,R1時(shí)barcode和UMI。R2才是測(cè)序read膊升,文件最大怎炊。

五、cellranger對(duì)fastq文件進(jìn)行分析

cellranger有好幾個(gè)命令廓译,最核心的是cellranger count结胀。
cellranger count這個(gè)命令是把fastq文件中的序列比對(duì)到參考轉(zhuǎn)錄組上并產(chǎn)生一個(gè)以.cloupe為結(jié)尾的文件以便在loupe cell browser上分析,同時(shí)會(huì)產(chǎn)生多個(gè)與目前主流分析軟件兼容的文件以便進(jìn)一步分析责循。

cellranger count 
--id=run_count_1kpbmcs \
--fastqs=/mnt/home/user.name/yard/run_cellranger_count/pbmc_1k_v3_fastqs \
--sample=pbmc_1k_v3 \
--transcriptome=/mnt/home/user.name/yard/run_cellranger_count/refdata-cellranger-GRCh38-3.0.0
--nosecondary

說(shuō)明
--id是自己起的糟港,將來(lái)會(huì)生成這個(gè)id名的文件夾,分析結(jié)果統(tǒng)統(tǒng)在里面院仿。
--fastqs是fastq數(shù)據(jù)的具體保存路徑秸抚。
--sample是S1前面那個(gè)樣本名速和。
--transcriptome是reference的路徑
--nosecondary是

六、建立slurm腳本剥汤,運(yùn)行

建立slurm腳本:

#!/bin/bash
#SBATCH --output=cellranger.out
#SBATCH --error=cellranger.err
#SBATCH --mail-type=end
#SBATCH --mail-user=zmeraner@126.com
project=~/singlecell #項(xiàng)目文件夾
cellranger count --id=Li1_cellranger --fastqs=$project/fastq --sample=Li1 --transcriptome=/home/cloudam/reference/refdata-gex-mm10-2020-A 

因?yàn)?0X官網(wǎng)顯示颠放,cellranger的運(yùn)行條件為:

  • 8-core Intel or AMD processor (16 cores recommended)
  • 64GB RAM (128GB recommended)
  • 1TB free disk space
  • 64-bit CentOS/RedHat 7.0 or Ubuntu 14.04; See the [10x Genomics OS Support]
    Note: Cell Ranger v6.1 was the last version that supported CentOS/RedHat 6 or Ubuntu 12.04
    北鯤云服務(wù)器好像硬盤(pán)只有200G,有點(diǎn)兒少吭敢。我的數(shù)據(jù)有36G碰凶。不知道可以運(yùn)行不?
    sinfo命令查看可以選擇的隊(duì)列鹿驼。CPU分區(qū)命名規(guī)則為c-核心數(shù)-每核心內(nèi)存大小欲低,如c-8-4:表示單節(jié)點(diǎn)規(guī)格為8核,每核心有4G內(nèi)存畜晰,即節(jié)點(diǎn)規(guī)格為8核32G砾莱。

image.png

輸入:sbatch -p c-16-4 cellranger.slurm提交作業(yè)
輸入:squeue查看作業(yè)運(yùn)行情況
JOBID:作業(yè)號(hào)。ST:狀態(tài) (R:運(yùn)行中凄鼻;CF:配置中腊瑟;PD:排隊(duì)中)。
提交之后用squeue查看块蚌,先顯示為CF闰非,幾分鐘后顯示為PD,又過(guò)了兩分鐘左右顯示為R峭范。
image.png

運(yùn)行了大約21.5個(gè)小時(shí)之后财松,結(jié)果出來(lái)了。
image.png

Li1_cellranger文件夾下有個(gè)out文件夾虎敦。下載這個(gè)out文件夾到本地電腦游岳,里面的文件很多政敢,有些文件可以進(jìn)行質(zhì)控其徙,有些是可以用cloupe打開(kāi)看分群特征的,有些是可以用做其他分析的輸入文件喷户。
參考教程:https://zhuanlan.zhihu.com/p/390516422?ivk_sa=1024320u
image.png

1唾那,web_summary.html這個(gè)文件打開(kāi)就可以看到這個(gè)樣本的質(zhì)控信息。
2褪尝,cloupe文件可用cloupe軟件打開(kāi)闹获。
3,filtered_feature_bc_matrix文件夾中是過(guò)濾過(guò)后的表達(dá)矩陣河哑,可以對(duì)接searat等后期分析
4避诽,raw_feature_bc_matrix文件夾是未過(guò)濾的,沒(méi)啥用璃谨。
5沙庐,possorted_genome_bam.bam是比對(duì)的bam文件鲤妥,包含每個(gè)reads的,所以這個(gè)文件挺大拱雏。

七棉安、cellranger count結(jié)果解讀之summary

image.png

左上角Sequencing模塊
Number of Reads總reads pair的量
Valid Barcodes是有效的barcode——表示包了beads合格的液滴比率。Valid UMIs是有效的UMI——表示合格的RNA序列比率铸抑。實(shí)驗(yàn)沒(méi)問(wèn)題的話(huà)贡耽,這兩個(gè)參數(shù)都能達(dá)到大于95%以上
Q30的幾個(gè)參數(shù)鹊汛,一般情況都應(yīng)該大于85%蒲赂,說(shuō)明測(cè)序質(zhì)量不錯(cuò)。

右上角cells模塊
Estimated Number of Cells是預(yù)估的細(xì)胞數(shù)柒昏。根據(jù)曲線(xiàn)圖凳宙,上機(jī)每個(gè)樣本都有幾萬(wàn)個(gè)barcode,但是真正包入細(xì)胞的职祷,才能有足夠多的UMI為藍(lán)色部分氏涩,其他都是灰色部分沒(méi)有啥UMI的液滴。
Fraction Reads in Cells表示在確定為cell的barcode中的reads占到總reads的比率有梆,不低于80%才好是尖。低于70%的話(huà),認(rèn)為實(shí)驗(yàn)有問(wèn)題或者數(shù)據(jù)質(zhì)量不好泥耀。
Mean Reads per Cell表示每個(gè)細(xì)胞平均reads饺汹,一般只要在20-30K reads/cell應(yīng)該就夠了。
Median Genes per Cell為每個(gè)細(xì)胞檢測(cè)到的基因數(shù)量的中位數(shù)痰催,大于1000更好兜辞,有利于后面分群。如果小于500認(rèn)為可能不太可靠夸溶。
Total Genes Detected鑒定到的基因總數(shù)逸吵,這個(gè)參數(shù)沒(méi)啥太大意義,和物種細(xì)胞類(lèi)型相關(guān)缝裁,有些細(xì)胞表達(dá)的基因種類(lèi)就是比較少扫皱。有些組織復(fù)雜度高,細(xì)胞種類(lèi)豐富捷绑,那基因種類(lèi)也就多韩脑。常見(jiàn)的在1.2-2萬(wàn)之間。
Sequencing saturation是測(cè)序飽和度粹污,只要在80%以上就完全可以了段多,再高就浪費(fèi)測(cè)序量了,60%-80%就可以了壮吩。

左下角mapping模塊
為比對(duì)到各個(gè)不同位置上的比率进苍。包括全基因組上蕾总,基因間區(qū),外顯子琅捏,內(nèi)含子生百,轉(zhuǎn)錄本區(qū)等。
Reads Mapped Confidently to Genome這個(gè)比對(duì)率一般都能到85%以上柄延。
Reads Mapped Confidently to Exonic Regions應(yīng)該在60%以上蚀浆。

右下角sample模塊
樣本信息,包括名稱(chēng)搜吧,試劑版本市俊,比對(duì)使用的reference,cellranger版本等滤奈。

八摆昧、cellranger count結(jié)果解讀之a(chǎn)nalysisi

1,t-SNE Projection 分群情況
用 t-SNE算法分群的兩個(gè)圖蜒程。每個(gè)點(diǎn)兒代表一個(gè)細(xì)胞绅你。左圖為每個(gè)細(xì)胞中含的UMI數(shù)量。右圖為分群圖昭躺。
2忌锯,Top Features by Cluster (Log2 fold-change, p-value)
按照上圖分群后,不同群之間的差異表達(dá)基因列表领炫。
可以在這個(gè)列表中類(lèi)似excel操作排序偶垮,查看各個(gè)群的基因表達(dá)情況。比如cluster1列中L2FC值越高的基因帝洪,表明cluster1里這些基因比所有其他群的表達(dá)都要多似舵,那么應(yīng)該可以從L2FC高的基因里面找找有沒(méi)有這一群的marker。葱峡。
3砚哗,Sequencing Saturation飽和度評(píng)估圖
和summary里面的Sequencing saturation參數(shù)相對(duì)應(yīng)。
4族沃,Median Genes per Cell
和summary里面Median Genes per Cell參數(shù)也是相對(duì)應(yīng)的频祝。

上兩個(gè)圖都是對(duì)reads抽樣泌参,觀察不同抽樣條件下檢測(cè)到的轉(zhuǎn)錄本數(shù)量占檢測(cè)到的所有轉(zhuǎn)錄本的比例脆淹,并繪制曲線(xiàn)。發(fā)現(xiàn)抽樣越多沽一,飽和度越高盖溺,每個(gè)細(xì)胞基因數(shù)的中位數(shù)也越高。只要飽和度大于80%都是很不錯(cuò)了铣缠。因?yàn)榛揪涂梢源碚麄€(gè)樣本了烘嘱。
下圖我這個(gè)曾經(jīng)做的實(shí)驗(yàn)昆禽,測(cè)的就過(guò)多了,飽和度都到98%了蝇庭。當(dāng)時(shí)預(yù)計(jì)細(xì)胞6000多個(gè)細(xì)胞醉鳖,但實(shí)際上只捕獲到600來(lái)個(gè)細(xì)胞,所以就測(cè)多了哮内,嗚嗚盗棵。


image.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市北发,隨后出現(xiàn)的幾起案子纹因,更是在濱河造成了極大的恐慌,老刑警劉巖琳拨,帶你破解...
    沈念sama閱讀 206,013評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件瞭恰,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡狱庇,警方通過(guò)查閱死者的電腦和手機(jī)惊畏,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)密任,“玉大人陕截,你說(shuō)我怎么就攤上這事∨玻” “怎么了农曲?”我有些...
    開(kāi)封第一講書(shū)人閱讀 152,370評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)驻债。 經(jīng)常有香客問(wèn)我乳规,道長(zhǎng),這世上最難降的妖魔是什么合呐? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,168評(píng)論 1 278
  • 正文 為了忘掉前任暮的,我火速辦了婚禮,結(jié)果婚禮上淌实,老公的妹妹穿的比我還像新娘冻辩。我一直安慰自己,他們只是感情好拆祈,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,153評(píng)論 5 371
  • 文/花漫 我一把揭開(kāi)白布恨闪。 她就那樣靜靜地躺著,像睡著了一般放坏。 火紅的嫁衣襯著肌膚如雪咙咽。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 48,954評(píng)論 1 283
  • 那天淤年,我揣著相機(jī)與錄音钧敞,去河邊找鬼蜡豹。 笑死,一個(gè)胖子當(dāng)著我的面吹牛溉苛,可吹牛的內(nèi)容都是我干的镜廉。 我是一名探鬼主播,決...
    沈念sama閱讀 38,271評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼愚战,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼桨吊!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起凤巨,我...
    開(kāi)封第一講書(shū)人閱讀 36,916評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤视乐,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后敢茁,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體佑淀,經(jīng)...
    沈念sama閱讀 43,382評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,877評(píng)論 2 323
  • 正文 我和宋清朗相戀三年彰檬,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了伸刃。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 37,989評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡逢倍,死狀恐怖捧颅,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情较雕,我是刑警寧澤碉哑,帶...
    沈念sama閱讀 33,624評(píng)論 4 322
  • 正文 年R本政府宣布,位于F島的核電站亮蒋,受9級(jí)特大地震影響扣典,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜慎玖,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,209評(píng)論 3 307
  • 文/蒙蒙 一贮尖、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧趁怔,春花似錦湿硝、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,199評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至任连,卻和暖如春蚤吹,著一層夾襖步出監(jiān)牢的瞬間例诀,已是汗流浹背随抠。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,418評(píng)論 1 260
  • 我被黑心中介騙來(lái)泰國(guó)打工裁着, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人拱她。 一個(gè)月前我還...
    沈念sama閱讀 45,401評(píng)論 2 352
  • 正文 我出身青樓二驰,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親秉沼。 傳聞我的和親對(duì)象是個(gè)殘疾皇子桶雀,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,700評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容