day54單細(xì)胞 cellranger處理Fastq文件

10X文庫(kù)送測(cè)序后，從測(cè)序公司拿到的測(cè)序數(shù)據(jù)是fastq格式的东且，要經(jīng)過(guò)linux上跑cellranger程序，得到表達(dá)矩陣金度，才能做后面的功能分析应媚。這里就是講一下如何跑cellranger。
biomamba沒(méi)有做視頻猜极，但是提供了文字版學(xué)習(xí)資料：?jiǎn)渭?xì)胞分析的最上游——處理Fastq文件：cellranger中姜。鏈接如下：
https://mp.weixin.qq.com/s?__biz=MzAwMzIzOTk5OQ==&mid=2247484923&idx=1&sn=b5876af14fbee68d1e9db4b0f70cd1c8&chksm=9b3f7cabac48f5bdb3aac7d20201d89121a83720b41a10017564fedbb8c4a13df0da92daffd7&scene=21#wechat_redirect

一、下載安裝cellranger

https://support.10xgenomics.com/single-cell-gene-expression/software/downloads/latest
在表格中填寫(xiě)具體信息跟伏。之后會(huì)轉(zhuǎn)到下載界面丢胚。可以直接點(diǎn)擊：Download - Linux 64-bit – 600 MB下載受扳，再上傳到服務(wù)器携龟。也可以在服務(wù)器上直接用curl或者wget命令下載。點(diǎn)擊右下角紅色數(shù)字勘高，也可以下載老版本的cellranger峡蟋。我選擇下載稍微老一些的版本文件名是cellranger-6.1.2.tar。要把這個(gè)文件放到software文件夾下相满，而不是直接就在家目錄下，因?yàn)樽詈靡獙④浖w類(lèi)放置桦卒。

image.png

在服務(wù)器上進(jìn)入到software文件夾下立美，輸入：tar -xzvf cellranger-6.1.2.tar.gz 來(lái)解壓縮。會(huì)生成一個(gè)新的文件夾名為cellranger-6.1.2情萤。

二达传、在北鯤云服務(wù)器里設(shè)置環(huán)境變量棍潘，添加系統(tǒng)路徑

首先通過(guò)WinSCP軟件登錄北鯤云服務(wù)器，用WinSCP比直接從網(wǎng)頁(yè)界面操作要更方便洞慎，因?yàn)?bashrc等隱藏文件，在軟件里可以點(diǎn)擊直接打開(kāi)嘿棘，如同文本一樣操作保存就行劲腿。可是網(wǎng)頁(yè)界面就不能直接打開(kāi)編輯隱藏文件鸟妙。

image.png

在.bashrc文件里面加一句:export PATH=/home/cloudam/software/cellranger-6.1.2:$PATH焦人。之后到家目錄下運(yùn)行：source .bashrc，來(lái)激活環(huán)境重父。

image.png

在任何目錄下花椭，輸入：cellranger，都會(huì)顯示如下界面房午，表明安裝cellranger成功矿辽。

image.png

三、準(zhǔn)備reference

一般常用的就是人和小鼠的，在前面下載cellranger的界面下面就有下載鏈接袋倔。

image.png

下載文件：refdata-gex-GRCh38-2020-A.tar.gz和refdata-gex-mm10-2020-A.tar.gz雕蔽，放到reference文件夾下。
在服務(wù)器進(jìn)入到reference文件夾下解壓就行：tar -xzvf refdata-gex-GRCh38-2020-A.tar.gz 奕污，tar -xzvf refdata-gex-mm10-2020-A.tar.gz萎羔。會(huì)生成相應(yīng)種屬的文件夾，其中包括參考基因組序列碳默、gtf文件以及star的索引文件等贾陷。

四、準(zhǔn)備fastq格式的測(cè)序文件

公司測(cè)序回來(lái)的文件都有一定的格式嘱根，Illumina測(cè)序儀下機(jī)FASTQ命名類(lèi)似Ery_S1_L004_R2_001.fastq.gz(V2有12個(gè)文件）
比如下圖

image.png

1髓废，最前面Ery是樣本名，和填寫(xiě)測(cè)序單上樣本名一樣该抒。
2慌洪，S后跟的數(shù)字與樣本在sampleSheet中的順序一致，從1開(kāi)始凑保。同一個(gè)樣本名可能對(duì)應(yīng)多個(gè)S冈爹，因?yàn)闀?huì)有一個(gè)樣本有多個(gè)index的情況，在10X單細(xì)胞V2版本的實(shí)驗(yàn)里欧引，一個(gè)樣本就對(duì)應(yīng)4個(gè)index频伤，也就會(huì)依次從S1-S4。
3芝此，L后面表明在那個(gè)line上憋肖。
4，同一個(gè)樣本同一個(gè)index有三個(gè)fastq文件婚苹，I1為index岸更，R1時(shí)barcode和UMI。R2才是測(cè)序read膊升，文件最大怎炊。

五、cellranger對(duì)fastq文件進(jìn)行分析

cellranger有好幾個(gè)命令廓译，最核心的是cellranger count结胀。
cellranger count這個(gè)命令是把fastq文件中的序列比對(duì)到參考轉(zhuǎn)錄組上并產(chǎn)生一個(gè)以.cloupe為結(jié)尾的文件以便在loupe cell browser上分析，同時(shí)會(huì)產(chǎn)生多個(gè)與目前主流分析軟件兼容的文件以便進(jìn)一步分析责循。

cellranger count 
--id=run_count_1kpbmcs \
--fastqs=/mnt/home/user.name/yard/run_cellranger_count/pbmc_1k_v3_fastqs \
--sample=pbmc_1k_v3 \
--transcriptome=/mnt/home/user.name/yard/run_cellranger_count/refdata-cellranger-GRCh38-3.0.0
--nosecondary

說(shuō)明
--id是自己起的糟港，將來(lái)會(huì)生成這個(gè)id名的文件夾，分析結(jié)果統(tǒng)統(tǒng)在里面院仿。
--fastqs是fastq數(shù)據(jù)的具體保存路徑秸抚。
--sample是S1前面那個(gè)樣本名速和。
--transcriptome是reference的路徑
--nosecondary是

六、建立slurm腳本剥汤，運(yùn)行

建立slurm腳本：

#!/bin/bash
#SBATCH --output=cellranger.out
#SBATCH --error=cellranger.err
#SBATCH --mail-type=end
#SBATCH --mail-user=zmeraner@126.com
project=~/singlecell #項(xiàng)目文件夾
cellranger count --id=Li1_cellranger --fastqs=$project/fastq --sample=Li1 --transcriptome=/home/cloudam/reference/refdata-gex-mm10-2020-A

因?yàn)?0X官網(wǎng)顯示颠放，cellranger的運(yùn)行條件為：

8-core Intel or AMD processor (16 cores recommended)
64GB RAM (128GB recommended)
1TB free disk space
64-bit CentOS/RedHat 7.0 or Ubuntu 14.04; See the [10x Genomics OS Support]
Note: Cell Ranger v6.1 was the last version that supported CentOS/RedHat 6 or Ubuntu 12.04
北鯤云服務(wù)器好像硬盤(pán)只有200G，有點(diǎn)兒少吭敢。我的數(shù)據(jù)有36G碰凶。不知道可以運(yùn)行不？
用sinfo命令查看可以選擇的隊(duì)列鹿驼。CPU分區(qū)命名規(guī)則為c-核心數(shù)-每核心內(nèi)存大小欲低，如c-8-4：表示單節(jié)點(diǎn)規(guī)格為8核，每核心有4G內(nèi)存畜晰，即節(jié)點(diǎn)規(guī)格為8核32G砾莱。

image.png

輸入：sbatch -p c-16-4 cellranger.slurm提交作業(yè)
輸入：squeue查看作業(yè)運(yùn)行情況
JOBID：作業(yè)號(hào)。ST：狀態(tài) （R：運(yùn)行中凄鼻；CF：配置中腊瑟；PD：排隊(duì)中）。
提交之后用squeue查看块蚌，先顯示為CF闰非，幾分鐘后顯示為PD，又過(guò)了兩分鐘左右顯示為R峭范。

image.png

運(yùn)行了大約21.5個(gè)小時(shí)之后财松，結(jié)果出來(lái)了。

image.png

Li1_cellranger文件夾下有個(gè)out文件夾虎敦。下載這個(gè)out文件夾到本地電腦游岳，里面的文件很多政敢，有些文件可以進(jìn)行質(zhì)控其徙，有些是可以用cloupe打開(kāi)看分群特征的，有些是可以用做其他分析的輸入文件喷户。
參考教程：https://zhuanlan.zhihu.com/p/390516422?ivk_sa=1024320u

image.png

1唾那，web_summary.html這個(gè)文件打開(kāi)就可以看到這個(gè)樣本的質(zhì)控信息。
2褪尝，cloupe文件可用cloupe軟件打開(kāi)闹获。
3，filtered_feature_bc_matrix文件夾中是過(guò)濾過(guò)后的表達(dá)矩陣河哑，可以對(duì)接searat等后期分析
4避诽，raw_feature_bc_matrix文件夾是未過(guò)濾的，沒(méi)啥用璃谨。
5沙庐，possorted_genome_bam.bam是比對(duì)的bam文件鲤妥，包含每個(gè)reads的，所以這個(gè)文件挺大拱雏。

七棉安、cellranger count結(jié)果解讀之summary

image.png

左上角Sequencing模塊
Number of Reads總reads pair的量
Valid Barcodes是有效的barcode——表示包了beads合格的液滴比率。Valid UMIs是有效的UMI——表示合格的RNA序列比率铸抑。實(shí)驗(yàn)沒(méi)問(wèn)題的話(huà)贡耽，這兩個(gè)參數(shù)都能達(dá)到大于95%以上。
Q30的幾個(gè)參數(shù)鹊汛，一般情況都應(yīng)該大于85%蒲赂，說(shuō)明測(cè)序質(zhì)量不錯(cuò)。

右上角cells模塊
Estimated Number of Cells是預(yù)估的細(xì)胞數(shù)柒昏。根據(jù)曲線(xiàn)圖凳宙，上機(jī)每個(gè)樣本都有幾萬(wàn)個(gè)barcode，但是真正包入細(xì)胞的职祷，才能有足夠多的UMI為藍(lán)色部分氏涩，其他都是灰色部分沒(méi)有啥UMI的液滴。
Fraction Reads in Cells表示在確定為cell的barcode中的reads占到總reads的比率有梆，不低于80%才好是尖。低于70%的話(huà)，認(rèn)為實(shí)驗(yàn)有問(wèn)題或者數(shù)據(jù)質(zhì)量不好泥耀。
Mean Reads per Cell表示每個(gè)細(xì)胞平均reads饺汹，一般只要在20-30K reads/cell應(yīng)該就夠了。
Median Genes per Cell為每個(gè)細(xì)胞檢測(cè)到的基因數(shù)量的中位數(shù)痰催，大于1000更好兜辞，有利于后面分群。如果小于500認(rèn)為可能不太可靠夸溶。
Total Genes Detected鑒定到的基因總數(shù)逸吵，這個(gè)參數(shù)沒(méi)啥太大意義，和物種細(xì)胞類(lèi)型相關(guān)缝裁，有些細(xì)胞表達(dá)的基因種類(lèi)就是比較少扫皱。有些組織復(fù)雜度高，細(xì)胞種類(lèi)豐富捷绑，那基因種類(lèi)也就多韩脑。常見(jiàn)的在1.2-2萬(wàn)之間。
Sequencing saturation是測(cè)序飽和度粹污，只要在80%以上就完全可以了段多，再高就浪費(fèi)測(cè)序量了，60%-80%就可以了壮吩。

左下角mapping模塊
為比對(duì)到各個(gè)不同位置上的比率进苍。包括全基因組上蕾总，基因間區(qū)，外顯子琅捏，內(nèi)含子生百，轉(zhuǎn)錄本區(qū)等。
Reads Mapped Confidently to Genome這個(gè)比對(duì)率一般都能到85%以上柄延。
Reads Mapped Confidently to Exonic Regions應(yīng)該在60%以上蚀浆。

右下角sample模塊
樣本信息，包括名稱(chēng)搜吧，試劑版本市俊，比對(duì)使用的reference，cellranger版本等滤奈。

八摆昧、cellranger count結(jié)果解讀之a(chǎn)nalysisi

1，t-SNE Projection 分群情況
用 t-SNE算法分群的兩個(gè)圖蜒程。每個(gè)點(diǎn)兒代表一個(gè)細(xì)胞绅你。左圖為每個(gè)細(xì)胞中含的UMI數(shù)量。右圖為分群圖昭躺。
2忌锯，Top Features by Cluster (Log2 fold-change, p-value)
按照上圖分群后，不同群之間的差異表達(dá)基因列表领炫。
可以在這個(gè)列表中類(lèi)似excel操作排序偶垮，查看各個(gè)群的基因表達(dá)情況。比如cluster1列中L2FC值越高的基因帝洪，表明cluster1里這些基因比所有其他群的表達(dá)都要多似舵，那么應(yīng)該可以從L2FC高的基因里面找找有沒(méi)有這一群的marker。葱峡。
3砚哗，Sequencing Saturation飽和度評(píng)估圖
和summary里面的Sequencing saturation參數(shù)相對(duì)應(yīng)。
4族沃，Median Genes per Cell
和summary里面Median Genes per Cell參數(shù)也是相對(duì)應(yīng)的频祝。

上兩個(gè)圖都是對(duì)reads抽樣泌参，觀察不同抽樣條件下檢測(cè)到的轉(zhuǎn)錄本數(shù)量占檢測(cè)到的所有轉(zhuǎn)錄本的比例脆淹，并繪制曲線(xiàn)。發(fā)現(xiàn)抽樣越多沽一，飽和度越高盖溺，每個(gè)細(xì)胞基因數(shù)的中位數(shù)也越高。只要飽和度大于80%都是很不錯(cuò)了铣缠。因?yàn)榛揪涂梢源碚麄€(gè)樣本了烘嘱。
下圖我這個(gè)曾經(jīng)做的實(shí)驗(yàn)昆禽，測(cè)的就過(guò)多了，飽和度都到98%了蝇庭。當(dāng)時(shí)預(yù)計(jì)細(xì)胞6000多個(gè)細(xì)胞醉鳖，但實(shí)際上只捕獲到600來(lái)個(gè)細(xì)胞，所以就測(cè)多了哮内，嗚嗚盗棵。

image.png

最后編輯于：2022.10.12 18:58:24

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市北发，隨后出現(xiàn)的幾起案子纹因，更是在濱河造成了極大的恐慌，老刑警劉巖琳拨，帶你破解...
沈念sama閱讀 206,013評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件瞭恰，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡狱庇，警方通過(guò)查閱死者的電腦和手機(jī)惊畏，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,205評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)密任，“玉大人陕截，你說(shuō)我怎么就攤上這事∨玻” “怎么了农曲？”我有些...
開(kāi)封第一講書(shū)人閱讀 152,370評(píng)論 0贊 342
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)驻债。經(jīng)常有香客問(wèn)我乳规，道長(zhǎng)，這世上最難降的妖魔是什么合呐？我笑而不...
開(kāi)封第一講書(shū)人閱讀 55,168評(píng)論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任暮的，我火速辦了婚禮，結(jié)果婚禮上淌实，老公的妹妹穿的比我還像新娘冻辩。我一直安慰自己，他們只是感情好拆祈，可當(dāng)我...
茶點(diǎn)故事閱讀 64,153評(píng)論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布恨闪。她就那樣靜靜地躺著，像睡著了一般放坏。火紅的嫁衣襯著肌膚如雪咙咽。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書(shū)人閱讀 48,954評(píng)論 1贊 283
城市分裂傳說(shuō)
那天淤年，我揣著相機(jī)與錄音钧敞，去河邊找鬼蜡豹。笑死，一個(gè)胖子當(dāng)著我的面吹牛溉苛，可吹牛的內(nèi)容都是我干的镜廉。我是一名探鬼主播，決...
沈念sama閱讀 38,271評(píng)論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼愚战，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼桨吊！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起凤巨，我...
開(kāi)封第一講書(shū)人閱讀 36,916評(píng)論 0贊 259
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤视乐，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后敢茁，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體佑淀，經(jīng)...
沈念sama閱讀 43,382評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,877評(píng)論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年彰檬，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了伸刃。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 37,989評(píng)論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡逢倍，死狀恐怖捧颅，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情较雕，我是刑警寧澤碉哑，帶...
沈念sama閱讀 33,624評(píng)論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站亮蒋，受9級(jí)特大地震影響扣典，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜慎玖，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,209評(píng)論 3贊 307
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一贮尖、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧趁怔，春花似錦湿硝、人聲如沸。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 30,199評(píng)論 0贊 19
一樁弒父案关斜，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至任连，卻和暖如春蚤吹，著一層夾襖步出監(jiān)牢的瞬間例诀，已是汗流浹背随抠。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 31,418評(píng)論 1贊 260
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工裁着，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人拱她。一個(gè)月前我還...
沈念sama閱讀 45,401評(píng)論 2贊 352
代替公主和親
正文我出身青樓二驰，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親秉沼。傳聞我的和親對(duì)象是個(gè)殘疾皇子桶雀，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,700評(píng)論 2贊 345

day54單細(xì)胞 cellranger處理Fastq文件

一、下載安裝cellranger

二达传、在北鯤云服務(wù)器里設(shè)置環(huán)境變量棍潘，添加系統(tǒng)路徑

三、準(zhǔn)備reference

四、準(zhǔn)備fastq格式的測(cè)序文件

五、cellranger對(duì)fastq文件進(jìn)行分析

六、建立slurm腳本剥汤，運(yùn)行

七棉安、cellranger count結(jié)果解讀之summary

八摆昧、cellranger count結(jié)果解讀之a(chǎn)nalysisi

推薦閱讀更多精彩內(nèi)容