背景:使用10x的cellranger-arc實現(xiàn)10x單細胞ATAC和單細胞RNA的上游分析敞贡。
為什么做單細胞ATAC分析
單細胞轉(zhuǎn)錄組是單細胞技術(shù)中較為常用的方法洪乍,它分析的是單個細胞的mRNA轉(zhuǎn)錄信息拢锹,缺乏上游調(diào)控信息拆讯。由中心法則可以知道,生物發(fā)生的過程卡骂,從基因組勾拉、RNA轉(zhuǎn)錄到蛋白質(zhì)翻譯中任何差異都可能是細胞類型差異的原因煮甥。
ATAC是染色質(zhì)開放性的意思盗温,染色質(zhì)開放性屬于基因組表觀修飾,也就是作用在中心法則中的基因組上成肘,因此它是轉(zhuǎn)錄組的上游調(diào)控信息卖局。從單細胞轉(zhuǎn)錄組的差異分析中,可以得到不同細胞類型的基因的轉(zhuǎn)錄組表達差異双霍,那么往上游去探索砚偶,可以了解不同細胞類型的染色質(zhì)開放性差異,其中最關(guān)鍵的是其與轉(zhuǎn)錄因子TF相關(guān)洒闸。
轉(zhuǎn)錄因子是一類可以調(diào)控基因表達的特殊蛋白質(zhì)染坯,在基因組上,它要與基因位點結(jié)合需要滿足一定的條件:
1.對應(yīng)的DNA區(qū)域有特點的結(jié)合位點——也就是常說的motif(ATAC分析可以關(guān)聯(lián))
2.對應(yīng)的DNA區(qū)域?qū)儆陂_放狀態(tài)——那么就是ATAC10x cellranger-arc
軟件安裝:
10x官網(wǎng):Overview -Software -Single Cell Multiome ATAC + Gene Exp
對于單獨的ATAC數(shù)據(jù)其實是cellranger-atac丘逸,而這里的cellranger-arc是多組學(xué)對應(yīng)單細胞ATAC和單細胞轉(zhuǎn)錄組单鹿。
下載cellranger-arc:
wget -O cellranger-arc-2.0.2.tar.gz "https://cf.10xgenomics.com/releases/cell-arc/cellranger-arc-2.0.2.tar.gz?Expires=1703258168&Policy=eyJTdGF0ZW1lbnQiOlt7IlJlc291cmNlIjoiaHR0cHM6Ly9jZi4xMHhnZW5vbWljcy5jb20vcmVsZWFzZXMvY2VsbC1hcmMvY2VsbHJhbmdlci1hcmMtMi4wLjIudGFyLmd6IiwiQ29uZGl0aW9uIjp7IkRhdGVMZXNzVGhhbiI6eyJBV1M6RXBvY2hUaW1lIjoxNzAzMjU4MTY4fX19XX0_&Signature=QUDqivAjffP26fWZfgzhAxg0Y5vZpzVdJ4i77qRDg8X0peWAEmP8zkHmVMmkCMyMtD5iWJgbcnr6pNTrLpBEgqnWo1Fh13iciHm2mPj3SZp2Mc-1FCSuLL9H29QjOPs1foSINl5cCroXVFL0OjxWF5JvZaScVFu1JcySD0eZzZBwtoE1-UnO38jQENfl~-2yFU~0bTgQV0KLE4XCVRovBipb7TPAvtiq7GZjN~Ut4MZ6j-NTJ-N~OHcia34zUilc~rv2bVJie2AqKkzhKFo2ti-kngiI2h16rgzaOEsrP5fS-nuW7ETy9m1rrmW7IhcKX3fBXj5J-mI~1hO71nPQaQ__&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA"
下載人類CRGh38參考基因組:
wget https://cf.10xgenomics.com/supp/cell-arc/refdata-cellranger-arc-GRCh38-2020-A-2.0.0.tar.gz
下載小鼠mm10參考基因組:
wget https://cf.10xgenomics.com/supp/cell-arc/refdata-cellranger-arc-mm10-2020-A-2.0.0.tar.gz
解壓命令:
tar -zxvf 以上帶解壓文件夾.tar.gz
將cellranger-arc所在目錄寫入到系統(tǒng)環(huán)境中:
export PATH=/自己的cellranger的絕對路徑/cellranger-arc-2.0.2:$PATH
寫入bashrc:
echo "PATH=/自己的cellranger的絕對路徑/cellranger-arc-2.0.2:\$PATH" >> ~/.bashrc
source ~/.bashrc
測試cellranger-arc運行環(huán)境:
cd 某個工作路徑
cellranger-arc sitecheck > sitecheck.txt
配置成功:
數(shù)據(jù)下載:
mkdir 00.database && cd 00.database
vim download.sh
wget https://cf.10xgenomics.com/supp/cell-arc/cellranger-arc-tiny-bcl-atac-1.0.0.tar.gz
wget https://cf.10xgenomics.com/supp/cell-arc/cellranger-arc-tiny-bcl-gex-1.0.0.tar.gz
wget https://cf.10xgenomics.com/supp/cell-arc/cellranger-arc-tiny-bcl-atac-simple-1.0.0.csv
wget https://cf.10xgenomics.com/supp/cell-arc/cellranger-arc-tiny-bcl-gex-simple-1.0.0.csv
wget https://cf.10xgenomics.com/supp/cell-arc/cellranger-arc-tiny-bcl-atac-samplesheet-1.0.0.csv
wget https://cf.10xgenomics.com/supp/cell-arc/cellranger-arc-tiny-bcl-gex-samplesheet-1.0.0.csv
投遞任務(wù)下載:nohup bash download.sh >download.sh.o 2>download.sh.e &
查看示例數(shù)據(jù):
解壓文件:
tar -zxvf 需要解壓的文件.tar.gz
可以看見,示例文件即有基因表達文件*-gex-*鸣个,也有atac文件*-atac-*。這是因為:
cellranger-arc需要多組學(xué)數(shù)據(jù)布朦,也就是同一批次的樣本囤萤,一部分用于單細胞轉(zhuǎn)錄組建庫,一部分用于單細胞ATAC建庫是趴。
- cellranger-arc mkfastq
從原始bcl文件生成fastq文件:
cellranger-arc mkfastq --id=tiny-bcl-atac \
--run=/home/yanyt/02.data/10.cellranger_arc_test/01.example_data/01.database/cellranger-arc-tiny-bcl-atac-1.0.0 \
--csv=/home/yanyt/02.data/10.cellranger_arc_test/01.example_data/01.database/cellranger-arc-tiny-bcl-atac-simple-1.0.0.csv
生成與id參數(shù)中一樣名字的文件夾:
cd tiny-bcl-atac && tree
生成表達量exp的fastq文件:
cellranger-arc mkfastq --id=tiny-bcl-gex \
--run=/home/yanyt/02.data/10.cellranger_arc_test/01.example_data/01.database/cellranger-arc-tiny-bcl-gex-1.0.0 \
--csv=/home/yanyt/02.data/10.cellranger_arc_test/01.example_data/01.database/cellranger-arc-tiny-bcl-gex-simple-1.0.0.csv
生成與id一樣名字的文件cd tiny-bcl-gex && tree
-
cellranger-arc count
構(gòu)建文庫信息文件:
三列信息涛舍,分別是上一步生成的fastq文件路徑,樣本名字唆途,基因表達或者染色質(zhì)可及標(biāo)簽富雅。
生成矩陣:
cellranger-arc count --id=test_sample \
--reference=/home/guoyuh/biosoft/refdata-cellranger-arc-GRCh38-2020-A-2.0.0 \
--libraries=libraries.csv \
--localcores=16 \
--localmem=64
此測試數(shù)據(jù)集存在bug,這一步?jīng)]有跑通肛搬。
不過如果運行成功没佑,生成的文件將可用于下游分析。
單細胞轉(zhuǎn)錄組下游分析常用Seurat或者scanpy流程温赔;
單細胞ATAC下游分析常用Signac或者ARCHR流程蛤奢。
總結(jié):以上基于初學(xué)者的理解也許會存在錯誤。