今天是2019月12月3日,10X空間轉錄組的新流程發(fā)布了,比起安裝舊版的ST Spatial系列好裝了太多太多愕秫。。燃箭。
跟以前各個系列的Cell Ranger一樣,可以生成FASTQ和計數(shù)矩陣舍败,還能自動進行二級分析招狸,操作和生成的目錄文件結構跟以前都很相似碗硬,可以說比較容易上手。
舊號無故被封瓢颅,小號再發(fā)一次
更多空間轉錄組文章:
1. 新版10X Visium
- 【10X空間轉錄組Visium】(一)Space Ranger 1.0.0(更新于20191205)
- 【10X空間轉錄組Visium】(二)Loupe Browser 4.0.0
- 【10X空間轉錄組Visium】(三)跑通Visium全流程記錄
- 【10X空間轉錄組Visium】(四)R下游分析的探索性代碼示例
- 【10X空間轉錄組Visium】(五)Visium原理恩尾、流程與產(chǎn)品
- 【10X空間轉錄組Visium】(六)新版Seurat v3.2分析Visium空間轉錄組結果的代碼實操
- 【10X空間轉錄組Visium】(七)思考新版Seurat V3.2作者在Github給予的回答
2. 舊版Sptial
- 【舊版空間轉錄組Spatial】(一)ST Spot Detector使用指南
- 【舊版空間轉錄組Spatial】(二)跑通流程試驗記錄
- 【舊版空間轉錄組Spatial】(三)ST Spot Detector實操記錄
主要參考官網(wǎng):https://support.10xgenomics.com/spatial-gene-expression/software/pipelines/latest/what-is-space-ranger
總共要下載兩個東西:Space Ranger - 1.0.0
(November 25, 2019) 和 Loupe Browser 4.0.0
(December 2, 2019)
Space Ranger
Space Ranger包括與空間基因表達實驗有關的兩條管道:
- spacerangeranger mkfastq包裝了Illumina的bcl2fastq,解復用挽懦,并轉換barcode和read data為FASTQ
-
spaceranger count從
spaceranger mkfastq
中獲取明場切片圖像和FASTQ文件翰意,并執(zhí)行對齊,組織檢測信柿,基準檢測和條形碼/ UMI計數(shù)冀偶。該管道使用Visium空間條形碼生成特征點矩陣 feature-spot matrices,確定聚類并執(zhí)行基因表達分析渔嚷。
這些管道將Visium專用算法與廣泛使用的RNA序列比對軟件STAR相結合进鸠。輸出以標準BAM,MEX形病,CSV客年,HDF5,TIFF漠吻,PNG量瓜,JPEG和HTML格式提供,并增加了空間信息途乃。
Visium-specific 術語
- 對齊文件alignment file - 使用手動對齊和手動組織檢測時绍傲,使用 Loupe Browser生成的文件 。
- 區(qū)域(或捕獲區(qū)域)-可以將組織放置在Visium玻片上的四個活動區(qū)域之一耍共。每個區(qū)域僅包含一個組織樣本烫饼。玻片區(qū)域從上到下依次命名:A1,B1试读,C1杠纵,D1。
-
明場brighfield圖像:組織的光學顯微鏡圖像鹏往。在Visium實驗中淡诗,明場圖像用作解剖參考骇塘。這些圖像通常用蘇木精和曙紅染色以突出組織結構(請參見下面的H&E染色)伊履。
- 捕獲點 -這些是載玻片上的不可見點,其中包含用于捕獲poly-adenylated mRNA的特殊寡核苷酸款违。
- 基準點fiducial spots:圍繞每個捕獲區(qū)域的帶有特殊圖案的點的框架唐瀑。這些斑點可幫助樣本顯微學家查看放置組織的位置,Space Ranger還可使用這些斑點來確定圖像中捕獲區(qū)域的位置插爹。
- 字形glyphs-捕獲區(qū)域每個角上的基準點的子集哄辣,這些基準點具有易于識別的形狀:沙漏请梢,三角形,空心六邊形力穗,實心六邊形毅弧。
- H&E染色:-將蘇木精和曙紅施用于組織以突出組織結構的過程。蘇木精使細胞核呈藍色当窗,曙紅使細胞質(zhì)和細胞外基質(zhì)呈粉紅色够坐。
- 樣本 -應用于Visium玻片上單個區(qū)域或由此得出的數(shù)據(jù)的單個組織切片。
- 玻片序列號slide serial number -每個Visium玻片標簽上印刷的唯一標識符崖面。序列號以“ V1”開頭元咙,并以短劃線和三位數(shù)字結尾,例如123巫员。
- 雙重索引dual indexing -一種通過使用兩個寡核苷酸序列對同一流動池flowcell上的多個樣品進行測序的策略庶香,一個寡核苷酸序列連接到要測序的每個片段的任一末端,以便唯一地識別樣品简识。Visium庫構造僅使用此雙索引策略支持多路復用樣本赶掖。請參閱下面的樣本索引。
- 庫(或測序庫)-從單個載玻片區(qū)域制備的Visium空間條形碼測序庫七扰。
- 樣本索引 -用于文庫構建的寡核苷酸序列倘零,用于區(qū)分在同一流通池上測序的多個樣本。On the Illumina platform, these sequences are read out as separate "index reads" and reads are sorted into sample-specific files using mkfastq. The Visium library construction supports only "dual-indexing" (see above).Visium庫的構造僅支持“雙重索引”(請參見上文)戳寸。
- sequencing run (or flowcell):一次測序儀器運行的輸出數(shù)據(jù)呈驶,包括Illumina BCL文件∫呷担可以按泳道或樣本索引對數(shù)據(jù)進行多路分解袖瞻。有關解復用的更多信息,請參見 mkfastq拆吆。
系統(tǒng)要求
Space Ranger管道在滿足以下最低要求的Linux系統(tǒng)上運行:
- 8核Intel或AMD處理器(建議使用32核)
- 64GB RAM(建議128GB)
- 1TB可用磁盤空間
- 64位CentOS / RedHat 6.0或Ubuntu 12.04
為了在集群模式下運行聋迎,集群需要滿足以下附加最低要求:
- 每個節(jié)點 8核Intel或AMD處理器
- 每個內(nèi)核 6GB RAM
- 共享文件系統(tǒng)(例如NFS)
- SGE或LSF批處理計劃系統(tǒng)
下載Space Ranger - 1.0.0
curl -o spaceranger-1.0.0.tar.gz "http://cf.10xgenomics.com/releases/spatial-exp/spaceranger-1.0.0.tar.gz?Expires=1575402715&Policy=eyJTdGF0ZW1lbnQiOlt7IlJlc291cmNlIjoiaHR0cDovL2NmLjEweGdlbm9taWNzLmNvbS9yZWxlYXNlcy9zcGF0aWFsLWV4cC9zcGFjZXJhbmdlci0xLjAuMC50YXIuZ3oiLCJDb25kaXRpb24iOnsiRGF0ZUxlc3NUaGFuIjp7IkFXUzpFcG9jaFRpbWUiOjE1NzU0MDI3MTV9fX1dfQ__&Signature=fACB1rzbHv1rwUicNqL8SheRe6FkFOKxow5cTXcZPfOPBOTBEplElFMnOi4Xv4A2X3kydX45B-JnIaRj7I6a2doGEMTyqv84BnM5LxHAVBtWrXJyQqXbKKtgl9Dxe4BDnM9rPKhs6o2UbmWWAHX8Xu4J3~vgP3yXbhovuyl6OqCxu5p82oxTeOfN0bONqZdZ33svlAXJhatUTdpse2YCSRJZzov69NSHF6gE5DXl6iu5RWU7AgnjFgCuEFkQMwyn-FoYi2~i0s2fOFK0RCVI07~YKNDsjz3eXgOoHjWGPtWw5DAbPpTB2~32xkGzYeIYeZjH6m5JEgNGuvfWEyj~Aw__&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA"
下載參考序列:
- GRCh38 Reference - 3.0.0 (November 19, 2018)
curl -O http://cf.10xgenomics.com/supp/spatial-exp/refdata-cellranger-GRCh38-3.0.0.tar.gz
- mm10 Reference - 3.0.0 (November 19, 2018)
curl -O http://cf.10xgenomics.com/supp/spatial-exp/refdata-cellranger-mm10-3.0.0.tar.gz
安裝Space Ranger
$ tar -xzvf spaceranger-1.0.0.tar.gz
vi ~/.bashrc # 填入 export PATH=/opt/spaceranger-1.0.0:$PATH
source ~/.bashrc
驗證安裝:
$ spaceranger testrun --id=tiny
無論測試管道成功與否,您都會看到:
Saving diagnostics to tiny/tiny.mri.tgz
此tiny.mri.tgz文件包含10x診斷信息枣耀,可以肥腸方便地用一下命令發(fā)給10X霉晕,讓他們幫你解決問題:
$ spaceranger upload your@email.edu tiny/tiny.mri.tgz
服務器沒連網(wǎng)發(fā)郵箱support@10xgenomics.com
解壓reference
tar -xzvf refdata-cellranger-GRCh38-3.0.0.tar.gz
運行Space Ranger
根據(jù)性能曲線圖,CPU限制在32個核心捞奕,內(nèi)存限制在128G
https://support.10xgenomics.com/spatial-gene-expression/software/overview/system-requirements
3種運行方式:
- 單服務器:這是最直接的方法牺堰,也是最簡單的故障排除方法。
- 作業(yè)提交模式
- 群集模式:此方法可提供高性能颅围,但由于群集設置因機構而異伟葫,因此很難進行故障排除。
單服務器運行方案:
默認院促, spaceranger使用所有可用的內(nèi)核和90%的檢測到的內(nèi)存筏养。在具有多個并發(fā)用戶和任務的共享環(huán)境中斧抱,此行為可能是不希望的。強烈建議運行spaceranger 與 --localcores 和 --localmem指定資源使用上限渐溶。
一辉浦、運行spaceranger mkfastq
輸入文件建議:
1. Sequencing - Read 2 Length:
- 由于“索引跳躍”,Space Ranger要求使用“雙重索引”dual-indexing,茎辐,在該索引中盏浙,使用i7和i5樣本索引生成了復用庫。
- 在我們的實驗中荔茬,使用91個堿基的R2長度可獲得最佳的作圖速率废膘,從而獲得靈敏度,而對于較短或較長的讀取慕蔚,最佳性能則較低丐黄。
- 如果您已使用91個以上的堿基進行測序,則Space Ranger可以根據(jù)需要調(diào)整數(shù)據(jù)孔飒,從而為您的樣品找到最佳選擇:查看--r2-length
選項 spaceranger count
- 如果您對較短的讀長進行了測序灌闺,則分析仍然可以進行,但靈敏度可能會降低坏瞄。
2. 圖像輸入建議:
Visium使用的所有輸入組織圖像必須是24位彩色TIFF桂对,16位灰度TIFF或JPEG。除了Loupe瀏覽器和Space Ranger的這些基本文件類型要求之外鸠匀,Space Ranger中的自動圖像處理管道還施加了以下概述的其他限制蕉斜。如果不能滿足這些限制,您仍然可以使用Loupe Browser中的手動對齊和組織選擇過程來處理數(shù)據(jù)缀棍。
-
正確的圖像方向
需要在Space Ranger中進行自動處理的圖像宅此,其方向必須使沙漏形狀的點點位于圖像的左上角。圖像應大致與軸對齊爬范,盡管輕微旋轉(例如父腕,小于15度)應該可以。
-
正確圖像大小Correct Sizing
將輸入圖像降采樣為兩個維度中的像素均不大于2000像素青瀑,下采樣不會影響使用全分辨率輸入圖像的Loupe Browser中的可視化璧亮。建議裁剪圖像以去除基準邊界外的多余圖像區(qū)域
-
適當?shù)钠毓舛?/p>
spaceranger mkfastq生成FASTQs
工作流程:
- 將10x樣本索引名稱翻譯為i7 / i5雙索引中的相應寡核苷酸。例如斥难,樣品表中的A1孔可以指定為SI-TT-A1枝嘶,并且spaceranger mkfastq會將i7和i5索引分別識別為GTAACATGCG和AGTGTTACCT。
- 支持簡化的CSV樣本表格式蘸炸,以處理10個用例躬络。
- 生成測序和特定于10X的質(zhì)量控制指標,包括條形碼質(zhì)量搭儒,準確性和多樣性穷当。
- 支持大多數(shù)bcl2fastq參數(shù),例如
--use-bases-mask
工作流程示例
在此示例中淹禾,有兩個10x庫(每個庫均通過單獨的捕獲區(qū)域處理)在單個流通池上多路復用馁菜。注意spaceranger mkfastq
運行,我們在每個文庫上運行管道的單獨實例铃岔。
在此示例中汪疮,一個10x庫在兩個流通池上測序。注意spaceranger mkfastq
運行毁习,我們在生成的所有FASTQ文件上運行管道的單個實例智嚷。
運行示例數(shù)據(jù)
spaceranger mkfastq可以識別兩種用于描述樣本的文件格式:一種簡單的三列CSV格式,以及所使用的Illumina實驗管理器(IEM)樣本表格式bcl2fastq
要繼續(xù)纺且,請執(zhí)行以下操作:
- 下載tiny-bcl tar文件盏道。
- 將tiny-bcl tar文件解壓縮到方便的位置。這將創(chuàng)建一個新的
tiny-bcl
子目錄载碌。 - 下載簡單的CSV布局文件:spaceranger-tiny-bcl-simple-1.0.0.csv猜嘱。
- 下載Illumina實驗管理器樣本表:spaceranger-tiny-bcl-samplesheet-1.0.0.csv。
- 簡單的CSV示例表運行mkfastq
對于大多數(shù)測序實驗嫁艇,建議使用簡單的csv樣本表朗伶。簡單的csv格式只有三列(通道,樣本步咪,索引)论皆,因此不太容易出現(xiàn)格式錯誤。您可以在中看到一個示例spaceranger-tiny-bcl-simple-1.0.0.csv:
Lane,Sample,Index
1,test_sample,SI-TT-D9
使用簡單布局mkfastq在tiny-bcl
測序運行中運行的方法:
如果未按樣本索引測序猾漫,則需要使用此格式纯丸。spaceranger-tiny-bcl-samplesheet-1.0.0.csv在運行管道之前簡要查看一下。
$ spaceranger mkfastq --id=tiny-bcl \
--run=/path/to/tiny_bcl \
--csv=spaceranger-tiny-bcl-simple-1.0.0.csv
其中:
- run
(必需) Illumina BCL運行文件夾的路徑静袖。
- id
(可選觉鼻;默認為所引用的流通池的名稱--run) mkfastq創(chuàng)建的文件夾的名稱。
--csv
(可選)具有泳道队橙,樣本和索引列的簡單CSV路徑坠陈,描述了對流通池進行解復用的方式。索引列應包含10X樣本雙索引名稱(例如捐康,SI-TT-A12)仇矾。這是Illumina IEM樣本表的替代方法,如果--samplesheet
指定則將被忽略解总。
- 使用Illumina Experiment Manager示例表運行mkfastq
數(shù)據(jù)樣式:
[Data]
Lane,Sample_ID,Sample_Name,Sample_Plate,Sample_Well,I7_Index_ID,index,I5_Index_ID,index2,Sample_Project,Description
1,s1,test_sample,,,SI-TT-D9,SI-TT-D9,SI-TT-D9,SI-TT-D9,p1,
SI-TT-D9指的是10X樣本雙索引贮匕。
在此示例中,將僅使用從通道1讀取花枫。要在所有泳道上多路分解給定的樣本索引刻盐,請完全省略泳道列掏膏。
$ spaceranger mkfastq --id = tiny-bcl \
--run = / path / to / tiny_bcl \
--samplesheet = spaceranger-tiny-bcl-samplesheet-1.0.0.csv
檢查FASTQ輸出
結果文件夾名字由--id
決定
$ ls -l
drwxr-xr-x 4 jdoe jdoe 4096 Nov 14 12:05 tiny-bcl
關鍵輸出文件可在中找到outs/fastq_path,并以與常規(guī)bcl2fastq運行相同的方式進行組織:
$ ls -l tiny-bcl/outs/fastq_path/
讀取質(zhì)量控制指標
--qc
指定該標志后敦锌,spaceranger mkfastq管道會將測序和10x特定的質(zhì)量控制指標寫入JSON文件馒疹。指標位于outs/qc_summary.json
文件中。
通過查看此輸出乙墙,您可以在運行spaceranger管道之前診斷低條形碼映射率和reads質(zhì)量
指定10x管道的輸入FASTQ文件
spaceranger count
管道需要FASTQ文件作為輸入颖变,通常來自運行spaceranger mkfastq
,但是,可以使用其他來源的FASTQ文件听想,例如Illumina的 bcl2fastq
腥刹,已發(fā)布的數(shù)據(jù)集或我們的 bamtofastq
二、運行spaceranger count
spaceranger count
管道的參數(shù):
參數(shù) | 描述 |
---|---|
fastqs | (必需)包含要分析的FASTQ文件的文件夾汉买。通常衔峰,這是spaceranger mkfastq 產(chǎn)生的fastq_path 文件夾。如果文件位于多個文件夾中(例如录别,由于一個庫在多個流通池中測序)朽色,請?zhí)峁┮远禾柗指舻穆窂搅斜怼?/td>
|
sample | (可選)要分析的樣品名稱。這是提供給mkfastq 或 bcl2fastq的sample sheet组题。多個名稱可以用逗號分隔的列表提供葫男,在這種情況下,它們被視為一個樣本崔列。 |
lanes | (可選)與此樣本關聯(lián)的通道梢褐。默認為所有通道。 |
indices | (已棄用/可選赵讯。僅用于從 spaceranger demux 盈咳。)與該樣本關聯(lián)的樣本索引。 |
Fastq文件輸出目錄
https://support.10xgenomics.com/spatial-gene-expression/software/pipelines/latest/using/fastq-input
用spacerange count進行單庫分析
- 運行
spaceranger mkfastq
在Illumina BCL輸出文件夾中边翼,以生成FASTQ文件鱼响。 - 運行
spaceranger count
,通過spaceranger mkfastq
在每個的捕獲區(qū)域上進行demultiplexed
對于以下示例组底,假定Illumina BCL輸出在名為的文件夾中/sequencing/140101_D00123_0111_AHAWT7ADXX
丈积。
- Run spaceranger mkfastq
生成FASTQ文件。例如债鸡,如果流通池序列號為 HAWT7ADXX江滨,則spaceranger mkfastq將在HAWT7ADXX/outs/fastq_path
中輸出FASTQ文件。 - Run spaceranger count
自動對齊:
要使用自動基準對齊和組織檢測為單個庫生成空間特征計數(shù) spatial feature counts
$ cd /home/jdoe/runs
$ spaceranger count --id=sample345 \
--transcriptome=/opt/refdata/GRCh38-3.0.0 \
--fastqs=/home/jdoe/runs/HAWT7ADXX/outs/fastq_path \
--sample=mysample \
--image=/home/jdoe/runs/images/sample345.tif \
--slide=V19J01-123 \
--area=A1
手動對齊:
使用在Loupe Browse中生成的基準對齊和組織分配 json文件為單個庫生成空間特征計數(shù)
$ cd /home/jdoe/runs
$ spaceranger count --id=sample345 \
--transcriptome=/opt/refdata/GRCh38-3.0.0 \
--fastqs=/home/jdoe/runs/HAWT7ADXX/outs/fastq_path \
--sample=mysample \
--image=/home/jdoe/runs/images/sample345.tif \
--slide=V19J01-123 \
--area=A1 \
--loupe-alignment=sample345.json
spaceranger將默認使用系統(tǒng)上可用的所有核心數(shù)來執(zhí)行管道厌均。您可以為
--localcores
選項指定不同數(shù)量的核新數(shù)唬滑。--localmem
限制使用的內(nèi)存量(以GB為單位)
管道將創(chuàng)建一個新文件夾,其名稱為輸出指定的sample ID(例如/home/jdoe/runs/sample345)。如果此文件夾已經(jīng)存在晶密,spaceranger 將假定它是已存在的管道擒悬,并嘗試恢復運行。
Slide序列號和捕獲區(qū)域參數(shù):
-
spaceranger count
管道接受slide serial和 capture area參數(shù)惹挟,以便用最精確的基準和坐標點一個實驗茄螃。將此信息傳遞給的最簡單方法spaceranger count是通過--slide和--area參數(shù)缝驳。 - 當
--slide
指定连锯,該管道將下載與所提供的序列號相關聯(lián)的布局文件。 - 如果spaceranger在無法訪問外部Internet的環(huán)境中運行用狱,請按照以下說明進行操作运怖,以便在本地下載slide文件。
- 不知道與實驗相關的序列號或捕獲區(qū)域:運行:
spaceranger
的--unknown-slide
選項夏伊。指定后摇展,spaceranger 將對點坐標和基準坐標使用默認布局文件。默認布局和特定載玻片之間相應點的差異在10微米以下溺忧。
下載slide文件以進行本地操作(沒有網(wǎng)的情況下):
管道將需要通過--slidefile
參數(shù)使用Visium slide的布局文件 咏连。您可以在下面下載Visium slide的布局文件。輸入slide的序列號(例如 V19S01-123)鲁森,然后按“下載”祟滴。
https://support.10xgenomics.com/spatial-gene-expression/software/pipelines/latest/using/count
輸出文件
成功運行后的輸出:
Outputs:
- Run summary HTML: /opt/sample345/outs/web_summary.html
- Outputs of spatial pipeline: /opt/sample345/outs/spatial
- Run summary CSV: /opt/sample345/outs/metrics_summary.csv
- BAM: /opt/sample345/outs/possorted_genome_bam.bam
- BAM index: /opt/sample345/outs/possorted_genome_bam.bam.bai
- Filtered feature-barcode matrices MEX: /opt/sample345/outs/filtered_feature_bc_matrix
- Filtered feature-barcode matrices HDF5: /opt/sample345/outs/filtered_feature_bc_matrix.h5
- Unfiltered feature-barcode matrices MEX: /opt/sample345/outs/raw_feature_bc_matrix
- Unfiltered feature-barcode matrices HDF5: /opt/sample345/outs/raw_feature_bc_matrix.h5
- Secondary analysis output CSV: /opt/sample345/outs/analysis
- Per-molecule read information: /opt/sample345/outs/molecule_info.h5
- Loupe Browser file: /opt/sample345/outs/cloupe.cloupe
Pipestance completed successfully!
管道的輸出包含在以您指定的sample ID命名的文件夾中(例如sample345)。名為outs
的子文件夾包含主要管道輸出文件:
文檔名稱 | 描述 |
---|---|
web_summary.html | 以HTML格式運行摘要指標和圖表 |
spatial | 該目錄包含jpg格式的對齊基準點和檢測到的組織的QC圖像歌溉,scalefactors_json.json垄懂,png格式的輸入圖像的高分辨率和低分辨率版本以及tissue_positions_list.txt |
spatial/aligned_fiducials.jpg | 對齊的基準QC圖像 |
spatial/detected_tissue_image.jpg | 檢測到的組織QC圖像 |
spatial/detected_tissue_image.png | 全分辨率圖像在最長尺寸上降采樣為2k像素 |
spatial/detected_tissue_image.png | 全分辨率圖像在最長尺寸上降采樣為600像素 |
spatial/tissue_positions_list.csv | 包含斑點條形碼的CSV,如果該斑點是在組織的(1)之下或在組織(0)外調(diào)用的痛垛,則全分辨率圖像的陣列位置草慧,圖像像素位置x和圖像像素位置y |
spatial/scalefactors_json.json | 包含用于全分辨率原始圖像的以像素為單位的點直徑估計,組織_hires_scalef(用于高分辨率圖像的以像素為單位的點位置乘數(shù))匙头,用于全分辨率原始圖像的以基準像素的基準點直徑估計(以像素為單位)漫谷,低分辨率圖像的像素 |
metrics_summary.csv | 以CSV格式運行摘要指標 |
possorted_genome_bam.bam | reads與基因組和轉錄組比對,并帶有條形碼信息 |
possorted_genome_bam.bam.bai | 索引 possorted_genome_bam.bam |
filtered_feature_bc_matrix | 過濾后的特征條形碼矩陣蹂析,僅包含MEX格式的spot barcode |
filtered_feature_bc_matrix_h5.h5 | 過濾后的特征條形碼矩陣舔示,僅包含HDF5格式的spot barcode |
raw_feature_bc_matrices | 包含所有MEX格式條形碼的未經(jīng)過濾的特征條形碼矩陣 |
raw_feature_bc_matrix_h5.h5 | 包含所有HDF5格式條形碼的未經(jīng)過濾的特征條形碼矩陣 |
analysis | 二級分析數(shù)據(jù),包括降維识窿,斑點聚類和差異表達 |
molecule_info.h5 | 分子使用的分子水平信息 spaceranger aggr 將樣本聚合為更大的數(shù)據(jù)集斩郎。 |
cloupe.cloupe | Loupe Browser 可視化和分析文件 |
一旦 spaceranger count
成功完成后,您可以 在任何受支持的Web瀏覽器中瀏覽生成的 summary HTML file喻频,在 Loupe Browser,中打開.cloupe文件 缩宜,或參考了解輸出部分以手動瀏覽數(shù)據(jù)。
命令行參數(shù)參考
https://support.10xgenomics.com/spatial-gene-expression/software/pipelines/latest/using/count
常用參數(shù):
--id: A unique run ID string: e.g. sample345
--fastqs: fastq文件所在文件夾
--sample: 提供給樣品表中指定的樣品名稱
--transcriptome: 與Space Ranger兼容的轉錄組參考的路徑,例如 /opt/GRCh38-3.0.0
--image: .jpg或.tiff格式的明場組織H&E圖像锻煌。
--slide: Visium slide 序列號
--area: Visium捕獲區(qū)域標識符
--slidefile: slide布局文件指示捕獲點和基準點位置
--loupe-alignment 由手動 Loupe對齊步驟生成的對齊文件妓布。在這種情況下,必須提供--image宋梧。
--unknown-slide: 使用默認的spot位置
--lanes: (可選)與此樣本關聯(lián)的泳道
--localcores: 限制核心數(shù)
-localmem:限制內(nèi)存
輸出文件
https://support.10xgenomics.com/spatial-gene-expression/software/pipelines/latest/output/overview
1. Web Summary:
運行概要:
web_summary.html:包含:摘要指標和自動二級分析結果
-
摘要視圖:可以通過單擊左上角的“summary”來查看運行摘要匣沼。摘要指標描述了測序質(zhì)量和檢測到的斑點的各種特性。
- 分析視圖
可以通過單擊左上角的“分析”來查看自動的二級分析結果捂龄。二級分析提供以下內(nèi)容:- 將點投影到二維空間(t-SNE)的降維分析
- 顯示檢測到的UMI覆蓋在組織切片上的圖
- 自動聚類分析释涛,將具有相似表達譜的斑點分組在一起
- 顯示了覆蓋在組織切片上的clusters衍生出的基因表達的圖
- 在所選的cluster之間差異表達的基因列表
- 顯示了降低測序深度對觀察到的文庫復雜性的影響的圖
- 顯示了測序深度降低對每個點檢測到的基因的中位數(shù)的影響的圖
2. Run Analysis:
count
管道輸出幾個包含自動二級分析結果的CSV文件。這些結果的一部分用于在運行摘要中呈現(xiàn)“分析”視圖倦沧。
-
PCA降維
在聚類之前唇撬,對標準化的過濾后的特征條形碼矩陣運行主成分分析(PCA),以減少特征(基因)維的數(shù)量展融。第一個是每個點在前N個主成分上的投影窖认。默認情況下,N=10(啟用化學批次校正時告希,N=100)
$ cd /home/jdoe/runs/sample345/outs
$ head -2 analysis/pca/10_components/projection.csv
Barcode,PC-1,PC-2,PC-3,PC-4,PC-5,PC-6,PC-7,PC-8,PC-9,PC-10
AAACATACAACGAA-1,-0.2765,-5.7056,6.5324,-12.2736,-1.4390,-1.1656,-0.1754,-2.9748,3.3785,1.6539
第二個文件是組件矩陣components matrix扑浸,該矩陣指示每個功能對每個主成分的貢獻度(負載)。未包含在PCA分析中的特征的所有加載值均設置為零燕偶。
$ head -2 analysis/pca/10_components/components.csv
PC,ENSG00000228327,ENSG00000237491,ENSG00000177757,ENSG00000225880,...,ENSG00000160310
1,-0.0044,0.0039,-0.0024,-0.0016,...,-0.0104
第三個文件記錄了每個主成分解釋的總方差的比例喝噪。在選擇重要的主成分的數(shù)目時,查看作為PC等級函數(shù)的方差圖很有用——當數(shù)字開始趨于平緩時杭跪,后續(xù)的PC不太可能代表數(shù)據(jù)中有意義的變化仙逻。
$ head -5 analysis/pca/10_components/variance.csv
PC,Proportion.Variance.Explained
1,0.0056404970744118104
2,0.0038897311237809061
3,0.0028803714818085419
4,0.0020830581822081206
最后一個文件列出了每個特征的歸一化的離散度,然后將特征按其在整個數(shù)據(jù)集中的平均表達量進行分箱binning 涧尿。這為每個特征的差異提供了有用度量系奉。
$ head -5 analysis/pca/10_components/dispersion.csv
Feature,Normalized.Dispersion
ENSG00000228327,2.0138970131886671
ENSG00000237491,1.3773662040549017
ENSG00000177757,-0.28102027567224191
ENSG00000225880,1.9887312950109921
-
t-SNE:
運行PCA之后,運行t分布隨機臨近嵌入(t-SNE)以可視化二維空間中的斑點姑廉。
$ head -5 analysis/tsne/2_components/projection.csv
Barcode,TSNE-1,TSNE-2
AAACATACAACGAA-1,-13.5494,1.4674
AAACATACTACGCA-1,-2.7325,-10.6347
AAACCGTGTCTCGC-1,12.9590,-1.6369
AAACGCACAACCAC-1,-9.3585,-6.7300
-
聚類
然后根據(jù)它們在PCA空間中的投影缺亮,進行聚類以將具有相似表達譜的斑點分組在一起。
基于圖的聚類Graph-based clustering (undergraphclust
)運行一次桥言,因為它不需要預先指定的聚類數(shù)量萌踱。K-means (under kmeans) 對K=2,...号阿,N運行并鸵,其中K對應于聚類編號,默認情況下N=10扔涧。每個K的對應結果都被分到其自己的目錄中园担。
$ ls analysis/clustering
graphclust kmeans_10_clusters kmeans_2_clusters kmeans_3_clusters
kmeans_4_clusters kmeans_5_clusters kmeans_6_clusters kmeans_7_clusters
kmeans_8_clusters kmeans_9_clusters
對于每個聚類届谈, spaceranger
為每個位置生成聚類分配cluster assignments
$ head -5 analysis/clustering/kmeans_3_clusters/clusters.csv
Barcode,Cluster
AAACATACAACGAA-1,2
AAACATACTACGCA-1,2
AAACCGTGTCTCGC-1,1
AAACGCACAACCAC-1,3
-
差異表達分析
spaceranger
還會生成一個表,該表展示相對于所有其他聚類弯汰,每個群集的差異表達的特征艰山。對于每個功能,我們每個聚類計算三個值: - 聚類i中此特征的每個點的平均UMI計數(shù)
- 聚類i中此特征的表達量相對于所有其他聚類的log2倍變化
- 表示該特征在聚類i中相對于其他聚類的表達量的顯著性的p值咏闪,對其進行了調(diào)整以考慮要測試的假設數(shù)量(即特征數(shù)量)曙搬。
該目錄與聚類結果位于不同的目錄中,但是遵循相同的結構鸽嫂,每個聚類都分為自己的目錄纵装。
$ head -5 analysis/diffexp/kmeans_3_clusters/differential_expression.csv
Feature ID,Feature Name,Cluster 1 Mean UMI Counts,Cluster 1 Log2 fold change,Cluster 1 Adjusted p value,Cluster 2 Mean UMI Counts,Cluster 2 Log2 fold change,Cluster 2 Adjusted p value,Cluster 3 Mean UMI Counts,Cluster 3 Log2 fold change,Cluster 3 Adjusted p value
ENSG00000228327,RP11-206L10.2,0.0056858989363338264,2.6207666981569986,0.00052155805898912184,0.0,-0.75299726644507814,0.64066099091888962,0.00071455453829430329,-2.3725403666493312,0.0043023680184636837
ENSG00000237491,RP11-206L10.9,0.00012635330969630726,-0.31783275717885928,0.40959138980118809,0.0,3.8319652342760779,0.11986963938734894,0.0,0.56605908868652577,0.39910771338768203
ENSG00000177757,FAM87B,0.0,-2.9027952579000154,0.0,0.0,3.2470027335549219,0.19129034227967889,0.00071455453829430329,3.1510215894076818,0.0
ENSG00000225880,LINC00115,0.0003790599290889218,-5.71015017995762,8.4751637615375386e-28,0.20790015775229512,7.965820981010868,1.3374521290889345e-46,0.0017863863457357582,-2.2065304152104019,0.00059189960914085744
- ** R下游分析**
Visium生成的數(shù)據(jù)結構可以在R中進行分析和可視化。有關說明溪胶,請參見R中的二級分析
3. 矩陣:Feature-Barcode Matrices
- 矩陣的每個元素是與特征(行)和條形碼(列)關聯(lián)的UMI的數(shù)量搂擦。
- 兩種類型的特征條形碼矩陣:Unfiltered feature-barcode matrix 和 Filtered feature-barcode matrix
每個矩陣都以 Market Exchange Format (MEX)對疏矩陣進行存儲稳诚。它還包含gzip壓縮的TSV文件哗脖,其特征和條形碼序列分別與行和列索引相對應。例如扳还,矩陣輸出可能類似于:
$ cd /home/jdoe/runs/sample345/outs
$ tree filtered_feature_bc_matrix
filtered_feature_bc_matrix
├── barcodes.tsv.gz
├── features.tsv.gz
└── matrix.mtx.gz
0 directories, 3 files
- 特征對應于行索引才避。對于每個功能,其功能ID和名稱分別存儲在(未壓縮)的
features.tsv.gz
文件的第一和第二列中氨距。第三列標識特征的類型桑逝,即Gene Expression
。以下是一個最小的示例features.tsv.gz 該文件顯示收集了3個基因的數(shù)據(jù)俏让。
$ gzip -cd filtered_feature_bc_matrix/features.tsv.gz
ENSG00000141510 TP53 Gene Expression
ENSG00000012048 BRCA1 Gene Expression
ENSG00000139687 RB1 Gene Expression
對于Gene Expression
數(shù)據(jù)楞遏,該ID對應在參考GTF的注釋字段 gene_id
中。同樣首昔,名稱對應于在參考GTF的注釋字段gene_name
中寡喝。如果沒有gene_name 字段
存在于參考GTF中,基因名稱等同于基因ID勒奇。
對于多物種實驗预鬓,基因ID和名稱以基因組名稱開頭,以避免不同物種的基因之間發(fā)生名稱沖突赊颠,例如GAPDH變?yōu)閔g19_GAPDH格二,而Gm15816變?yōu)閙m10_Gm15816。
條形碼序列對應于列索引:
$ gzip的-cd filtered_feature_bc_matrices / hg19 / barcodes.tsv
AAACATACAAAACG-1
AAACATACAAAAGC-1
AAACATACAAACAG-1
AAACATACAAACGA-1
AAACATACAAAGCA-1
AAACATACAAAGTG-1
AAACATACAACAGA-1
AAACATACAACCAC-1
AAACATACAACCGT-1
AAACATACAACCTG-1
R和Python支持MEX格式竣蹦,稀疏矩陣可用于更有效的處理顶猜。
將矩陣加載到R中:
library(Matrix)
matrix_dir = "/opt/sample345/outs/filtered_feature_bc_matrix/"
barcode.path <- paste0(matrix_dir, "barcodes.tsv.gz")
features.path <- paste0(matrix_dir, "features.tsv.gz")
matrix.path <- paste0(matrix_dir, "matrix.mtx.gz")
mat <- readMM(file = matrix.path)
feature.names = read.delim(features.path,
header = FALSE,
stringsAsFactors = FALSE)
barcode.names = read.delim(barcode.path,
header = FALSE,
stringsAsFactors = FALSE)
colnames(mat) = barcode.names$V1
rownames(mat) = feature.names$V1
將矩陣加載到Python
import csv
import gzip
import os
import scipy.io
matrix_dir = "/opt/sample345/outs/filtered_feature_bc_matrix"
mat = scipy.io.mmread(os.path.join(matrix_dir, "matrix.mtx.gz"))
features_path = os.path.join(matrix_dir, "features.tsv.gz")
feature_ids = [row[0] for row in csv.reader(gzip.open(features_path), delimiter="\t")]
gene_names = [row[1] for row in csv.reader(gzip.open(features_path), delimiter="\t")]
feature_types = [row[2] for row in csv.reader(gzip.open(features_path), delimiter="\t")]
barcodes_path = os.path.join(matrix_dir, "barcodes.tsv.gz")
barcodes = [row[0] for row in csv.reader(gzip.open(barcodes_path), delimiter="\t")]
轉換為CSV格式
- 存儲一般為稀疏性矩陣
- 但某些程序(例如Excel)僅支持密集矩陣格式。您可以
spaceranger mat2csv
命令使用來將特征條形碼矩陣轉換為密集CSV格式痘括。 - 此命令有兩個參數(shù):
- 由Space Ranger生成的輸入矩陣(H5文件或MEX目錄)
- 密集CSV的輸出路徑长窄。
例如叁怪,對在當前目錄中名為sample123的pipestance:
# convert from MEX
$ spaceranger mat2csv sample123/outs/filtered_feature_bc_matrix sample123.csv
# or, convert from H5
$ spaceranger mat2csv sample123/outs/filtered_feature_bc_matrix.h5 sample123.csv
然后可以加載 sample123.csv 到Excel吕晌。
警告:密集文件可能非常大,如果您的計算機沒有足夠的內(nèi)存, 可能導致Excel崩潰甚至mat2csv
失敗
4. 圖片:影像輸出
管道輸出包含一個名為spatial
的子目錄,用于存儲與影像相關的文件迫横。這些文件包括以下內(nèi)容:
- tissue_hires_image.png(最大2000個像素)和tissue_lowres_image.png(最大600個像素):原始全分辨率明場圖像的縮采樣版本
-
aligned_fiducials.jpg(尺寸與 tissue_hires_image.png相同):用于驗證基準對齊是否成功
- scalefactors_json.json:此文件包含以下字段:
- issue_hires_scalef:將原始全分辨率圖像中的像素位置轉換為
tissue_hires_image.png
中的像素位置的比例因子。 - tissue_lowres_scalef:將原始全分辨率圖像中的像素位置轉換為
tissue_lowres_image.png
中的像素位置的比例因子造虏。 - fiducial_diameter_fullres:跨越原始全分辨率圖像中基準點直徑的像素數(shù)梯醒。
- spot_diameter_fullres:跨越原始全分辨率圖像中組織點直徑的像素數(shù)。
- issue_hires_scalef:將原始全分辨率圖像中的像素位置轉換為
$ cd /home/jdoe/runs/sample345/spatial/outs
$ cat scalefactors_json.json
{"spot_diameter_fullres": 89.45248682925602, "tissue_hires_scalef": 0.17699115, "fiducial_diameter_fullres": 144.5001710318751, "tissue_lowres_scalef": 0.053097345}
- detected_tissue_image.jpg: 此圖片具有
tissue_hires_image.png
的尺寸,并顯示以下內(nèi)容
- tissue_positions_list.txt:此文本文件包含一個表郑原,其中包含與點相對應的行唉韭。它有4,992行,這是空間陣列中的點數(shù)犯犁。在文件中未指定名稱的列對應于以下字段:
- barcode:與該點相關的條形碼的順序属愤。
- in_tissue:二進制,指示該斑點位于組織的內(nèi)部(1)還是外部(0)酸役。
- array_row:點在陣列中的行坐標從0到77住诸。該陣列有78行。
- array_col:陣列中點的列坐標涣澡。為了表示 the orange crate arrangement of the spots贱呐,此列索引對偶數(shù)行使用0到126的偶數(shù),對奇數(shù)行使用1到127的奇數(shù)入桂。注意奄薇,每行(偶數(shù)或奇數(shù))有64個斑點。
- pxl_col_in_fullres:全分辨率圖像中斑點中心的列像素坐標抗愁。
- pxl_row_in_fullres:全分辨率圖像中斑點中心的行像素坐標馁蒂。
$ cd /home/jdoe/runs/sample345/outs/spatial/
$ head -2 tissue_positions_list.txt
ACGCCTGACACGCGCT-1,0,0,0,910,1261
TACCGATCCAACACTT-1,0,1,1,1030,1329
5. BAM:Barcoded BAM
spaceranger
管道輸出一個 indexed BAM文件,其中包含與基因組和轉錄組按位置進行排序比對的reads蜘腌。與基因組中外顯子連接處的轉錄組比對的reads在其 CIGAR string 中存在較大的缺口沫屡,即35M225N64M。
此BAM文件中的每個讀取都附有Visium細胞和分子條形碼信息逢捺。Space Ranger修改MAPQ值谁鳍;請參見下面的 MM tag。以下假設基本熟悉BAM格式劫瞳。在線可獲取有關the SAM/BAM standard的更多詳細信息倘潜。
- BAM Barcode Tags
每條read的Visium點和分子條形碼信息存儲為TAG
fields
spot barcodeCB
標簽包含帶短劃線分隔符的后綴,后跟數(shù)字:
AGAATGGTCTGCAT-1
在當前的Space Ranger輸出中志于,該數(shù)字將始終為(1)涮因。
-
BAM Alignment Tags
以下標簽也將出現(xiàn)在定位到(mapped to)基因組并與外顯子重疊至少一個堿基對(overlapped an exon by at least one base pair)的reads上。一條read可以與多個轉錄物和基因比對伺绽,但是只有它被mapped到單個基因养泡,才被可信地認為map到轉錄組上嗜湃。
6.Molecule Info (H5)
分子信息: spaceranger管道會輸出一個HDF5文件,該文件包含每個分子的分子信息澜掩,其中包含有效條形碼和有效UMI并以高可信度比對到基因的信息购披。該HDF5文件包含與觀察到的分子相對應的數(shù)據(jù),以及有關用于分析的libraries肩榕,特征集和條形碼列表的數(shù)據(jù)刚陡。
-
Per-Molecule Columns
- Reference Columns
- Experiment Reference:在HDF5文件層次結構的頂層,
barcodes
和library_info
數(shù)據(jù)集提供有關此分析中包含的實驗的信息:
- Experiment Reference:在HDF5文件層次結構的頂層,
-
Observed Spot-Barcodes
- HDF5文件層次結構
(root)
|
├─ barcode_idx
├─ barcode_info [HDF5 group]
│ ├─ genomes
│ └─ pass_filter
├─ barcodes
├─ count
├─ feature_idx
├─ features [HDF5 group]
│ ├─ _all_tag_keys
│ ├─ feature_type
│ ├─ genome
│ ├─ id
│ ├─ name
├─ gem_group
├─ library_idx
├─ library_info
├─ metrics [HDF5 group; see below]
└─ umi
- 2-bit Encoding
UMI序列采用2位編碼株汉,如下所示:
- 每對位編碼一個核苷酸(0 =“ A”筐乳,1 =“ C”,2 =“ G”乔妈,3 =“ T”)蝙云。
- 最低有效字節(jié)(LSB)包含3'-most nucleotides.
請注意,spot-barcode sequences沒有這種編碼路召。它們以純字符串形式存儲在library_info
HDF5 Group 中勃刨。
- Metrics HDF5 Group
該metrics
組旨在供Space Ranger管道內(nèi)部使用;用戶應該使用Space Ranger 指標輸出查看指標优训。
metrics組的屬性包含存儲為序列化Python對象(使用cPickle)的管道指標朵你。
- Image Analysis Metrics
Suspect Alignment: 當基準對齊算法失敗時,Metric為True揣非。如果對齊過程報告了看起來有比較大的縮放,旋轉或平移躲因,則管道將發(fā)出警告早敬,要求用戶密切檢查基準對齊的結果(請參見下圖)。
PS:沒有這樣的警告并不能保證成功大脉,因此用戶還是得檢查一下
- Gene Expression Metrics
Space Ranger管道以文本格式輸出關鍵指標搞监。
“ spaceranger count”指標定義:spaceranger count
管道輸出metrics_summary.csv
,其中包含有關條形碼和測序過程的許多關鍵指標镰矿。