【10X空間轉錄組Visium】（一）Space Ranger 1.0.0(更新于20191205）

今天是2019月12月3日，10X空間轉錄組的新流程發(fā)布了，比起安裝舊版的ST Spatial系列好裝了太多太多愕秫。。燃箭。
跟以前各個系列的Cell Ranger一樣，可以生成FASTQ和計數(shù)矩陣舍败，還能自動進行二級分析招狸，操作和生成的目錄文件結構跟以前都很相似碗硬，可以說比較容易上手。
舊號無故被封瓢颅，小號再發(fā)一次

Space Ranger

Space Ranger包括與空間基因表達實驗有關的兩條管道：

spacerangeranger mkfastq包裝了Illumina的bcl2fastq，解復用挽懦，并轉換barcode和read data為FASTQ
spaceranger count從spaceranger mkfastq中獲取明場切片圖像和FASTQ文件翰意，并執(zhí)行對齊，組織檢測信柿，基準檢測和條形碼/ UMI計數(shù)冀偶。該管道使用Visium空間條形碼生成特征點矩陣 feature-spot matrices，確定聚類并執(zhí)行基因表達分析渔嚷。

這些管道將Visium專用算法與廣泛使用的RNA序列比對軟件STAR相結合进鸠。輸出以標準BAM，MEX形病，CSV客年，HDF5，TIFF漠吻，PNG量瓜，JPEG和HTML格式提供，并增加了空間信息途乃。

Visium-specific 術語

image.png

對齊文件alignment file - 使用手動對齊和手動組織檢測時绍傲，使用 Loupe Browser生成的文件。
區(qū)域（或捕獲區(qū)域）-可以將組織放置在Visium玻片上的四個活動區(qū)域之一耍共。每個區(qū)域僅包含一個組織樣本烫饼。玻片區(qū)域從上到下依次命名：A1，B1试读，C1杠纵，D1。
明場brighfield圖像：組織的光學顯微鏡圖像鹏往。在Visium實驗中淡诗，明場圖像用作解剖參考骇塘。這些圖像通常用蘇木精和曙紅染色以突出組織結構（請參見下面的H＆E染色）伊履。

image.png
捕獲點 -這些是載玻片上的不可見點，其中包含用于捕獲poly-adenylated mRNA的特殊寡核苷酸款违。
基準點fiducial spots：圍繞每個捕獲區(qū)域的帶有特殊圖案的點的框架唐瀑。這些斑點可幫助樣本顯微學家查看放置組織的位置，Space Ranger還可使用這些斑點來確定圖像中捕獲區(qū)域的位置插爹。
字形glyphs-捕獲區(qū)域每個角上的基準點的子集哄辣，這些基準點具有易于識別的形狀：沙漏请梢，三角形，空心六邊形力穗，實心六邊形毅弧。
H＆E染色：-將蘇木精和曙紅施用于組織以突出組織結構的過程。蘇木精使細胞核呈藍色当窗，曙紅使細胞質(zhì)和細胞外基質(zhì)呈粉紅色够坐。
樣本 -應用于Visium玻片上單個區(qū)域或由此得出的數(shù)據(jù)的單個組織切片。
玻片序列號slide serial number -每個Visium玻片標簽上印刷的唯一標識符崖面。序列號以“ V1”開頭元咙，并以短劃線和三位數(shù)字結尾，例如123巫员。
雙重索引dual indexing -一種通過使用兩個寡核苷酸序列對同一流動池flowcell上的多個樣品進行測序的策略庶香，一個寡核苷酸序列連接到要測序的每個片段的任一末端，以便唯一地識別樣品简识。Visium庫構造僅使用此雙索引策略支持多路復用樣本赶掖。請參閱下面的樣本索引。
庫（或測序庫）-從單個載玻片區(qū)域制備的Visium空間條形碼測序庫七扰。
樣本索引 -用于文庫構建的寡核苷酸序列倘零，用于區(qū)分在同一流通池上測序的多個樣本。On the Illumina platform, these sequences are read out as separate "index reads" and reads are sorted into sample-specific files using mkfastq. The Visium library construction supports only "dual-indexing" (see above).Visium庫的構造僅支持“雙重索引”（請參見上文）戳寸。
sequencing run (or flowcell):一次測序儀器運行的輸出數(shù)據(jù)呈驶，包括Illumina BCL文件∫呷担可以按泳道或樣本索引對數(shù)據(jù)進行多路分解袖瞻。有關解復用的更多信息，請參見 mkfastq拆吆。

系統(tǒng)要求

Space Ranger管道在滿足以下最低要求的Linux系統(tǒng)上運行：

8核Intel或AMD處理器（建議使用32核）
64GB RAM（建議128GB）
1TB可用磁盤空間
64位CentOS / RedHat 6.0或Ubuntu 12.04

為了在集群模式下運行聋迎，集群需要滿足以下附加最低要求：

每個節(jié)點 8核Intel或AMD處理器
每個內(nèi)核 6GB RAM
共享文件系統(tǒng)（例如NFS）
SGE或LSF批處理計劃系統(tǒng)

下載Space Ranger - 1.0.0

curl -o spaceranger-1.0.0.tar.gz "http://cf.10xgenomics.com/releases/spatial-exp/spaceranger-1.0.0.tar.gz?Expires=1575402715&Policy=eyJTdGF0ZW1lbnQiOlt7IlJlc291cmNlIjoiaHR0cDovL2NmLjEweGdlbm9taWNzLmNvbS9yZWxlYXNlcy9zcGF0aWFsLWV4cC9zcGFjZXJhbmdlci0xLjAuMC50YXIuZ3oiLCJDb25kaXRpb24iOnsiRGF0ZUxlc3NUaGFuIjp7IkFXUzpFcG9jaFRpbWUiOjE1NzU0MDI3MTV9fX1dfQ__&Signature=fACB1rzbHv1rwUicNqL8SheRe6FkFOKxow5cTXcZPfOPBOTBEplElFMnOi4Xv4A2X3kydX45B-JnIaRj7I6a2doGEMTyqv84BnM5LxHAVBtWrXJyQqXbKKtgl9Dxe4BDnM9rPKhs6o2UbmWWAHX8Xu4J3~vgP3yXbhovuyl6OqCxu5p82oxTeOfN0bONqZdZ33svlAXJhatUTdpse2YCSRJZzov69NSHF6gE5DXl6iu5RWU7AgnjFgCuEFkQMwyn-FoYi2~i0s2fOFK0RCVI07~YKNDsjz3eXgOoHjWGPtWw5DAbPpTB2~32xkGzYeIYeZjH6m5JEgNGuvfWEyj~Aw__&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA"

下載參考序列：

GRCh38 Reference - 3.0.0 (November 19, 2018)

curl -O http://cf.10xgenomics.com/supp/spatial-exp/refdata-cellranger-GRCh38-3.0.0.tar.gz

mm10 Reference - 3.0.0 (November 19, 2018)

curl -O http://cf.10xgenomics.com/supp/spatial-exp/refdata-cellranger-mm10-3.0.0.tar.gz

其他下載：
Visium – CSV | JSON

安裝Space Ranger

$ tar -xzvf spaceranger-1.0.0.tar.gz
vi ~/.bashrc  # 填入 export PATH=/opt/spaceranger-1.0.0:$PATH
source ~/.bashrc

驗證安裝:

$ spaceranger testrun --id=tiny

無論測試管道成功與否，您都會看到：

Saving diagnostics to tiny/tiny.mri.tgz

此tiny.mri.tgz文件包含10x診斷信息枣耀，可以肥腸方便地用一下命令發(fā)給10X霉晕，讓他們幫你解決問題：

$ spaceranger upload your@email.edu tiny/tiny.mri.tgz

服務器沒連網(wǎng)發(fā)郵箱support@10xgenomics.com

解壓reference

tar -xzvf refdata-cellranger-GRCh38-3.0.0.tar.gz

運行Space Ranger

根據(jù)性能曲線圖，CPU限制在32個核心捞奕，內(nèi)存限制在128G
https://support.10xgenomics.com/spatial-gene-expression/software/overview/system-requirements
3種運行方式：

單服務器：這是最直接的方法牺堰，也是最簡單的故障排除方法。
作業(yè)提交模式
群集模式：此方法可提供高性能颅围，但由于群集設置因機構而異伟葫，因此很難進行故障排除。

單服務器運行方案：

默認院促， spaceranger使用所有可用的內(nèi)核和90％的檢測到的內(nèi)存筏养。在具有多個并發(fā)用戶和任務的共享環(huán)境中斧抱，此行為可能是不希望的。強烈建議運行spaceranger 與 --localcores 和 --localmem指定資源使用上限渐溶。

一辉浦、運行spaceranger mkfastq

管道結構

輸入文件建議：
1. Sequencing - Read 2 Length：
- 由于“索引跳躍”，Space Ranger要求使用“雙重索引”dual-indexing,茎辐，在該索引中盏浙，使用i7和i5樣本索引生成了復用庫。
- 在我們的實驗中荔茬，使用91個堿基的R2長度可獲得最佳的作圖速率废膘，從而獲得靈敏度，而對于較短或較長的讀取慕蔚，最佳性能則較低丐黄。
- 如果您已使用91個以上的堿基進行測序，則Space Ranger可以根據(jù)需要調(diào)整數(shù)據(jù)孔飒，從而為您的樣品找到最佳選擇：查看--r2-length 選項 spaceranger count
- 如果您對較短的讀長進行了測序灌闺，則分析仍然可以進行，但靈敏度可能會降低坏瞄。

R2長度對樣品組織類型的敏感性

2. 圖像輸入建議：
Visium使用的所有輸入組織圖像必須是24位彩色TIFF桂对，16位灰度TIFF或JPEG。除了Loupe瀏覽器和Space Ranger的這些基本文件類型要求之外鸠匀，Space Ranger中的自動圖像處理管道還施加了以下概述的其他限制蕉斜。如果不能滿足這些限制，您仍然可以使用Loupe Browser中的手動對齊和組織選擇過程來處理數(shù)據(jù)缀棍。

正確的圖像方向
需要在Space Ranger中進行自動處理的圖像宅此，其方向必須使沙漏形狀的點點位于圖像的左上角。圖像應大致與軸對齊爬范，盡管輕微旋轉（例如父腕，小于15度）應該可以。

正確定位的切片圖像
正確圖像大小Correct Sizing
將輸入圖像降采樣為兩個維度中的像素均不大于2000像素青瀑，下采樣不會影響使用全分辨率輸入圖像的Loupe Browser中的可視化璧亮。建議裁剪圖像以去除基準邊界外的多余圖像區(qū)域

image.png
適當?shù)钠毓舛?/p>

image.png

spaceranger mkfastq生成FASTQs

工作流程：

將10x樣本索引名稱翻譯為i7 / i5雙索引中的相應寡核苷酸。例如斥难，樣品表中的A1孔可以指定為SI-TT-A1枝嘶，并且spaceranger mkfastq會將i7和i5索引分別識別為GTAACATGCG和AGTGTTACCT。

支持簡化的CSV樣本表格式蘸炸，以處理10個用例躬络。

生成測序和特定于10X的質(zhì)量控制指標，包括條形碼質(zhì)量搭儒，準確性和多樣性穷当。

支持大多數(shù)bcl2fastq參數(shù)，例如--use-bases-mask

工作流程示例

在此示例中淹禾，有兩個10x庫（每個庫均通過單獨的捕獲區(qū)域處理）在單個流通池上多路復用馁菜。注意spaceranger mkfastq運行，我們在每個文庫上運行管道的單獨實例铃岔。

image.png

在此示例中汪疮，一個10x庫在兩個流通池上測序。注意spaceranger mkfastq運行毁习，我們在生成的所有FASTQ文件上運行管道的單個實例智嚷。

image.png

運行示例數(shù)據(jù)

spaceranger mkfastq可以識別兩種用于描述樣本的文件格式：一種簡單的三列CSV格式，以及所使用的Illumina實驗管理器（IEM）樣本表格式bcl2fastq

要繼續(xù)纺且，請執(zhí)行以下操作：

下載tiny-bcl tar文件盏道。
將tiny-bcl tar文件解壓縮到方便的位置。這將創(chuàng)建一個新的tiny-bcl子目錄载碌。
下載簡單的CSV布局文件：spaceranger-tiny-bcl-simple-1.0.0.csv猜嘱。
下載Illumina實驗管理器樣本表：spaceranger-tiny-bcl-samplesheet-1.0.0.csv。

簡單的CSV示例表運行mkfastq
對于大多數(shù)測序實驗嫁艇，建議使用簡單的csv樣本表朗伶。簡單的csv格式只有三列（通道，樣本步咪，索引）论皆，因此不太容易出現(xiàn)格式錯誤。您可以在中看到一個示例spaceranger-tiny-bcl-simple-1.0.0.csv：

Lane,Sample,Index
1,test_sample,SI-TT-D9

使用簡單布局mkfastq在tiny-bcl測序運行中運行的方法：

如果未按樣本索引測序猾漫，則需要使用此格式纯丸。spaceranger-tiny-bcl-samplesheet-1.0.0.csv在運行管道之前簡要查看一下。

$ spaceranger mkfastq --id=tiny-bcl \
                     --run=/path/to/tiny_bcl \
                     --csv=spaceranger-tiny-bcl-simple-1.0.0.csv

其中：
- run （必需） Illumina BCL運行文件夾的路徑静袖。
- id （可選觉鼻；默認為所引用的流通池的名稱--run） mkfastq創(chuàng)建的文件夾的名稱。
--csv （可選）具有泳道队橙，樣本和索引列的簡單CSV路徑坠陈，描述了對流通池進行解復用的方式。索引列應包含10X樣本雙索引名稱（例如捐康，SI-TT-A12）仇矾。這是Illumina IEM樣本表的替代方法，如果--samplesheet指定則將被忽略解总。

使用Illumina Experiment Manager示例表運行mkfastq

數(shù)據(jù)樣式：

[Data]
Lane,Sample_ID,Sample_Name,Sample_Plate,Sample_Well,I7_Index_ID,index,I5_Index_ID,index2,Sample_Project,Description
1,s1,test_sample,,,SI-TT-D9,SI-TT-D9,SI-TT-D9,SI-TT-D9,p1,

SI-TT-D9指的是10X樣本雙索引贮匕。
在此示例中，將僅使用從通道1讀取花枫。要在所有泳道上多路分解給定的樣本索引刻盐，請完全省略泳道列掏膏。

$  spaceranger mkfastq --id = tiny-bcl \ 
                     --run = / path / to / tiny_bcl \ 
                     --samplesheet = spaceranger-tiny-bcl-samplesheet-1.0.0.csv

檢查FASTQ輸出

結果文件夾名字由--id決定

$ ls -l
drwxr-xr-x 4 jdoe  jdoe     4096 Nov 14 12:05 tiny-bcl

關鍵輸出文件可在中找到outs/fastq_path，并以與常規(guī)bcl2fastq運行相同的方式進行組織：

$ ls -l tiny-bcl/outs/fastq_path/

讀取質(zhì)量控制指標

--qc指定該標志后敦锌，spaceranger mkfastq管道會將測序和10x特定的質(zhì)量控制指標寫入JSON文件馒疹。指標位于outs/qc_summary.json文件中。

通過查看此輸出乙墙，您可以在運行spaceranger管道之前診斷低條形碼映射率和reads質(zhì)量

指定10x管道的輸入FASTQ文件

spaceranger count管道需要FASTQ文件作為輸入颖变，通常來自運行spaceranger mkfastq,但是，可以使用其他來源的FASTQ文件听想，例如Illumina的 bcl2fastq腥刹，已發(fā)布的數(shù)據(jù)集或我們的 bamtofastq

二、運行spaceranger count

spaceranger count管道的參數(shù)：

參數(shù)	描述
fastqs	（必需）包含要分析的FASTQ文件的文件夾汉买。通常衔峰，這是`spaceranger mkfastq` 產(chǎn)生的`fastq_path`文件夾。如果文件位于多個文件夾中（例如录别，由于一個庫在多個流通池中測序）朽色，請?zhí)峁┮远禾柗指舻穆窂搅斜怼?/td>
sample	（可選）要分析的樣品名稱。這是提供給mkfastq 或 bcl2fastq的sample sheet组题。多個名稱可以用逗號分隔的列表提供葫男，在這種情況下，它們被視為一個樣本崔列。
lanes	（可選）與此樣本關聯(lián)的通道梢褐。默認為所有通道。
indices	（已棄用/可選赵讯。僅用于從 `spaceranger demux`盈咳。）與該樣本關聯(lián)的樣本索引。

Fastq文件輸出目錄

https://support.10xgenomics.com/spatial-gene-expression/software/pipelines/latest/using/fastq-input

用spacerange count進行單庫分析

運行spaceranger mkfastq 在Illumina BCL輸出文件夾中边翼，以生成FASTQ文件鱼响。
運行spaceranger count，通過spaceranger mkfastq在每個的捕獲區(qū)域上進行demultiplexed
對于以下示例组底，假定Illumina BCL輸出在名為的文件夾中/sequencing/140101_D00123_0111_AHAWT7ADXX丈积。

Run spaceranger mkfastq
生成FASTQ文件。例如债鸡，如果流通池序列號為 HAWT7ADXX江滨，則spaceranger mkfastq將在HAWT7ADXX/outs/fastq_path中輸出FASTQ文件。
Run spaceranger count
自動對齊：
要使用自動基準對齊和組織檢測為單個庫生成空間特征計數(shù) spatial feature counts

$ cd /home/jdoe/runs
$ spaceranger count --id=sample345 \
                   --transcriptome=/opt/refdata/GRCh38-3.0.0 \
                   --fastqs=/home/jdoe/runs/HAWT7ADXX/outs/fastq_path \
                   --sample=mysample \
                   --image=/home/jdoe/runs/images/sample345.tif \
                   --slide=V19J01-123 \
                   --area=A1

手動對齊：
使用在Loupe Browse中生成的基準對齊和組織分配 json文件為單個庫生成空間特征計數(shù)

$ cd /home/jdoe/runs
$ spaceranger count --id=sample345 \
                   --transcriptome=/opt/refdata/GRCh38-3.0.0 \
                   --fastqs=/home/jdoe/runs/HAWT7ADXX/outs/fastq_path \
                   --sample=mysample \
                   --image=/home/jdoe/runs/images/sample345.tif \
                   --slide=V19J01-123 \
                   --area=A1 \
                   --loupe-alignment=sample345.json

spaceranger將默認使用系統(tǒng)上可用的所有核心數(shù)來執(zhí)行管道厌均。您可以為--localcores選項指定不同數(shù)量的核新數(shù)唬滑。--localmem限制使用的內(nèi)存量（以GB為單位）
管道將創(chuàng)建一個新文件夾，其名稱為輸出指定的sample ID（例如/home/jdoe/runs/sample345）。如果此文件夾已經(jīng)存在晶密，spaceranger 將假定它是已存在的管道擒悬，并嘗試恢復運行。
Slide序列號和捕獲區(qū)域參數(shù)：

spaceranger count管道接受slide serial和 capture area參數(shù)惹挟，以便用最精確的基準和坐標點一個實驗茄螃。將此信息傳遞給的最簡單方法spaceranger count是通過--slide和--area參數(shù)缝驳。
當--slide指定连锯，該管道將下載與所提供的序列號相關聯(lián)的布局文件。
如果spaceranger在無法訪問外部Internet的環(huán)境中運行用狱，請按照以下說明進行操作运怖，以便在本地下載slide文件。
不知道與實驗相關的序列號或捕獲區(qū)域:運行：spaceranger的--unknown-slide選項夏伊。指定后摇展，spaceranger 將對點坐標和基準坐標使用默認布局文件。默認布局和特定載玻片之間相應點的差異在10微米以下溺忧。
下載slide文件以進行本地操作(沒有網(wǎng)的情況下）：
管道將需要通過--slidefile參數(shù)使用Visium slide的布局文件咏连。您可以在下面下載Visium slide的布局文件。輸入slide的序列號（例如 V19S01-123）鲁森，然后按“下載”祟滴。
https://support.10xgenomics.com/spatial-gene-expression/software/pipelines/latest/using/count

下載slide文件

輸出文件

成功運行后的輸出：

Outputs:
- Run summary HTML:                         /opt/sample345/outs/web_summary.html
- Outputs of spatial pipeline:              /opt/sample345/outs/spatial
- Run summary CSV:                          /opt/sample345/outs/metrics_summary.csv
- BAM:                                      /opt/sample345/outs/possorted_genome_bam.bam
- BAM index:                                /opt/sample345/outs/possorted_genome_bam.bam.bai
- Filtered feature-barcode matrices MEX:    /opt/sample345/outs/filtered_feature_bc_matrix
- Filtered feature-barcode matrices HDF5:   /opt/sample345/outs/filtered_feature_bc_matrix.h5
- Unfiltered feature-barcode matrices MEX:  /opt/sample345/outs/raw_feature_bc_matrix
- Unfiltered feature-barcode matrices HDF5: /opt/sample345/outs/raw_feature_bc_matrix.h5
- Secondary analysis output CSV:            /opt/sample345/outs/analysis
- Per-molecule read information:            /opt/sample345/outs/molecule_info.h5
- Loupe Browser file:                       /opt/sample345/outs/cloupe.cloupe
 
Pipestance completed successfully!

管道的輸出包含在以您指定的sample ID命名的文件夾中（例如sample345）。名為outs的子文件夾包含主要管道輸出文件：

文檔名稱	描述
web_summary.html	以HTML格式運行摘要指標和圖表
spatial	該目錄包含jpg格式的對齊基準點和檢測到的組織的QC圖像歌溉，scalefactors_json.json垄懂，png格式的輸入圖像的高分辨率和低分辨率版本以及tissue_positions_list.txt
spatial/aligned_fiducials.jpg	對齊的基準QC圖像
spatial/detected_tissue_image.jpg	檢測到的組織QC圖像
spatial/detected_tissue_image.png	全分辨率圖像在最長尺寸上降采樣為2k像素
spatial/detected_tissue_image.png	全分辨率圖像在最長尺寸上降采樣為600像素
spatial/tissue_positions_list.csv	包含斑點條形碼的CSV，如果該斑點是在組織的（1）之下或在組織（0）外調(diào)用的痛垛，則全分辨率圖像的陣列位置草慧，圖像像素位置x和圖像像素位置y
spatial/scalefactors_json.json	包含用于全分辨率原始圖像的以像素為單位的點直徑估計，組織_hires_scalef（用于高分辨率圖像的以像素為單位的點位置乘數(shù)）匙头，用于全分辨率原始圖像的以基準像素的基準點直徑估計（以像素為單位）漫谷，低分辨率圖像的像素
metrics_summary.csv	以CSV格式運行摘要指標
possorted_genome_bam.bam	reads與基因組和轉錄組比對，并帶有條形碼信息
possorted_genome_bam.bam.bai	索引 possorted_genome_bam.bam
filtered_feature_bc_matrix	過濾后的特征條形碼矩陣蹂析，僅包含MEX格式的spot barcode
filtered_feature_bc_matrix_h5.h5	過濾后的特征條形碼矩陣舔示，僅包含HDF5格式的spot barcode
raw_feature_bc_matrices	包含所有MEX格式條形碼的未經(jīng)過濾的特征條形碼矩陣
raw_feature_bc_matrix_h5.h5	包含所有HDF5格式條形碼的未經(jīng)過濾的特征條形碼矩陣
analysis	二級分析數(shù)據(jù)，包括降維识窿，斑點聚類和差異表達
molecule_info.h5	分子使用的分子水平信息 `spaceranger aggr` 將樣本聚合為更大的數(shù)據(jù)集斩郎。
cloupe.cloupe	Loupe Browser 可視化和分析文件

一旦 spaceranger count成功完成后，您可以在任何受支持的Web瀏覽器中瀏覽生成的 summary HTML file喻频，在 Loupe Browser,中打開.cloupe文件缩宜，或參考了解輸出部分以手動瀏覽數(shù)據(jù)。

命令行參數(shù)參考

https://support.10xgenomics.com/spatial-gene-expression/software/pipelines/latest/using/count
常用參數(shù)：

--id:   A unique run ID string: e.g. sample345
--fastqs: fastq文件所在文件夾
--sample： 提供給樣品表中指定的樣品名稱
--transcriptome： 與Space Ranger兼容的轉錄組參考的路徑，例如 /opt/GRCh38-3.0.0
--image： .jpg或.tiff格式的明場組織H＆E圖像锻煌。
--slide： Visium slide 序列號
--area： Visium捕獲區(qū)域標識符
--slidefile： slide布局文件指示捕獲點和基準點位置
--loupe-alignment   由手動 Loupe對齊步驟生成的對齊文件妓布。在這種情況下，必須提供--image宋梧。
--unknown-slide: 使用默認的spot位置
--lanes:    （可選）與此樣本關聯(lián)的泳道
--localcores: 限制核心數(shù)
-localmem：限制內(nèi)存

故障排查

輸出文件

https://support.10xgenomics.com/spatial-gene-expression/software/pipelines/latest/output/overview
1. Web Summary:
運行概要：
web_summary.html：包含：摘要指標和自動二級分析結果

摘要視圖：可以通過單擊左上角的“summary”來查看運行摘要匣沼。摘要指標描述了測序質(zhì)量和檢測到的斑點的各種特性。

摘要視圖
分析視圖
可以通過單擊左上角的“分析”來查看自動的二級分析結果捂龄。二級分析提供以下內(nèi)容：
- 將點投影到二維空間（t-SNE）的降維分析
- 顯示檢測到的UMI覆蓋在組織切片上的圖
- 自動聚類分析释涛，將具有相似表達譜的斑點分組在一起
- 顯示了覆蓋在組織切片上的clusters衍生出的基因表達的圖
- 在所選的cluster之間差異表達的基因列表
- 顯示了降低測序深度對觀察到的文庫復雜性的影響的圖
- 顯示了測序深度降低對每個點檢測到的基因的中位數(shù)的影響的圖

image.png

2. Run Analysis：
count管道輸出幾個包含自動二級分析結果的CSV文件。這些結果的一部分用于在運行摘要中呈現(xiàn)“分析”視圖倦沧。

PCA降維
在聚類之前唇撬，對標準化的過濾后的特征條形碼矩陣運行主成分分析（PCA），以減少特征（基因）維的數(shù)量展融。第一個是每個點在前N個主成分上的投影窖认。默認情況下，N=10（啟用化學批次校正時告希，N=100）

$ cd /home/jdoe/runs/sample345/outs
$ head -2 analysis/pca/10_components/projection.csv
Barcode,PC-1,PC-2,PC-3,PC-4,PC-5,PC-6,PC-7,PC-8,PC-9,PC-10
AAACATACAACGAA-1,-0.2765,-5.7056,6.5324,-12.2736,-1.4390,-1.1656,-0.1754,-2.9748,3.3785,1.6539

第二個文件是組件矩陣components matrix扑浸，該矩陣指示每個功能對每個主成分的貢獻度（負載）。未包含在PCA分析中的特征的所有加載值均設置為零燕偶。

$ head -2 analysis/pca/10_components/components.csv
PC,ENSG00000228327,ENSG00000237491,ENSG00000177757,ENSG00000225880,...,ENSG00000160310
1,-0.0044,0.0039,-0.0024,-0.0016,...,-0.0104

第三個文件記錄了每個主成分解釋的總方差的比例喝噪。在選擇重要的主成分的數(shù)目時，查看作為PC等級函數(shù)的方差圖很有用——當數(shù)字開始趨于平緩時杭跪，后續(xù)的PC不太可能代表數(shù)據(jù)中有意義的變化仙逻。

$ head -5 analysis/pca/10_components/variance.csv
PC,Proportion.Variance.Explained
1,0.0056404970744118104
2,0.0038897311237809061
3,0.0028803714818085419
4,0.0020830581822081206

最后一個文件列出了每個特征的歸一化的離散度，然后將特征按其在整個數(shù)據(jù)集中的平均表達量進行分箱binning 涧尿。這為每個特征的差異提供了有用度量系奉。

$ head -5 analysis/pca/10_components/dispersion.csv
Feature,Normalized.Dispersion
ENSG00000228327,2.0138970131886671
ENSG00000237491,1.3773662040549017
ENSG00000177757,-0.28102027567224191
ENSG00000225880,1.9887312950109921

t-SNE:
運行PCA之后，運行t分布隨機臨近嵌入（t-SNE）以可視化二維空間中的斑點姑廉。

$ head -5 analysis/tsne/2_components/projection.csv
Barcode,TSNE-1,TSNE-2
AAACATACAACGAA-1,-13.5494,1.4674
AAACATACTACGCA-1,-2.7325,-10.6347
AAACCGTGTCTCGC-1,12.9590,-1.6369
AAACGCACAACCAC-1,-9.3585,-6.7300

聚類
然后根據(jù)它們在PCA空間中的投影缺亮，進行聚類以將具有相似表達譜的斑點分組在一起。
基于圖的聚類Graph-based clustering (under graphclust)運行一次桥言，因為它不需要預先指定的聚類數(shù)量萌踱。K-means (under kmeans) 對K=2，...号阿，N運行并鸵，其中K對應于聚類編號，默認情況下N=10扔涧。每個K的對應結果都被分到其自己的目錄中园担。

$ ls analysis/clustering
graphclust         kmeans_10_clusters  kmeans_2_clusters  kmeans_3_clusters
kmeans_4_clusters  kmeans_5_clusters   kmeans_6_clusters  kmeans_7_clusters
kmeans_8_clusters  kmeans_9_clusters

對于每個聚類届谈， spaceranger為每個位置生成聚類分配cluster assignments

$ head -5 analysis/clustering/kmeans_3_clusters/clusters.csv
Barcode,Cluster
AAACATACAACGAA-1,2
AAACATACTACGCA-1,2
AAACCGTGTCTCGC-1,1
AAACGCACAACCAC-1,3

差異表達分析
spaceranger還會生成一個表，該表展示相對于所有其他聚類弯汰，每個群集的差異表達的特征艰山。對于每個功能，我們每個聚類計算三個值：
聚類i中此特征的每個點的平均UMI計數(shù)
聚類i中此特征的表達量相對于所有其他聚類的log2倍變化
表示該特征在聚類i中相對于其他聚類的表達量的顯著性的p值咏闪，對其進行了調(diào)整以考慮要測試的假設數(shù)量（即特征數(shù)量）曙搬。
該目錄與聚類結果位于不同的目錄中，但是遵循相同的結構鸽嫂，每個聚類都分為自己的目錄纵装。

$ head -5 analysis/diffexp/kmeans_3_clusters/differential_expression.csv
Feature ID,Feature Name,Cluster 1 Mean UMI Counts,Cluster 1 Log2 fold change,Cluster 1 Adjusted p value,Cluster 2 Mean UMI Counts,Cluster 2 Log2 fold change,Cluster 2 Adjusted p value,Cluster 3 Mean UMI Counts,Cluster 3 Log2 fold change,Cluster 3 Adjusted p value
ENSG00000228327,RP11-206L10.2,0.0056858989363338264,2.6207666981569986,0.00052155805898912184,0.0,-0.75299726644507814,0.64066099091888962,0.00071455453829430329,-2.3725403666493312,0.0043023680184636837
ENSG00000237491,RP11-206L10.9,0.00012635330969630726,-0.31783275717885928,0.40959138980118809,0.0,3.8319652342760779,0.11986963938734894,0.0,0.56605908868652577,0.39910771338768203
ENSG00000177757,FAM87B,0.0,-2.9027952579000154,0.0,0.0,3.2470027335549219,0.19129034227967889,0.00071455453829430329,3.1510215894076818,0.0
ENSG00000225880,LINC00115,0.0003790599290889218,-5.71015017995762,8.4751637615375386e-28,0.20790015775229512,7.965820981010868,1.3374521290889345e-46,0.0017863863457357582,-2.2065304152104019,0.00059189960914085744

** R下游分析**
Visium生成的數(shù)據(jù)結構可以在R中進行分析和可視化。有關說明溪胶，請參見R中的二級分析

3. 矩陣：Feature-Barcode Matrices

矩陣的每個元素是與特征（行）和條形碼（列）關聯(lián)的UMI的數(shù)量搂擦。
兩種類型的特征條形碼矩陣：Unfiltered feature-barcode matrix 和 Filtered feature-barcode matrix
每個矩陣都以 Market Exchange Format (MEX)對疏矩陣進行存儲稳诚。它還包含gzip壓縮的TSV文件哗脖，其特征和條形碼序列分別與行和列索引相對應。例如扳还，矩陣輸出可能類似于：

$ cd /home/jdoe/runs/sample345/outs
$ tree filtered_feature_bc_matrix
filtered_feature_bc_matrix
├── barcodes.tsv.gz
├── features.tsv.gz
└── matrix.mtx.gz
0 directories, 3 files

特征對應于行索引才避。對于每個功能，其功能ID和名稱分別存儲在（未壓縮）的features.tsv.gz文件的第一和第二列中氨距。第三列標識特征的類型桑逝，即Gene Expression。以下是一個最小的示例features.tsv.gz 該文件顯示收集了3個基因的數(shù)據(jù)俏让。

$ gzip -cd filtered_feature_bc_matrix/features.tsv.gz
ENSG00000141510       TP53         Gene Expression
ENSG00000012048       BRCA1        Gene Expression
ENSG00000139687       RB1          Gene Expression

對于Gene Expression 數(shù)據(jù)楞遏，該ID對應在參考GTF的注釋字段 gene_id中。同樣首昔，名稱對應于在參考GTF的注釋字段gene_name中寡喝。如果沒有gene_name 字段存在于參考GTF中，基因名稱等同于基因ID勒奇。

對于多物種實驗预鬓，基因ID和名稱以基因組名稱開頭，以避免不同物種的基因之間發(fā)生名稱沖突赊颠，例如GAPDH變?yōu)閔g19_GAPDH格二，而Gm15816變?yōu)閙m10_Gm15816。

條形碼序列對應于列索引:

$  gzip的-cd filtered_feature_bc_matrices / hg19 / barcodes.tsv 
AAACATACAAAACG-1 
AAACATACAAAAGC-1 
AAACATACAAACAG-1 
AAACATACAAACGA-1 
AAACATACAAAGCA-1 
AAACATACAAAGTG-1 
AAACATACAACAGA-1 
AAACATACAACCAC-1 
AAACATACAACCGT-1 
AAACATACAACCTG-1

條形碼BAM部分提供了有關條形碼序列格式的更多詳細信息

R和Python支持MEX格式竣蹦，稀疏矩陣可用于更有效的處理顶猜。

將矩陣加載到R中：

library(Matrix)
matrix_dir = "/opt/sample345/outs/filtered_feature_bc_matrix/"
barcode.path <- paste0(matrix_dir, "barcodes.tsv.gz")
features.path <- paste0(matrix_dir, "features.tsv.gz")
matrix.path <- paste0(matrix_dir, "matrix.mtx.gz")
mat <- readMM(file = matrix.path)
feature.names = read.delim(features.path, 
                           header = FALSE,
                           stringsAsFactors = FALSE)
barcode.names = read.delim(barcode.path, 
                           header = FALSE,
                           stringsAsFactors = FALSE)
colnames(mat) = barcode.names$V1
rownames(mat) = feature.names$V1

將矩陣加載到Python

import csv
import gzip
import os
import scipy.io
 
matrix_dir = "/opt/sample345/outs/filtered_feature_bc_matrix"
mat = scipy.io.mmread(os.path.join(matrix_dir, "matrix.mtx.gz"))


features_path = os.path.join(matrix_dir, "features.tsv.gz")
feature_ids = [row[0] for row in csv.reader(gzip.open(features_path), delimiter="\t")]
gene_names = [row[1] for row in csv.reader(gzip.open(features_path), delimiter="\t")]
feature_types = [row[2] for row in csv.reader(gzip.open(features_path), delimiter="\t")]
barcodes_path = os.path.join(matrix_dir, "barcodes.tsv.gz")
barcodes = [row[0] for row in csv.reader(gzip.open(barcodes_path), delimiter="\t")]

轉換為CSV格式

存儲一般為稀疏性矩陣
但某些程序（例如Excel）僅支持密集矩陣格式。您可以spaceranger mat2csv命令使用來將特征條形碼矩陣轉換為密集CSV格式痘括。
此命令有兩個參數(shù):
- 由Space Ranger生成的輸入矩陣（H5文件或MEX目錄）
- 密集CSV的輸出路徑长窄。

例如叁怪，對在當前目錄中名為sample123的pipestance：

# convert from MEX
$ spaceranger mat2csv sample123/outs/filtered_feature_bc_matrix sample123.csv
# or, convert from H5
$ spaceranger mat2csv sample123/outs/filtered_feature_bc_matrix.h5 sample123.csv

然后可以加載 sample123.csv 到Excel吕晌。
警告：密集文件可能非常大，如果您的計算機沒有足夠的內(nèi)存, 可能導致Excel崩潰甚至mat2csv失敗
4. 圖片：影像輸出
管道輸出包含一個名為spatial的子目錄，用于存儲與影像相關的文件迫横。這些文件包括以下內(nèi)容：

tissue_hires_image.png(最大2000個像素)和tissue_lowres_image.png(最大600個像素)：原始全分辨率明場圖像的縮采樣版本
aligned_fiducials.jpg（尺寸與 tissue_hires_image.png相同）：用于驗證基準對齊是否成功

image.png
scalefactors_json.json：此文件包含以下字段：
- issue_hires_scalef：將原始全分辨率圖像中的像素位置轉換為tissue_hires_image.png中的像素位置的比例因子。
- tissue_lowres_scalef：將原始全分辨率圖像中的像素位置轉換為tissue_lowres_image.png中的像素位置的比例因子造虏。
- fiducial_diameter_fullres：跨越原始全分辨率圖像中基準點直徑的像素數(shù)梯醒。
- spot_diameter_fullres：跨越原始全分辨率圖像中組織點直徑的像素數(shù)。

$ cd /home/jdoe/runs/sample345/spatial/outs
$ cat scalefactors_json.json
{"spot_diameter_fullres": 89.45248682925602, "tissue_hires_scalef": 0.17699115, "fiducial_diameter_fullres":   144.5001710318751, "tissue_lowres_scalef": 0.053097345}

detected_tissue_image.jpg: 此圖片具有tissue_hires_image.png的尺寸,并顯示以下內(nèi)容

image.png
tissue_positions_list.txt：此文本文件包含一個表郑原，其中包含與點相對應的行唉韭。它有4,992行，這是空間陣列中的點數(shù)犯犁。在文件中未指定名稱的列對應于以下字段：
- barcode：與該點相關的條形碼的順序属愤。
- in_tissue：二進制，指示該斑點位于組織的內(nèi)部（1）還是外部（0）酸役。
- array_row：點在陣列中的行坐標從0到77住诸。該陣列有78行。
- array_col：陣列中點的列坐標涣澡。為了表示 the orange crate arrangement of the spots贱呐，此列索引對偶數(shù)行使用0到126的偶數(shù)，對奇數(shù)行使用1到127的奇數(shù)入桂。注意奄薇，每行（偶數(shù)或奇數(shù)）有64個斑點。
- pxl_col_in_fullres：全分辨率圖像中斑點中心的列像素坐標抗愁。
- pxl_row_in_fullres：全分辨率圖像中斑點中心的行像素坐標馁蒂。

$ cd /home/jdoe/runs/sample345/outs/spatial/
$ head -2 tissue_positions_list.txt
ACGCCTGACACGCGCT-1,0,0,0,910,1261
TACCGATCCAACACTT-1,0,1,1,1030,1329

5. BAM：Barcoded BAM
spaceranger管道輸出一個 indexed BAM文件，其中包含與基因組和轉錄組按位置進行排序比對的reads蜘腌。與基因組中外顯子連接處的轉錄組比對的reads在其 CIGAR string 中存在較大的缺口沫屡，即35M225N64M。

此BAM文件中的每個讀取都附有Visium細胞和分子條形碼信息逢捺。Space Ranger修改MAPQ值谁鳍；請參見下面的 MM tag。以下假設基本熟悉BAM格式劫瞳。在線可獲取有關the SAM/BAM standard的更多詳細信息倘潜。

BAM Barcode Tags
每條read的Visium點和分子條形碼信息存儲為TAGfields

image.png

spot barcodeCB標簽包含帶短劃線分隔符的后綴，后跟數(shù)字：

AGAATGGTCTGCAT-1

在當前的Space Ranger輸出中志于，該數(shù)字將始終為（1）涮因。

BAM Alignment Tags
以下標簽也將出現(xiàn)在定位到（mapped to）基因組并與外顯子重疊至少一個堿基對（overlapped an exon by at least one base pair）的reads上。一條read可以與多個轉錄物和基因比對伺绽，但是只有它被mapped到單個基因养泡，才被可信地認為map到轉錄組上嗜湃。

image.png

6.Molecule Info (H5)
分子信息: spaceranger管道會輸出一個HDF5文件，該文件包含每個分子的分子信息澜掩，其中包含有效條形碼和有效UMI并以高可信度比對到基因的信息购披。該HDF5文件包含與觀察到的分子相對應的數(shù)據(jù)，以及有關用于分析的libraries肩榕，特征集和條形碼列表的數(shù)據(jù)刚陡。

Per-Molecule Columns

image.png
Reference Columns
- Experiment Reference：在HDF5文件層次結構的頂層，barcodes和library_info數(shù)據(jù)集提供有關此分析中包含的實驗的信息：
  
  image.png
Observed Spot-Barcodes

image.png
HDF5文件層次結構

(root)
|
├─ barcode_idx
├─ barcode_info [HDF5 group]
│   ├─ genomes  
│   └─ pass_filter
├─ barcodes
├─ count
├─ feature_idx
├─ features [HDF5 group]
│   ├─ _all_tag_keys
│   ├─ feature_type
│   ├─ genome
│   ├─ id
│   ├─ name
├─ gem_group
├─ library_idx
├─ library_info
├─ metrics [HDF5 group; see below]
└─ umi

2-bit Encoding
UMI序列采用2位編碼株汉，如下所示：
- 每對位編碼一個核苷酸（0 =“ A”筐乳，1 =“ C”，2 =“ G”乔妈，3 =“ T”）蝙云。
- 最低有效字節(jié)（LSB）包含3'-most nucleotides.

請注意，spot-barcode sequences沒有這種編碼路召。它們以純字符串形式存儲在library_infoHDF5 Group 中勃刨。

Metrics HDF5 Group
該metrics組旨在供Space Ranger管道內(nèi)部使用；用戶應該使用Space Ranger 指標輸出查看指標优训。
metrics組的屬性包含存儲為序列化Python對象（使用cPickle）的管道指標朵你。

7. GEX/Image Metrics:

Image Analysis Metrics

Suspect Alignment: 當基準對齊算法失敗時，Metric為True揣非。如果對齊過程報告了看起來有比較大的縮放，旋轉或平移躲因，則管道將發(fā)出警告早敬，要求用戶密切檢查基準對齊的結果（請參見下圖）。

image.png

PS：沒有這樣的警告并不能保證成功大脉，因此用戶還是得檢查一下

Gene Expression Metrics
Space Ranger管道以文本格式輸出關鍵指標搞监。
“ spaceranger count”指標定義：spaceranger count管道輸出metrics_summary.csv，其中包含有關條形碼和測序過程的許多關鍵指標镰矿。

image.png

最后編輯于：2020.03.25 11:02:39

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末琐驴，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子秤标，更是在濱河造成了極大的恐慌绝淡，老刑警劉巖，帶你破解...
沈念sama閱讀 216,372評論 6贊 498
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件苍姜，死亡現(xiàn)場離奇詭異牢酵，居然都是意外死亡，警方通過查閱死者的電腦和手機衙猪，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,368評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門馍乙，熙熙樓的掌柜王于貴愁眉苦臉地迎上來布近，“玉大人，你說我怎么就攤上這事丝格〕徘疲” “怎么了？”我有些...
開封第一講書人閱讀 162,415評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵显蝌，是天一觀的道長季蚂。經(jīng)常有香客問我，道長琅束，這世上最難降的妖魔是什么扭屁？我笑而不...
開封第一講書人閱讀 58,157評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮涩禀，結果婚禮上料滥，老公的妹妹穿的比我還像新娘。我一直安慰自己艾船，他們只是感情好葵腹，可當我...
茶點故事閱讀 67,171評論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著屿岂，像睡著了一般践宴。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上爷怀，一...
開封第一講書人閱讀 51,125評論 1贊 297
城市分裂傳說
那天阻肩，我揣著相機與錄音，去河邊找鬼运授。笑死烤惊，一個胖子當著我的面吹牛，可吹牛的內(nèi)容都是我干的吁朦。我是一名探鬼主播柒室，決...
沈念sama閱讀 40,028評論 3贊 417
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼逗宜！你這毒婦竟也來了雄右？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 38,887評論 0贊 274
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤纺讲，失蹤者是張志新（化名）和其女友劉穎擂仍，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體刻诊，經(jīng)...
沈念sama閱讀 45,310評論 1贊 310
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡防楷，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,533評論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了则涯。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片复局。...
茶點故事閱讀 39,690評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡冲簿，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出亿昏，到底是詐尸還是另有隱情峦剔，我是刑警寧澤，帶...
沈念sama閱讀 35,411評論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布角钩，位于F島的核電站吝沫，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏递礼。R本人自食惡果不足惜惨险，卻給世界環(huán)境...
茶點故事閱讀 41,004評論 3贊 325
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望脊髓。院中可真熱鬧辫愉，春花似錦、人聲如沸将硝。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,659評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽依疼。三九已至痰腮，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間律罢，已是汗流浹背膀值。一陣腳步聲響...
開封第一講書人閱讀 32,812評論 1贊 268
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留弟翘，地道東北人虫腋。一個月前我還...
沈念sama閱讀 47,693評論 2贊 368
代替公主和親
正文我出身青樓，卻偏偏與公主長得像稀余，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子趋翻，可洞房花燭夜當晚...
茶點故事閱讀 44,577評論 2贊 353

【10X空間轉錄組Visium】（一）Space Ranger 1.0.0(更新于20191205）

【10X空間轉錄組Visium】（一）Space Ranger 1.0.0(更新于20191205）

更多空間轉錄組文章：

1. 新版10X Visium

2. 舊版Sptial

Space Ranger

Visium-specific 術語

系統(tǒng)要求

下載Space Ranger - 1.0.0

安裝Space Ranger

解壓reference

運行Space Ranger

一辉浦、運行spaceranger mkfastq

spaceranger mkfastq生成FASTQs

工作流程示例

運行示例數(shù)據(jù)

檢查FASTQ輸出

讀取質(zhì)量控制指標

指定10x管道的輸入FASTQ文件

二、運行spaceranger count

Fastq文件輸出目錄

用spacerange count進行單庫分析

輸出文件

命令行參數(shù)參考

輸出文件

推薦閱讀更多精彩內(nèi)容