出于時代的自覺滔悉,我主動承擔了STAMP(Statistical Analysis of Metagenomic Profiles)使用文檔的翻譯工作伊诵。原文28頁,翻譯如下回官,歡迎批評曹宴。
為了更好的演示,我們先把GitHub上STAMP的文檔以及示例文件下載下來歉提。
進入到我的測試目錄下笛坦,輸入如下命令。很神奇苔巨,我怎么會用Git版扩?參見第一章《Flask Web開發(fā)》:安裝flask
$git clone git@github.com:dparks1134/STAMP.git
Initialized empty Git repository in /root/zhouyunlai/fqQuality/MicroFun/STAMP/STAMP/.git/
remote: Counting objects: 1272, done.
Write failed: Broken pipe124/1272), 380.01 KiB 1 KiB/s
fatal: The remote end hung up unexpectedly
fatal: early EOF
fatal: index-pack failed
然而并沒有成功,當然你也可以在GitHub直接下載壓縮好的文件侄泽。出現(xiàn)上面的報錯可能是緩存太小礁芦,服務器長時間鏈接無操作導致的。
$vi /etc/ssh/ssh_config
后在文件中添加:
Host *
ServerAliveInterval 120
再clone就可以了悼尾。
1. 介紹
STAMP是分析宏基因組(和其他J量邸)概況的軟件包,例如
- 物種注釋(不同層級的物種豐度)
- 功能注釋(不同代謝通路的基因豐度)
它是旨在使用效應大泄胛骸(effect sizes)和置信區(qū)間(confidence intervals)來評估生物學重要性并以此來選擇統(tǒng)計檢驗方法和“最佳實踐”的可視化結果未状。用戶友好的圖形界面可以輕松探索統(tǒng)計結果和生成出版物級別的統(tǒng)計圖,以推斷宏基因組(擴增子)中特征(物種和功能)的生物相關性析桥。STAMP是開源的娩践,可通過插件框架進行擴展,并可用于所有主要平臺烹骨。
2. 聯(lián)系信息
STAMP正在積極開發(fā)中翻伺,我們有興趣討論這方面的所有潛在應用軟件。 我們鼓勵您向我們發(fā)送有關新功能的建議沮焕。 建議吨岭,意見和錯誤報告可以發(fā)送到Donovan Parks(donovan.parks [at] gmail.com)。 如果報告錯誤峦树,請?zhí)峁┍M可能多的信息以及導致錯誤的數(shù)據(jù)集的簡化版本辣辫。 這會讓我們能夠快速解決問題旦事。
3. 引用STAMP及其統(tǒng)計方法
如果在研究中用到了STAMP,請引用:
Parks DH, Tyson GW, Hugenholtz P, Beiko RG (2014). STAMP: statistical analysis of taxonomic
and functional profiles. Bioinformatics, doi: 10.1093/bioinformatics/btu494.
如果在研究中用到了White’s non-parametric t-test 急灭,請引用:
White JR, Nagarajan N, and Pop M. (2009). Statistical methods for detecting differentially abundant features in clinical metagenomic samples. PLoS Comput Biol, 5, e1000352.
其他統(tǒng)計方法的引用文獻姐浮,見表1,2葬馋,3卖鲤。STAMP原稿描述參見:
Parks DH and Beiko RG (2010). Identifying biologically relevant differences between metagenomic
communities. Bioinformatics, 26, 715-721.
4.安裝
4.1
4.2
4.3
4.4
5.獲取和構建宏基因組數(shù)據(jù)
5.1創(chuàng)建您自己的宏基因組圖譜
STAMP的輸入文件是以制表符分割格式的(tab-separated values )。文件包含注釋層級和樣本信息畴嘶,第一行是每一列的表頭蛋逾,注釋信息的列應是自最高層級到最低層級依次排列的。層次結構可以是多層次的窗悯,但必須形成嚴格的樹結構区匣。從版本2.0.8開始,STAMP明確檢查一個配置文件形成一個嚴格的層次結構蒋院,以確保所有統(tǒng)計測試的有效性亏钩。 不幸的是,許多分級分類系統(tǒng)欺旧,包括流行的分類法姑丑,由于標簽錯誤和其他不一致,如GreenGenes和SILVA目前不是嚴格等級的切端。 檢查腳本checkHierarchy.py可以從STAMP網(wǎng)站下載并用于識別STAMP配置文件中的所有非層級條目彻坛。
必須為每個樣本指定在分類層級注釋的豐度顷啼。在層次結構中的任何點上具有未知分類的讀取器應標記為unclassified (不區(qū)分大小寫)踏枣,然后可以在多個不同的處理中進行處理 方法(見第6.1節(jié))。 為了允許不同的標準化方法钙蒙,這些讀取計數(shù)可以是整數(shù)或任何實數(shù)茵瀑。 示例輸入文件如下所示:
還必須對分級的子類的父類進行分類。 這可能會導致某些層次結構出現(xiàn)問題躬厌,例如GreenGenes和SILVA马昨,其中序列分配給指定的層次結構OTUs,但中間分類學級別通常是未分類的扛施。 為了解決這個問題鸿捧,我建議從STAMP配置文件中刪除OTU列。 如果某些分析(例如疙渣,PCA圖)需要這種精確度級別匙奴,則可以構建單獨的STAMP簡檔,其僅包含OTU列作為分級結構妄荔。
5.2創(chuàng)建一個元數(shù)據(jù)文件(一般的分組文件)
STAMP允許通過元數(shù)據(jù)文件定義與每個樣本關聯(lián)的其他數(shù)據(jù)泼菌。 像一個STAMP配置文件中谍肤,元數(shù)據(jù)文件是制表符分隔值(TSV)文件。 該文件的第一列表示每個樣品的名稱哗伯,并應對應于相應STAMP配置文件中的條目荒揣。 其他列可以指定與正在考慮的樣本相關的任何其他數(shù)據(jù)。 在STAMP中焊刹,可以使用這些附加列來定義可以計算統(tǒng)計數(shù)據(jù)的組(即系任,一個或多個配置文件的集合)。 例如伴澄,上述示例配置文件的元數(shù)據(jù)文件可能具有以下結構:
5.3
5.4
5.5
5.6
樣本量指南
關于檢測不同假設檢驗的統(tǒng)計顯著性所需的樣本數(shù)量有很多文獻報道赋除。 為了以實用的建議對此主題進行出色的介紹,我推薦了Suresh和Chandrashekara的文章(2012)以及Jeremy Miles的文章獲得合適的樣本量
譯者注:軟件來衡量樣本量對統(tǒng)計效力和精度的影響Power and precision非凌,R package pwr也可以举农。
我的建議如下:
統(tǒng)計假設檢驗不需要最小樣本量有效,但必須滿足檢驗統(tǒng)計量的假設條件(例如敞嗡,近似正態(tài)分布)颁糟。小樣本量更有可能違反這些假設條件。小樣本量也不太可能具有將統(tǒng)計顯著性確定為小的效應量所需的統(tǒng)計功效(statistical power)喉悴。有趣的是棱貌,學生的原始論文(Student’s original paper )證明了t檢驗考慮的例子,每組只有4個樣本箕肃。 在這些例子中婚脱,由于基礎數(shù)據(jù)的準確性和精確性以及組間效應大小的大小,4個樣本是足夠的勺像。
例如障贸,考慮嘗試確定美國便士的平均重量是否與澳大利亞50美分的平均重量不同。 我把這兩個都帶到了附近吟宦,我可以向你保證篮洁,一分錢的重量遠遠低于過重的澳大利亞50美分! 換句話說殃姓,先驗我知道效應的大小很大袁波,并且需要更少的樣本來檢測統(tǒng)計顯著性。 此外蜗侈,這些硬幣是在高精度機器上制造的篷牌,我們可以使用高精度的刻度精確測量這些碎片的重量。 因此踏幻,需要更少的樣本來準確估計這些硬幣的平均值枷颊,并且這些手段周圍的變化很小。 由于這些因素(大效應大小,高度精確和精確的測量以及小的方差)偷卧,小樣本量足以確定這些硬幣的平均重量在統(tǒng)計上是不同的豺瘤。
相反,生物數(shù)據(jù)是嘈雜的听诸。分類學和代謝譜受到很多變異性的影響坐求。與上述示例不同,這些配置文件的準確性和精確度相對較低晌梨。更改用于對序列或底層參考數(shù)據(jù)庫進行分類的方法通常會導致對結果配置文件進行實質性更改桥嗤。這與改變另一個不準確的比例類似。樣品制備也會影響產(chǎn)生的曲線仔蝌。直觀地說泛领,我們預計生物復制產(chǎn)生類似的概況,但我們接受將會有很多變異敛惊。我們還經(jīng)常比較廣泛定義的群體渊鞋,我們預計群體內變異很大,例如健康群體與患病群體的群體概況瞧挤。直觀地說锡宋,需要大量的樣本來可靠地估計這些條件下一組的平均值和方差。因此特恬,在合理比較這兩個群體的平均值之前执俩,每個群體需要更多的樣本。所需樣本的確切數(shù)量取決于這些組之間的效應大小癌刽,用于定義統(tǒng)計顯著性的期望α水平以及期望的統(tǒng)計效力(參見Jeremy Miles文章)役首。
評估結果時,還必須考慮效應大小显拜。不論樣本量大小衡奥,兩組之間統(tǒng)計學顯著性差異的特征可能在生物學上不相關。當樣本量很大時讼油,即使極小的差異也會在統(tǒng)計上顯著杰赛。然而呢簸,由于統(tǒng)計學檢驗不能解釋用于產(chǎn)生分類學或代謝譜的方法中可能存在的系統(tǒng)性偏倚,因此當效應量較小時應謹慎根时。例如,100名健康患者與100名患者的厚壁細胞的小量增加可能僅僅是健康人體內含有更多硬質菌種的參考數(shù)據(jù)庫的結果确虱。當樣本量較小時替裆,報告的p值往往不準確窘问,因為統(tǒng)計假設檢驗不能說明用于產(chǎn)生分類學和代謝特征的方法的準確性和精確度較差宜咒。在這些情況下,我認為'最佳實踐'(best practice)是使用p值來確定統(tǒng)計顯著特征故黑,然后將這些結果進一步過濾為具有足夠大的效應大卸邸( effect size)的結果。我認為场晶,不應該報告統(tǒng)計學上不同的特征混埠,也不要指出差異的效應大小。
7.分析宏基因組圖譜
7.1分析多個組
設置統(tǒng)計分析屬性:可以通過 File->Load
data...對話框加載輸入數(shù)據(jù)诗轻。確保在點擊OK繼續(xù)之前指定配置文件(Enterotypes.profile.spf)和組元數(shù)據(jù)(Enterotypes.metadata.tsv)文件钳宪。在這里,我們將按照Arumugam等人指定的三種類型對數(shù)據(jù)進行分組扳炬。 (2011年)使套。配置文件通過組圖例窗口分配給組。要打開此窗口鞠柄,請選擇View->Group legend侦高。組圖例窗口可以留作浮動窗口或停靠在不同的位置(圖1)厌杜。對于此分析奉呛,將窗口停靠在右側(圖1b)夯尽,并從Group字段組合框中選擇Enterotype瞧壮。這表示我們希望按數(shù)據(jù)組對數(shù)據(jù)進行分組。如果您打開文件Enterotypes.metadata.tsv匙握,您可以看到Enterotype只是該文件中的一列咆槽。已經(jīng)定義了大量的腸炎型。重復Arumugam等人的分析圈纺。取消選中除Enterotype 1秦忿,Enterotype 2和Enterotype 3以外的所有組(圖2)。在計算統(tǒng)計量和生成圖時蛾娶,取消選中一個組會導致它被忽略胎许。
統(tǒng)計屬性通過屬性窗口設置。 默認情況下歇父,此窗口桶裆唬靠在右側垂睬。 但是驹饺,它可以從這個位置分離么伯,并停放在不同的位置,就像Group legend窗口一樣骨望。 可以使用視圖菜單中的相應條目選擇性地顯示和隱藏Windows擎鸠。 “屬性”窗口允許您設置許多與執(zhí)行多個組測試相關的屬性。 這些在下面描述(圖3):
Parent level: 分配給某個要素的序列比例將根據(jù)分配給其父類別的序列總數(shù)進行計算糟把。 默認值是計算相對于樣本中所有已分配序列的比例雄可。 對于本教程数苫,請將父級別保持為整個示例的默認值。
Profile level:構建配置文件的層次級別戏仓。 這允許在層次結構中的不同深度探索數(shù)據(jù)赏殃。 對于本教程仁热,將配置文件級別更改為Genera。
Unclassified: 指定未分類序列如何處理迅矛。任何分配給名稱未分類(不區(qū)分大小寫)的功能的讀取都將被視為Unclassified秽褒。Unclassified的序列可以保留在配置文件中(保留未分類的讀认濉)约谈,從配置文件中移除(Removeunclassified reads)棱诱,或者除計算配置文件(僅用于計算頻率配置文件)外,不考慮捧存。處理未分類序列的這三個選項可能會導致很大的差異镰官。為保留Unclassified的讀取并僅用于計算頻率曲線選項泳唠,分配給特征的序列的相對比例與指定的父類別內的序列總數(shù)成比例。后一個選項可防止Unclassified的功能出現(xiàn)在表格和圖表中脖母。相比之下,Removeunclassified reads選項會導致概要文件指示每個特征中序列的相對比例相對于在指定概要文件級別分類的序列肥照。由于樣本之間Unclassified序列的比例可能會有很大差異,這可能會導致截然不同的分類吕朵。
整體錯誤率(Family-wise error rate)控制
Statistical properties:統(tǒng)計學測試边锁,post-hoc測試以及置信區(qū)間寬度茅坛,效應大小和多重測試校正方法(multiple test correction method )的使用都可以在其中指定。
Filtering: 過濾部分提供多個過濾器斥铺,用于識別滿足一組標準的特征(即,期望的p值和效果大刑藿弧)。 本節(jié)底部顯示了通過指定過濾器的功能的數(shù)量竭鞍。 為了允許調查特定功能偎快,STAMP還支持選擇功能的子集。 使用Select features對話框執(zhí)行特征選擇惋戏,通過單擊Select features按鈕可以訪問該對話框。 在這個對話框中舔亭,可以選擇或刪除特定父類別中的個別特征或所有特征订雾。對這些選定特征執(zhí)行過濾,以允許調查具有特定特性的特定子集矛洞。 要調查一部分功能而不執(zhí)行任何過濾洼哎,請檢查所有過濾器。
表1中給出了STAMP中用于分析多個組的方法列表沼本。
統(tǒng)計假設檢驗 | 描述 | 參考文獻 |
---|---|---|
ANOVA | 方差分析(ANOVA)是一種測試幾組手段是否相等的方法噩峦。 它可以被看作是對兩個以上小組的t檢驗的推廣。 | Bluman, 2007 |
Kruskal-Wallis H-test | 用于測試幾組的中位數(shù)是否相等的非參數(shù)方法抽兆。 它考慮每個樣本的排序识补,而不是與某個要素相關的序列的實際比例切油。 這有利于不假設數(shù)據(jù)是正態(tài)分布的。 每個組必須包含至少5個樣本才能應用此測試阁苞。 | Bluman, 2007 |
Post-hoc tests | ↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓ | ↓↓↓↓↓ |
Games-Howell | 當ANOVA產(chǎn)生顯著的p值時,用于確定哪些方法顯著不同。 這個事后測試是為差異和組大小不相等而設計的。 Tukey-Kramer更傾向于當方差不等并且組大小很小時邀摆,但它在計算上更昂貴曹仗。 | |
Scheffè | 考慮所有可能的對比的一般事后檢驗不同于Tukey-Kramer方法,它只考慮一對平均值掉伏。 目前栈暇,STAMP只考慮一對手段,所以TukeyKramer方法是首選埂淮。 一般來說躏啰,這個測試非常保守。 | Bluman, 2007 |
Tukey-Kramer | 當ANOVA產(chǎn)生顯著的p值時珊佣,用于確定哪些方法顯著不同。 它考慮了所有可能的手段對,同時控制了家族錯誤率(即考慮多重比較)攒发。 一般來說,我們建議在報告最終結果時使用Games-Howell post-hoc測試,并采用Tukey-Kramer方法進行探索性分析转锈,因為它的計算量較小影涉。 Tukey-Kramer也可能是首選豁陆,因為它在研究人員中被更廣泛地使用和知曉诸衔。 | Bluman, 2007 |
Welch’s (uncorrected) | 簡單地對每種可能的手段進行韋爾奇的t檢驗切揭。 沒有努力來控制家族錯誤率。 | |
Multiple test correction methods | ||
Benjamini-Hochberg FDR | 控制錯誤發(fā)現(xiàn)率而不是家族錯誤的初始建議锁摔。 降壓程序廓旬。 | Benjamini and Hochberg,1995 |
Bonferroni | 用于控制家族錯誤的經(jīng)典方法。 常被批評為過于保守谐腰。 | Adbi, 2007 |
?idák | 較不常見的控制家族錯誤率的方法孕豹。 一致性比Bonferroni更強大,但需要假設個別測試是獨立的怔蚌。 | Adbi, 2007 |
Storey’s FDR | 最近用來控制錯誤發(fā)現(xiàn)率的方法巩步。 比Benjamini-Hochberg方法更強大。 需要估算某些參數(shù)桦踊,并且比Benjamini-Hochberg方法計算量更大椅野。 | Storey and Tibshirani, 2003 Storey et al., 2004 |
表1. STAMP中可用的多組統(tǒng)計技術。 我們的建議以粗體顯示.
結果的圖形化探索:以下圖表用于探索多組分析的結果:
- Bar plot: 條形圖指示分配給每個特征的序列的比例。 繪圖特征從繪圖右側的表格中選擇(圖3)竟闪。 該表格可以移入和移出以提供劇情的額外空間离福。 可以對表格列進行排序,以專注于具有較低p值或較大效應大小的特征炼蛤。 此外妖爷,通過選中僅顯示活動功能復選框,表格可以限制為通過指定過濾器的功能理朋。 圖3中的例子顯示了每個樣品中擬桿菌屬的比例絮识,并揭示了腸桿菌屬1內該屬的過量豐度。Arumugam et al嗽上。 (2011)也建議前列腺球菌和瘤胃球菌屬可用于區(qū)分腸型次舌。
- Box plot 箱形圖與條形圖相似,除了使用箱須圖形指示的組合比例內的比例分布(圖4)洼畅。 這提供了一個更簡潔的比例在一個組內的比例分布吩案。 盒須圖形顯示數(shù)據(jù)的中位數(shù)為一條線,數(shù)據(jù)的均值為星號土思,數(shù)據(jù)的第25和第75百分位為盒子的頂部和底部务热,并使用晶須指示最極端的數(shù)據(jù) 指數(shù)中位數(shù)為1.5 *(第75百分位 - 第25百分位數(shù))。 晶須外的數(shù)據(jù)點顯示為十字己儒。
- Heatmap plot 指示分配給每個特征的序列比例的熱圖。 樹狀圖可以沿著熱圖的兩側顯示濒憋,并用于聚類特征和樣本何暇。 僅繪制活動特征復選框可用于將熱圖限制為僅通過過濾標準的特征。
- PCA plot: 樣品的主成分分析(PCA)圖凛驮。 點擊圖中的標記表示由標記表示的樣本裆站。 在確定PCA轉換之前,除了對數(shù)據(jù)進行居中之外,沒有任何縮放宏胯。
- Post-hoc plot: 多組統(tǒng)計檢驗(即ANOVA或KruskalWallis)的無效假設是所有組的平均值相等羽嫡。 如果p值足夠小以表明這個零假設應該被拒絕,那么我們只能得出結論肩袍,所有組的手段都是不相等的杭棵。 如果我們希望確定哪一組對可能彼此不同,則必須進行事后檢驗氛赐。 事后圖顯示了這種測試的結果魂爪。 它為每組對提供了一個p值和一個影響大小的度量(圖5)。 在類桿菌的情況下艰管,發(fā)現(xiàn)Enterotype 1的平均豐度與2型和3型的平均豐度顯著不同(p≤0.001)甫窟。相反,腸型2和3的平均豐度沒有顯著差異(p≥0.1)蛙婴。
結果表格視圖:
多組分析的結果在多組統(tǒng)計表中列表。 該表格通過View-> Multiple group statistics tablemenu項目進行訪問餐济。 結果表可以驮爬蓿靠或留作浮動窗口。 可以對列進行排序以幫助識別感興趣的模式絮姆。 通過選中“Show only active features”復選框醉冤,可以將結果限制為僅活動特征(通過指定過濾器的特征)。 可以使用Save按鈕保存表格篙悯。 表格以文本文件形式保存為制表符分隔值格式蚁阳,任何文本編輯器和大多數(shù)電子表格程序都可以讀取它們。
7.2 兩組間的差異檢驗
設置統(tǒng)計分析屬性:
要分析一組組鸽照,請在Properties窗口中單擊Two groups選項卡螺捐。 無論是分析多個組還是一對組,分組均由Group legend窗口中Group字段組合框的值確定矮燎。 在本節(jié)中定血,我們將考慮通過將分組字段設置為性別,男性和女性的腸道微生物群是否存在組成差異诞外。
sed ":a;N;s/\n//g;ta" ll # sed去掉換行符
統(tǒng)計屬性通過屬性窗口設置澜沟。 父級別,簡檔級別和未分類序列的處理設置均適用于所有分析(即多個組峡谊,兩個組和兩個樣本)茫虽。 分析特定屬性在“屬性”窗口的分析類型選項卡下給出刊苍。
Profile:配置文件部分用于指定將分析哪組配對。 在這種情況下席噩,我們只有兩個組(男性和女性)班缰,所以我們不需要改變這些值。 通過點擊這些組旁邊的顏色按鈕悼枢,也可以更改與兩組相關的顏色埠忘。 組2也可以設置為<所有其他樣本>,在這種情況下馒索,所有不包含組1的樣本都用于組成第二組莹妒。 這對于將一組特定的樣本與研究中的其他樣本進行比較是有用的。
Statistical properties :統(tǒng)計測試绰上,置信區(qū)間方法和寬度旨怠,以及多個使用的測試校正方法都可以在本節(jié)中指定。 可以進行單側或雙側的統(tǒng)計假設檢驗蜈块,盡管通常應該使用雙側檢驗來解決在Rals等人討論的原因鉴腻。(2007年)。 表2給出了STAMP中分析兩組的方法列表百揭。
統(tǒng)計假設檢驗 | 描述 | 參考文獻 |
---|---|---|
t-test (equal variance) | 明確假定兩組具有相同方差的學生t檢驗爽哎。 當這個假設可以做出時任岸,這個測試比Welch的t檢驗更強大 | Bluman, 2007 |
Welch’s t-test | 當兩組不能被假定具有相同的方差時改览,用于學生t檢驗的變體唤冈。 | Bluman, 2007 |
White’s non-parametric t-test | White等人提出的非參數(shù)測試做葵。 用于臨床統(tǒng)計學數(shù)據(jù)。 該測試使用排列過程來消除標準t檢驗的正態(tài)性假設牺堰。 此外九秀,它使用一種啟發(fā)式方法來識別稀疏特征嘁锯,這些稀疏特征由Fisher的精確測試(Fisher’s exact test)處理请毛,并且當任何一個組由少于8個樣本組成時志鞍,用池化策略處理(a pooling strategy)。 有關詳細信息获印,請參見White et al述雾。,2009兼丰。對于大型數(shù)據(jù)集,此測試可能在計算上很昂貴唆缴。 它可能有助于減少可在Preferences-> Settings對話框中設置的復制次數(shù)鳍征。 | White et al., 2009 |
置信區(qū)間方法 | ||
DP: t-test inverted | 只有在使用相等方差t檢驗時才可用。 通過反轉等方差t檢驗來提供置信區(qū)間面徽。 | |
DP: Welch’s inverted | 僅在使用Welch的t檢驗時才可用艳丛。 通過反轉韋爾奇的t檢驗來提供置信區(qū)間匣掸。 | |
DP: bootstrap | 僅在使用White的非參數(shù)t檢驗時才可用。 使用百分比自舉方法提供置信區(qū)間氮双。 如果White的非參數(shù)t檢驗默認使用Fisher精確檢驗碰酝,則使用CC漸近方法獲得置信區(qū)間(參見表3)。 | |
多重檢驗校正方法 | ||
Benjamini-Hochberg FDR | 控制錯誤發(fā)現(xiàn)率而不是家族錯誤的初始建議戴差。 降壓程序 | Benjamini and Hochberg, |
1995 | ||
Bonferroni | 用于控制家族錯誤的經(jīng)典方法送爸。 常被批評為過于保守。 | Adbi, 2007 |
?idák | 較不常見的控制家族錯誤率的方法暖释。 一致性比Bonferroni更強大袭厂,但需要假設個別測試是獨立的。 | Adbi, 2007 |
Storey’s FDR | 最近用來控制錯誤發(fā)現(xiàn)率的方法球匕。 比Benjamini-Hochberg方法更強大纹磺。 需要估算某些參數(shù),并且比Benjamini-Hochberg方法計算量更大亮曹。 | Storey and Tibshirani, 2003 Storey et al., 2004 |
表2. STAMP中可用的兩組統(tǒng)計技術橄杨。 我們的建議以粗體顯示。 DP =平均比例之間的差異照卦。
兩組間的比較為什么還要做多重檢驗分析式矫?因為每個樣本有多個指標。高通量數(shù)據(jù)的多重檢驗問題
Filtering:過濾部分提供了大量的過濾器窄瘟,用于識別滿足一套標準的特征衷佃,其中特征的數(shù)量通過在該部分底部指明的指定過濾器。注意可以使用選擇特征來關注特定的特征子集 對話蹄葱。 提供的過濾器如下所示:
- p-value filter: 刪除p值大于指定值的所有要素
- Sequence filter: 允許刪除已分配少于指定數(shù)量序列的功能氏义。 對于給定特征的序列的最大或最小數(shù)量,可以將過濾應用于兩組中的樣本图云。 或者惯悠,可以獨立地應用過濾到每個組內的樣本,并且如果任一組內的樣本含有不足數(shù)量的序列竣况,則過濾特征克婶。
- Parent sequence filter: 與序列過濾器相同,除了應用于父類別中的序列計數(shù)丹泉。
- Effect size filters: 效果大小過濾器:可以移除小效果大小的功能情萤。 可以在兩個不同的效果大小統(tǒng)計信息上執(zhí)行過濾。 這允許人們既過濾絕對(即摹恨,比例之間的差異)和有效化的相對(即比例比率)度量筋岛。 可以應用這些過濾器,以便過濾掉任一條件(邏輯OR運算符)或兩個條件(邏輯AND運算符)的功能晒哄。 這些效應大小過濾器適用于組內所有樣本的平均比例睁宰。
結果的圖形化探索:
提供以下圖表用于探索兩組分析的結果:
- Bar plot :指示分配給每個特征的序列比例的條形圖肪获。從圖表右側的表格中選擇要素圖的特征。
- Box plot:箱形圖類似于條形圖柒傻,除了使用箱須圖形指示的組合比例內的比例分布孝赫。這提供了一個組中比例分布的更簡潔的總結。盒須圖形顯示數(shù)據(jù)的中位數(shù)為一條直線红符,數(shù)據(jù)的均值為星號青柄,數(shù)據(jù)的第25和第75百分位為盒子的底端,并使用晶須指示最極端的數(shù)據(jù)在中位數(shù)的1.5 *(第75百分位 - 第25百分位)內违孝。晶須外部的數(shù)據(jù)點顯示為交叉點刹前。
- Heatmap plot:指示分配給每個特征的序列比例的熱圖〈粕#可以在熱圖兩側顯示聚類圖喇喉,并用于聚類特征和樣本。僅繪制活動特征復選框可用于將熱圖限制為僅通過過濾標準的特征校坑。
- PCA plot :樣本的主成分分析(PCA)圖拣技。點擊圖中的標記指示由標記表示的樣本。在確定PCA變換之前耍目,除了對數(shù)據(jù)進行居中之外膏斤,不進行任何比例縮放。
- Scatter plot :指示每個組中分配給每個特征的序列的平均比例邪驮。這個圖對于識別明顯富集于其中一個雙組中的特征非常有用莫辨。每個組內數(shù)據(jù)的擴散可以用不同的方式顯示(例如,標準偏差毅访,最小和最大比例)
- Extended error bar: :表示兩組之間平均比例的差異以及該效應大小的相關置信區(qū)間和指定統(tǒng)計檢驗的p值沮榜。另外,條形圖指示在每組中分配給一個特征的序列的平均比例喻粹。我們認為這是推斷特征生物相關性所需的最少量信息蟆融。圖6給出了腸炎菌型數(shù)據(jù)的擴展誤差棒圖。
結果表格視圖:兩組分析的結果列在兩組統(tǒng)計表中查乒。 該表格通過View->Two group statistics table菜單項訪問弥喉。
7.3 兩個樣本之間的差異檢驗
設置統(tǒng)計檢驗參數(shù)
要分析一對樣本,請單擊屬性窗口中的兩個樣本選項卡玛迄。 在本節(jié)中档桃,我們將考慮兩個雙胞胎AM-F10-T1和AM-F10-T2之間腸道微生物群是否存在組成差異。