LEfSe[1]是一種用于發(fā)現(xiàn)高維生物標識和揭示基因組特征的軟件盈包。包括基因貌矿,代謝和分類,用于區(qū)別兩個或兩個以上生物條件(或者是類群)溯乒。該算法強調(diào)的是統(tǒng)計意義和生物相關(guān)性杯道。讓研究人員能夠識別不同豐度的特征以及相關(guān)聯(lián)的類別匪煌。
LEfSe通過生物學統(tǒng)計差異使其具有強大的識別功能。然后党巾,它執(zhí)行額外的測試萎庭,以評估這些差異是否符合預(yù)期的生物學行為。具體來說齿拂,首先使用non-parametric factorial Kruskal-Wallis (KW) sum-rank test(非參數(shù)因子克魯斯卡爾—沃利斯和秩驗檢)檢測具有顯著豐度差異特征驳规,并找到與豐度有顯著性差異的類群。最后创肥,LEfSe采用線性判別分析(LDA)來估算每個組分(物種)豐度對差異效果影響的大小达舒。
LEfSe軟件用于發(fā)現(xiàn)兩組或兩組以上的biomarker,主要是通過非參數(shù)因子Kruskal-Wallis秩和檢驗來實現(xiàn)的叹侄。
運行LEfSe軟件主要分三大步驟:第一步:需要把普通的物種巩搏、基因等等的豐度信息的表格轉(zhuǎn)化成LEfSe識別的格式。這一步會生成.in結(jié)尾的文件
第二步:這一步也是最關(guān)鍵的一步趾代,統(tǒng)計顯著差異的biomarker贯底、統(tǒng)計子組組間差異、統(tǒng)計effect sizes(LDA score)撒强,會生成.res格式的文件禽捆。如下圖所示
Step1:兩組或兩組以上的樣本中采用的非參數(shù)因子Kruskal-Wallis秩和檢驗檢測出biomarker。
Step2:基于上步的顯著差異物種基因飘哨,進行兩兩組之間的Wilcoxon秩和檢驗胚想,檢測出組間差異。
Step3:線性判別分析(LDA)對biomarker進行評估差異顯著的物種的影響力(即LDA score)芽隆,最終獲得biomarker浊服。
第三步:基于第二大步的數(shù)據(jù),繪制各種圖片胚吁。
下圖展示了LEfSe算法的工作原理:
輸入:
LEfSe分析輸入配置文件牙躺,可通過分析模塊 " LEfSe formatting Generate Input config file for LEFSe Analysis" 得到。
輸出:
LEfSe分析輸出結(jié)果文件(表格文件):
**列為feature
第二列為各組分豐度平均值中**值的對數(shù)值(the logarithm value of the highest mean among all the classes)
如果feature在組間具有顯著性差異腕扶,則孽拷,
第三列為平均值最高的組(the class with the highest mean)
第四列為the logarithmic LDA score
第五列為檢驗的p值
分析模塊引用了LEfSE[2](v1.0)軟件 ( https://bitbucket.org/biobakery/biobakery/wiki/lefse)。
LEfSe在線工具地址:https://huttenhower.sph.harvard.edu/galaxy/
參考文章:
http://www.reibang.com/p/35e3f725c554 (介紹在線分析方法)
https://blog.csdn.net/weixin_44207974/article/details/111570993 (LEfSE原理講解)
https://blog.csdn.net/sinat_38163598/article/details/73528079
http://www.360doc.com/content/17/1115/00/33459258_703906446.shtml
http://blog.sina.com.cn/s/blog_55cbb3d10102wedp.html (這三篇文章解讀LEfse)
lefse分析(LDA差異貢獻分析)
LDA差異貢獻分析半抱,PCA和LDA的差別在于脓恕,PCA膜宋,它所作的只是將整組數(shù)據(jù)整體映射到最方便表示這組數(shù)據(jù)的坐標軸上,映射時沒有利用任何數(shù)據(jù)內(nèi)部的分類信息炼幔,是無監(jiān)督的激蹲,而LDA是由監(jiān)督的,增加了種屬之間的信息關(guān)系后江掩,結(jié)合顯著性差異標準測試(克魯斯卡爾-沃利斯檢驗和兩兩Wilcoxon測試)和線性判別分析的方法進行特征選擇。除了可以檢測重要特征乘瓤,他還可以根據(jù)效應(yīng)值進行功能特性排序环形,這些功能特性可以解釋頂部的大部分生物學差異。使用LefSe軟件分析獲得衙傀,其中顯著差異的logarithmic LDA score設(shè)為2抬吟。
問題:LDA分析有什么用?
回答:組間差異顯著物種又可以稱作生物標記物(biomarkers)统抬,該分析主要是想找到組間在豐度上有顯著差異的物種火本。
這是用于微生物的請配合看博主對應(yīng)的lefse分析文章來使用。
文獻如下所示:
[1] Chenhong Zhang, Shoufeng Li, Liu Yang, et al. Structural modulation of gut microbiota in life-long calorie-restricted mice. NATURE COMMUNICATIONS,4:2163,DOI:10.1038/ncomms3163(2013).
[2] Segata N, Izard J, Waldron L, Gevers D, Miropolsky L et al. (2011) Metagenomic biomarker discovery and explanation. Genome Biol 12: R60.10.1186/gb-2011-12-6-r60 PubMed: 21702898.