LDA Effect Size (LEfSe) Analysis(LEfSe丰度差异分析)
LEfSe[1]是一种用于发现高维生物标识和揭示基因组特征的软件。包括基因,代谢和分类,用于区别两个或两个以上生物条件(或者是类群)。该算法强调的是统计意义和生物相关性。让研究人员能够识别不同丰度的特征以及相关联的类别。
LEfSe通过生物学统计差异使其具有强大的识别功能。然后,它执行额外的测试,以评估这些差异是否符合预期的生物学行为。具体来说,首先使用non-parametric factorial Kruskal-Wallis (KW) sum-rank test(非参数因子克鲁斯卡尔—沃利斯和秩验检)检测具有显著丰度差异特征,并找到与丰度有显著性差异的类群。最后,LEfSe采用线性判别分析(LDA)来估算每个组分(物种)丰度对差异效果影响的大小。
下图展示了LEfSe算法的工作原理:
输入:
LEfSe分析输入配置文件,可通过分析模块 " LEfSe formatting Generate Input config file for LEFSe Analysis" 得到。
输出:
LEfSe分析输出结果文件(表格文件):
第一列为feature
第二列为各组分丰度平均值中最大值的对数值(the logarithm value of the highest mean among all the classes)
如果feature在组间具有显著性差异,则,
第三列为平均值最高的组(the class with the highest mean)
第四列为the logarithmic LDA score
第五列为检验的p值
分析模块引用了LEfSE[2](v1.0)软件 ( https://bitbucket.org/biobakery/biobakery/wiki/lefse)。
相关文献如下所示:
[1] Chenhong Zhang, Shoufeng Li, Liu Yang, et al. Structural modulation of gut microbiota in life-long calorie-restricted mice. NATURE COMMUNICATIONS,4:2163,DOI:10.1038/ncomms3163(2013).
[2] Segata N, Izard J, Waldron L, Gevers D, Miropolsky L et al. (2011) Metagenomic biomarker discovery and explanation. Genome Biol 12: R60.10.1186/gb-2011-12-6-r60 PubMed: 21702898.