PLS-DA and plot Plsda(Plsda分析)
PLS-DA(Partial Least Squares Discriminant Analysis),即偏最小二乘法判别分析,是多变量数据分析技术中的判别分析法,经常用来处理分类和判别问题。通过对主成分适当的旋转,PLS-DA可以有效的对组间观察值进行区分,并且能够找到导致组间区别的影响变量。
PLS-DA采用了经典的偏最小二乘回归模型,其响应变量是一组反应统计单元间类别关系的分类信息,是一种有监督的判别分析方法。因无监督的分析方法(PCA)对所有样本不加以区分,即每个样本对模型有着同样的贡献,因此,当样本的组间差异较大,而组内差异较小时,无监督分析方法可以明显区分组间差异;而当样本的组间差异不明晰,而组内差异较大时,无监督分析方法难以发现和区分组间差异。另外,如果组间的差异较小,各组的样本量相差较大,样本量大的那组将会主导模型。有监督的分析(PLS-DA)能够很好的解决无监督分析中遇到的这些问题。
与PCA分析的原理相同,PLS利用偏最小二乘法对数据结构进行投影分析。但PLS与PCA数据有本质的不同,PCA分析方法中只有一个数据集X,所有分析都只是基于这个唯一的数据集,对应于一个多维空间。而PLS分析是建立在两个数据集X和Y基础上的,因此也就对应地存在两个多维空间,在利用投影方法计算PLS第一个主成分后,分别得到X和Y空间的两条轴线以及各个样本点在X和Y空间周上的得分t1、u1。对X和Y数据的关联分析就是将所有样本在X和Y空间第一个主成分轴上的得分t1、u1分别作相关分析,可以表示为ui1 = ti1+ri1,i表示不同样本,ri1表示残差。对应的,经过第二个主成分计算可以得到t2、u2,有关系式ui2 = ti2+ri2 。
如果用t1 、t2作图,表示数据集X的PCA得分图,而如果用t1、u1作图就表示第一个主成分下数据集X与数据集Y相关性。与PCA的载荷图(变量分布散点图)相类似,PLS可以用权重方式对X、Y数据集中的变量进行相关联,找出变量之间的关系。
PLS-DA只需要一个数据集X,但在分析时必须对样本进行指定分组,这样分组后模型自动加上另外一个隐含的数据集Y,该数据集变量数等于组别数,赋值时把指定的那一组规定为1,其他所有值均为0。其他计算方法与上述PLS方法相同。这种模型计算的方法强行把各组分门别类,有利于发现组间的异同点。
下图展示了无监督的PCA方法和有监督的PLS-DA之间的区别。
输入:
OTU Table文件:
OTU ID Bio1 Bio2 Bio3 Bio4 Bio5 Bio6 Bio7 Bio8 Bio9 Bio10
OTU1 0 0 0 0 0 6 34 104 367 254
OTU2 52 335 18 49 0 0 0 0 0 0
OTU3 0 0 0 0 5 0 0 0 0 0
样品分组信息表(可选):
Bio1 G1
Bio2 G1
Bio3 G1
Bio4 G1
Bio5 G2
Bio6 G2
Bio7 G2
Bio8 G3
Bio9 G3
Bio10 G3
输出:
plsda_sites.txt:记录了样本在各个维度上的位置,其中comp 1为x轴,comp 2为y轴。
plsda_rotation.txt:记录了OTU或者物种对各主成分的贡献度。
plsda_importance.txt:记录了各维度解释结果的百分比。如果plsda1值为50%,则表示x轴的差异可以解释全面分析结果的50%。
plsda_plot.pdf : plsda图
示例:Multiple groups plsda analysis
注:不同颜色或形状的点代表不同环境或条件下的样本组,横、纵坐标轴的刻度是相对距离,无实际意义。plsda1、plsda2分别代表对于两组样本微生物组成发生偏移的疑似影响因素,需要结合样本特征信息归纳总结,例如A组(红色)和B组(蓝色)样本在plsda1轴的方向上分离开来,则可分析为plsda1是导致A组和B组分开(可以是两个地点或酸碱不同)的主要因素,同时验证了这个因素有较高的可能性影响了样本的组成。
分析模块引用了R语言(v3.2.3)mixOmics包(v5.2.0)中的plsda分析和作图。
相关文献如下所示:
Perez-Enciso, M. and Tenenhaus, M. (2003). Prediction of clinical outcome with microarray data: a partial least squares discriminant analysis (PLS-DA) approach. Human Genetics 112, 581-592.
Nguyen, D. V. and Rocke, D. M. (2002). Tumor classification by partial least squares using microarray gene expression data. Bioinformatics 18, 39-50.
Tenenhaus, M. (1998). La regression PLS: theorie et pratique. Paris: Editions Technic.