PCOA analysis and plot PCOA(主坐标分析)
PCoA分析,即主坐标分析(principal co-ordinates analysis),也是一种非约束性的数据降维分析方法,可用来研究样本群落组成的相似性或差异性,与PCA分析类似;主要区别在于,PCA基于欧氏距离,PCoA基于除欧氏距离以外的其它距离,通过降维找出影响样本群落组成差异的潜在主成分。
PCoA分析,首先对一系列的特征值和特征向量进行排序,然后选择排在前几位的最主要特征值,并将其表现在坐标系里,结果相当于是距离矩阵的一个旋转,它没有改变样本点之间的相互位置关系,只是改变了坐标系统。
输入:
样本距离矩阵文件,由分析模块 "Generate distance matrix from OTU Table in biom format" 生成。
Bio1 Bio2 Bio3 Bio4 Bio5
Bio1 0 0.1984 0.238883 0.222763 0.259351
Bio2 0.1984 0 0.127324 0.153768 0.160351
Bio3 0.238883 0.127324 0 0.194398 0.147496
Bio4 0.222763 0.153768 0.194398 0 0.20812
Bio5 0.259351 0.160351 0.147496 0.20812 0
样品分组信息表(可选):
Bio1 G1
Bio2 G1
Bio3 G1
Bio4 G1
Bio5 G2
Bio6 G2
Bio7 G2
Bio8 G3
Bio9 G3
Bio10 G3
其他参数默认。
输出:
pcoa_sites.txt:记录了样本在各个维度上的位置,其中Pco1为x轴,Pco2为y轴,依此类推。
pcoa_rotation.txt:记录了每个OTU对各主成分的贡献度。
pcoa_importance.txt:记录了各维度解释结果的百分比。如果PC1值为50%,则表示x轴的差异可以解释全面分析结果的50%。
pcoa_plot.pdf: PCoA图
示例:Multiple samples PCoA analysis
注:不同颜色或形状的点代表不同环境或条件下的样本组,横、纵坐标轴的刻度是相对距离,无实际意义。PC1、PC2分别代表对于两组样本微生物组成发生偏移的疑似影响因素,需要结合样本特征信息归纳总结,例如A组(红色)和B组(蓝色)样本在PC1轴的方向上分离开来,则可分析为PC1是导致A组和B组分开(可以是两个地点或酸碱不同)的主要因素,同时验证了这个因素有较高的可能性影响了样本的组成。
分析模块引用R语言(v2.12.1)中的PCoA统计和分析函数进行数据运算和做图。
相关文献如下所示:
Becker, R. A., Chambers, J. M. and Wilks, A. R. (1988) The New S Language. Wadsworth & Brooks/Cole.
Mardia, K. V., J. T. Kent, and J. M. Bibby (1979) Multivariate Analysis, London: Academic Press.
Venables, W. N. and B. D. Ripley (2002) Modern Applied Statistics with S, Springer-Verlag.