PCA analysis and plot PCA(主成分分析)
PCA分析(Principal Component Analysis)[1],即主成分分析,是一种对数据进行简化分析的技术,这种方法可以有效的找出数据中最“主要”的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。PCA运用方差分解,将多组数据的差异反映在二维坐标图上,坐标轴取能够最大反映方差值的两个特征值。如样本组成越相似,反映在PCA图中的距离越近。不同环境间的样本可能表现出分散和聚集的分布情况,PCA结果中对样本差异性解释度最高的两个或三个成分可以用于对假设因素进行验证。
输入:
OTU Table文件:
OTU ID Bio1 Bio2 Bio3 Bio4 Bio5 Bio6 Bio7 Bio8 Bio9 Bio10
OTU1 0 0 0 0 0 6 34 104 367 254
OTU2 52 335 18 49 0 0 0 0 0 0
OTU3 0 0 0 0 5 0 0 0 0 0
样品分组信息表(可选):
Bio1 G1
Bio2 G1
Bio3 G1
Bio4 G1
Bio5 G2
Bio6 G2
Bio7 G2
Bio8 G3
Bio9 G3
Bio10 G3
其他参数默认。
输出:
pca.sites.txt:记录了样本在各个维度上的位置,其中PC1为x轴,PC2为y轴,依此类推。
pca_rotation.txt:记录了每个OTU对各主成分的贡献度。
pca_importance.txt:记录了各维度解释结果的百分比。如果PC1值为50%,则表示x轴的差异可以解释全面分析结果的50%。
pca_plot.pdf : PCA图
示例:Multiple samples PCA analysis
注:PCA 分析图是基于每个样品中所含有的全部OTU 完成的,图中每个点代表了一个样本。两点之间在横、纵坐标上的距离,代表了样品受主成分(PC1 或 PC2)影响下的相似性距离;样本数量越多,该分析意义越大;反之样本数量过少,会产生个体差异,导致PCA分析成图后形成较大距离的分开。
分析模块引用R语言(v2.12.1)中的PCA统计和分析函数进行数据运算和做图。
相关文献如下所示:
[1] Yu Wang, Hua-Fang Sheng, et al. Comparison of the Levels of Bacterial Diversity in Freshwater, Intertidal Wetland, and Marine Sediments by Using Millions of Illumina Tags. Appl. Environ. Microbiol. 2012, 78(23):8264. DOI: 10.1128/AEM.01821-12.
Becker, R. A., Chambers, J. M. and Wilks, A. R. (1988) The New S Language. Wadsworth & Brooks/Cole.
Mardia, K. V., J. T. Kent, and J. M. Bibby (1979) Multivariate Analysis, London: Academic Press.
Venables, W. N. and B. D. Ripley (2002) Modern Applied Statistics with S, Springer-Verlag.