——PCA代码 |
PCA主成分分析
测序技术的发展使得现在能够从宏观角度分析基因表达,但是也在一定程度上增加了数据分析难度。许多基因之间可能存在相关性,如果分别对每个基因进行分析,分析往往是孤立的,盲目减少指标会损失很多有用的信息。PCA(Principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法。一般可应用的研究方向有:一组基因在多个分组中的差异情况,多个基因在该样本中的差异情况。
基本原理
PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。
PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴,新的坐标轴的选择与数据本身是密切相关的。其中,第一个新坐标轴选择是原始数据中方差最大的方向,第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的,第三个轴是与第1,2个轴正交的平面中方差最大的。依次类推,可以得到n个这样的坐标轴。通过这种方式获得的新的坐标轴,我们发现,大部分方差都包含在前面k个坐标轴中,后面的坐标轴所含的方差几乎为0。于是,我们可以忽略余下的坐标轴,只保留前面k个含有绝大部分方差的坐标轴。事实上,这相当于只保留包含绝大部分方差的维度特征,而忽略包含方差几乎为0的特征维度,实现对数据特征的降维处理。
术语解读
数据降维:
降维就是一种对高维度特征数据预处理方法。降维是将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的。在实际的生产和应用中,降维在一定的信息损失范围内,可以为我们节省大量的时间和成本。降维也成为应用非常广泛的数据预处理方法。
数据要求:
表达谱芯片或测序数据(已经过预处理)
下游分析
得到PCA分析结果之后的分析有:
1.对组成主要成分的基因进行后续分析,探究该情况下关键基因表达情况
2.对组成不同主成分簇的基因进行后续分析,探究该情况下不同基因集的表达情况
图形示例:
PCA主成分分析观察不同分组整体差异情况
图注:右下角图例表示不同颜色代表不同实验组,可以看到在0hrs组与pro-B组、24hrs与72hrs整体差别不大,而前两者与后两者差异较大。
PCA主成分分析验证不同基因集在不同分组的表达模式差异
图注:不同颜色代表不同实验组,可以看到所筛选基因集在BRCA、OV、LUCA三种疾病中表达模式差别较大。
应用示例:
文献1:Alternative splicing promotes tumour aggressiveness and drug resistance inAfrican American prostate cancer(于2017年6月发表在Nat Commun. ,影响因子11.878)
选择性剪接促进非裔美国人前列腺癌的肿瘤侵袭性和耐药性
该文献对非裔美国人和欧裔美国人中外显子进行PCA主成分分析,可以看到通过外显子能很好的将非裔美国人和欧裔美国人样本区分开,说明非裔美国人和欧裔美国人前列腺癌中主导的外显子剪切存在一定差异。
文献2:Identification and Functional Validation of Reciprocal microRNA-mRNAPairings in African American Prostate Cancer Disparities(于2015年12月发表在Clin Cancer Res.,影响因子8.911)
非裔美国人前列腺癌中microRNA-mRNA相互配对的鉴定和功能验证
该文献对非裔美国人和欧裔美国人中miRNA和mRNA进行PCA主成分分析,可以看到通过miRNA和mRNA的表达,能很好的将非裔美国人和欧裔美国人样本区分开,说明非裔美国人和欧裔美国人前列腺癌中主导的miRNA和mRNA存在一定差异。