PCA方法分析群体遗传结构
侃一下PCA。</br>
数学原理什么的不详述。CodingLabs的这篇博文讲得很容易理解《PCA的数学原理》。 </br> 关于PCA,我们不需要研究它的具体数学原理,只需要记住几个关键词就可以了。“无参数”,“特征向量”,“降维”。</br> 简而言之,PCA把原始的多维数据变换到新构建的坐标系中,数据变换的第一大方差在第一坐标(即第一主成分上),第二大方差在第二坐标上,以此类推。PCA分析时,选取数据集的最大的几个主成分代表整个数据集的情况,这种降维思想就是为了保留数据集中最重要的部分,忽略一些不重要的部分,从而减轻数据处理的工作量。</br>
MDS(Multidimensional scaling),多维标度,也是多重变量的分析方法,和PCA有一定的相似性。</br>
MDS分解距离矩阵,PCA使用相关性或者说是协方差矩阵。
当MDS分析时,采用欧几里得距离,MDS和PCA的结果是一致的。
plink1.07提供的mds方法是--cluster --mds-plot 10
,先利用--cluster
计算出了距离矩阵ibs(identity by state),然后对这个距离矩阵进行分解,指定分解的维度为10而计算mds。plink1.09提供的--pca
直接是采用了smartpca的计算方法求解pca。