侃一下PCA。</br>

数学原理什么的不详述。CodingLabs的这篇博文讲得很容易理解《PCA的数学原理》。 </br> 关于PCA,我们不需要研究它的具体数学原理,只需要记住几个关键词就可以了。“无参数”,“特征向量”,“降维”。</br> 简而言之,PCA把原始的多维数据变换到新构建的坐标系中,数据变换的第一大方差在第一坐标(即第一主成分上),第二大方差在第二坐标上,以此类推。PCA分析时,选取数据集的最大的几个主成分代表整个数据集的情况,这种降维思想就是为了保留数据集中最重要的部分,忽略一些不重要的部分,从而减轻数据处理的工作量。</br>

MDS(Multidimensional scaling),多维标度,也是多重变量的分析方法,和PCA有一定的相似性。</br> MDS分解距离矩阵,PCA使用相关性或者说是协方差矩阵。 当MDS分析时,采用欧几里得距离,MDS和PCA的结果是一致的。 plink1.07提供的mds方法是--cluster --mds-plot 10,先利用--cluster计算出了距离矩阵ibs(identity by state),然后对这个距离矩阵进行分解,指定分解的维度为10而计算mds。plink1.09提供的--pca直接是采用了smartpca的计算方法求解pca。