PCA方法分析群体遗传结构

侃一下PCA。

数学原理什么的不详述。CodingLabs的这篇博文讲得很容易理解《PCA的数学原理》。 关于PCA，我们不需要研究它的具体数学原理，只需要记住几个关键词就可以了。“无参数”，“特征向量”，“降维”。 简而言之，PCA把原始的多维数据变换到新构建的坐标系中，数据变换的第一大方差在第一坐标（即第一主成分上），第二大方差在第二坐标上，以此类推。PCA分析时，选取数据集的最大的几个主成分代表整个数据集的情况，这种降维思想就是为了保留数据集中最重要的部分，忽略一些不重要的部分，从而减轻数据处理的工作量。

MDS(Multidimensional scaling)，多维标度，也是多重变量的分析方法，和PCA有一定的相似性。 MDS分解距离矩阵，PCA使用相关性或者说是协方差矩阵。当MDS分析时，采用欧几里得距离，MDS和PCA的结果是一致的。 plink1.07提供的mds方法是--cluster --mds-plot 10，先利用--cluster计算出了距离矩阵ibs(identity by state)，然后对这个距离矩阵进行分解，指定分解的维度为10而计算mds。plink1.09提供的--pca直接是采用了smartpca的计算方法求解pca。