statsmodels.multivariate.pca.pca¶

statsmodels.multivariate.pca.pca(data, ncomp=None, standardize=True, demean=True, normalize=True, gls=False, weights=None, method='svd')[source]¶

执行主成分分析（PCA）。

Parameters:¶

datandarray: 变量在列中，观测值在行中。
ncompint, optional: 要返回的组件数量。如果为 None，则返回尽可能多的组件，数量不超过数据行数或列数中的较小值。
standardizebool, optional: 指示使用均值为0和单位方差的规范化数据的标志。标准化为True意味着去均值。
demeanbool, optional: 指示是否在计算主成分之前对数据进行去均值处理的标志。如果 standardize 为 True，则 demean 将被忽略。
normalizebool , optional: 指示是否将因子归一化为具有单位内积。如果为False，则载荷将具有单位内积。
glsbool, optional: 指示实现两步GLS估计器的标志，其中在第一步使用主成分来估计残差，然后使用残差方差的倒数作为一组权重来估计最终的主成分
weightsndarray, optional: 在根据标准化或去均值转换数据后，用于计算主成分的系列权重。
methodstr, optional: 确定使用的线性代数例程。默认情况下使用‘eig’，即特征值分解。‘svd’使用奇异值分解。

Returns:¶

factors{ndarray, DataFrame}: 主成分的数组 (nobs, ncomp)（也称为得分）。
loadings{ndarray, DataFrame}: 用于构建因子的主成分载荷的数组 (ncomp, nvar)。
projection{ndarray, DataFrame}: 包含数据在估计的ncomp个因子上的投影的数组 (nobs, nvar)。
rsquare{ndarray, Series}: 数组 (ncomp,)，其中第 i 个位置的元素是包含前 i 个主成分的 R 方值。这些值是在变换后的数据上计算的，而不是原始数据。
ic{ndarray, DataFrame}: 包含Bai和Ng（2003）信息准则的数组（ncomp, 3）。每一列是一个不同的准则，每一行表示包含的因子数量。
eigenvals{ndarray, Series}: 特征值数组 (nvar,)。
eigenvecs{ndarray, DataFrame}: 特征向量的数组。(nvar, nvar)。

注释

这是一个围绕PCA类的简单函数包装器。有关更多信息和附加方法，请参阅PCA。

Last update: Oct 16, 2024