statsmodels.imputation.mice.MICEData¶
-
class statsmodels.imputation.mice.MICEData(data, perturbation_method=
'gaussian', k_pmm=20, history_callback=None)[source]¶ 包装一个数据集以允许使用MICE处理缺失数据。
- Parameters:¶
注释
允许的扰动方法有‘gaussian’(模型参数被设置为从后验分布的高斯近似中抽取的值),以及‘boot’(模型参数被设置为拟合数据集的自助版本时获得的估计值)。
history_callback 可以实现以产生诸如将当前输入的数据集保存到磁盘等副作用。
示例
从名为 data 的数据集中绘制20个插补,并将它们保存在文件名模式为 dataXX.csv 的单独文件中。除了 x1 之外的变量使用通过OLS拟合的线性模型进行插补,均值结构包含 data 中所有其他变量的主效应。名为 x1 的变量具有包含x2^2额外项的条件均值结构。
>>> imp = mice.MICEData(data) >>> imp.set_imputer('x1', formula='x2 + np.square(x2) + x3') >>> for j in range(20): ... imp.update_all() ... imp.data.to_csv('data%02d.csv' % j)方法
get_fitting_data(vname)返回用于拟合插补模型所需的数据。
get_split_data(vname)返回用于插补给定变量的内生变量和外生变量。
impute(vname)impute_pmm(vname)使用预测均值匹配来填补缺失值。
返回插补过程中的下一个插补数据集。
perturb_params(vname)plot_bivariate(col1_name, col2_name[, ...])绘制两个变量的观测值和插补值。
plot_fit_obs(col_name[, lowess_args, ...])绘制拟合值与插补值或观测值的散点图。
plot_imputed_hist(col_name[, ax, ...])显示一个变量的插补值作为直方图。
plot_missing_pattern([ax, row_order, ...])生成显示缺失数据模式的图像。
set_imputer(endog_name[, formula, ...])指定单个变量的插补过程。
update(vname)为单个变量填补缺失值。
update_all([n_iter])执行指定次数的MICE迭代。