使用链式方程进行多重插补¶
MICE模块允许大多数statsmodels模型拟合到包含自变量和/或因变量缺失值的数据集,并提供拟合参数的严格标准误差。其基本思想是将每个具有缺失值的变量视为回归中的因变量,并将其余变量中的一些或全部作为其预测变量。MICE过程依次循环这些模型,依次拟合每个模型,然后使用称为“预测均值匹配”(PMM)的过程从由拟合模型确定的预测分布中生成随机抽取。这些随机抽取成为单个插补数据集的插补值。
默认情况下,每个包含缺失值的变量都使用线性回归模型进行建模,该模型包含数据集中所有其他变量的主效应。请注意,即使插补模型是线性的,PMM过程仍会保留每个变量的定义域。因此,例如,如果某个变量的所有观测值都是正数,则该变量的所有插补值也将始终为正数。用户还可以选择指定用于生成每个变量插补值的模型。
类¶
|
使用链式方程进行多重插补。 |
|
包装一个数据集以允许使用MICE处理缺失数据。 |
|
MI 使用提供的插补器对象执行多重插补。 |
|
使用高斯模型的贝叶斯插补。 |
实现细节¶
在内部,此函数使用 pandas.isnull。 任何从此函数返回 True 的内容都将被视为缺失数据。
Last update:
Oct 16, 2024