广义估计方程

广义估计方程用于估计面板、聚类或重复测量数据的广义线性模型,当观测值在聚类内可能相关但在聚类间不相关时。它支持与广义线性模型(GLM)相同的单参数指数族的估计。

查看模块参考以获取命令和参数。

示例

以下示例说明了使用癫痫发作数据在集群内具有可交换相关性的泊松回归。

In [1]: import statsmodels.api as sm

In [2]: import statsmodels.formula.api as smf

In [3]: data = sm.datasets.get_rdataset('epil', package='MASS').data

In [4]: fam = sm.families.Poisson()

In [5]: ind = sm.cov_struct.Exchangeable()

In [6]: mod = smf.gee("y ~ age + trt + base", "subject", data,
   ...:               cov_struct=ind, family=fam)
   ...: 

In [7]: res = mod.fit()

In [8]: print(res.summary())
                               GEE Regression Results                              
===================================================================================
Dep. Variable:                           y   No. Observations:                  236
Model:                                 GEE   No. clusters:                       59
Method:                        Generalized   Min. cluster size:                   4
                      Estimating Equations   Max. cluster size:                   4
Family:                            Poisson   Mean cluster size:                 4.0
Dependence structure:         Exchangeable   Num. iterations:                     2
Date:                        三, 16 10 2024   Scale:                           1.000
Covariance type:                    robust   Time:                         18:38:14
====================================================================================
                       coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------------
Intercept            0.5730      0.361      1.589      0.112      -0.134       1.280
trt[T.progabide]    -0.1519      0.171     -0.888      0.375      -0.487       0.183
age                  0.0223      0.011      1.960      0.050    2.11e-06       0.045
base                 0.0226      0.001     18.451      0.000       0.020       0.025
==============================================================================
Skew:                          3.7823   Kurtosis:                      28.6672
Centered skew:                 2.7597   Centered kurtosis:             21.9865
==============================================================================

可以在维基上找到几个使用GEE的笔记本示例: GEE的维基笔记本

参考文献

  • KY Liang 和 S Zeger. “使用广义线性模型进行纵向数据分析”. Biometrika (1986) 73 (1): 13-22.

  • S Zeger 和 KY Liang。“离散和连续结果的纵向数据分析”。《生物统计学》第42卷,第1期(1986年3月),第121-130页

  • A Rotnitzky 和 NP Jewell (1990)。“在集群相关数据的半参数广义线性模型中对回归参数的假设检验”,Biometrika,77,485-497。

  • 徐国和潘伟 (2002)。“GEE中得分检验的小样本性能”。 http://www.sph.umn.edu/faculty1/wp-content/uploads/2012/11/rr2002-013.pdf

  • LA Mancl LA, TA DeRouen (2001). 一种具有改进小样本性质的GEE协方差估计器。生物统计学。2001年3月;57(1):126-34。

模块参考

模型类

GEE(endog, exog, groups[, time, family, ...])

使用广义估计方程的边际回归模型。

NominalGEE(endog, exog, groups[, time, ...])

使用GEE的名义响应边际回归模型。

OrdinalGEE(endog, exog, groups[, time, ...])

使用GEE的序数响应边际回归模型

QIF(endog, exog, groups[, family, ...])

使用二次推断函数(QIF)拟合回归模型。

结果类

GEEResults(model, params, cov_params, scale)

此类总结了使用GEE的边际回归模型的拟合结果。

GEEMargins(results, args[, kwargs])

使用GEE拟合的回归模型的估计边际效应。

QIFResults(model, params, cov_params, scale)

QIF回归的结果类

依赖结构

目前实现的依赖结构有

CovStruct([cov_nearest_method])

用于相关性和协方差结构的基类。

Autoregressive([dist_func, grid])

一阶自回归工作依赖结构。

Exchangeable()

可交换的工作依赖结构。

GlobalOddsRatio(endog_type)

估计有序或名义数据的GEE的全局比值比。

Independence([cov_nearest_method])

一个独立的工作依赖结构。

Nested([cov_nearest_method])

一个嵌套的工作依赖结构。

家族

分布族与GLM相同,目前实现的包括

Family(link, variance[, check_link])

用于单参数指数族的父类。

Binomial([link, check_link])

二项式指数族分布。

Gamma([link, check_link])

伽马指数族分布。

Gaussian([link, check_link])

高斯指数族分布。

InverseGaussian([link, check_link])

逆高斯指数族。

NegativeBinomial([link, alpha, check_link])

负二项式指数族(对应于NB2)。

Poisson([link, check_link])

泊松指数族。

Tweedie([link, var_power, eql, check_link])

Tweedie 族。

链接函数与GLM相同,目前实现的有以下几种。并非所有链接函数都适用于每个分布族。可以通过以下方式获取可用的链接函数列表:

>>> sm.families.family.<familyname>.links

Link()

一个用于单参数指数族的通用链接函数。

CDFLink([dbn])

使用 scipy.stats 分布的 CDF

CLogLog()

互补对数-对数变换

Log()

对数变换

Logit()

logit 变换

NegativeBinomial([alpha])

负二项链接函数

Power([power])

幂变换

Cauchy()

柯西(标准柯西CDF)变换

Identity()

恒等变换

InversePower()

逆变换

InverseSquared()

逆平方变换

Probit([dbn])

概率单位(标准正态累积分布函数)变换


Last update: Oct 16, 2024