沙盒

这个沙盒包含了一些由于各种原因尚未准备好被纳入 statsmodels 正式部分的代码。它包含了来自旧的 stats.models 代码中尚未经过测试、验证和更新到新 statsmodels 结构的模块:Cox 生存模型、带有重复测量的混合效应模型、广义加性模型以及公式框架。沙盒还包含了一些当前正在开发的代码,直到它们符合 statsmodels 的模式或经过充分测试为止。

所有沙盒模块都必须显式导入,以表明它们尚未成为statsmodels核心的一部分。沙盒代码的质量和测试程度差异很大。

示例

sandbox.examples文件夹中有一些示例。其他示例直接包含在模块中以及沙箱的子文件夹中。

模块参考

时间序列分析 tsa

在这一部分中,我们开发了用于时间序列分析的模型和函数。大多数模型和函数已移至statsmodels.tsa

移动窗口统计

大多数移动窗口统计,如滚动均值、矩(最高到四阶)、最小值、最大值、均值和方差,都可以通过 Pandas 中的 移动(滚动)统计/矩 函数来实现。

movstat.movorder(x[, order, windsize, lag])

移动顺序统计

movstat.movmean(x[, 窗口大小, 滞后])

移动窗口均值

movstat.movvar(x[, 窗口大小, 滞后])

移动窗口方差

movstat.movmoment(x, k[, windowsize, lag])

非中心矩

回归和方差分析

以下两个ANOVA函数已针对平衡单向ANOVA的NIST测试数据进行了全面测试。anova_oneway遵循与scipy.stats中的单向ANOVA函数相同的模式,但对于严重缩放的问题具有更高的精度。anova_ols产生与单向ANOVA相同的结果,但使用OLS模型类。它也通过了NIST测试的验证,尽管在最严重缩放的情况下存在一些问题。它展示了如何使用statsmodels在三行代码中进行简单的ANOVA,并且也可以作为一个配方来参考。

anova_oneway(y, x[, seq])

anova_ols(y, x)

以下是用于处理虚拟变量并生成OLS方差分析结果的辅助函数。它们最好被视为配方,因为它们是为特定用途而编写的。这些函数最终将被重写或重新组织。

try_ols_anova.data2dummy(x[, returnall])

默认情况下,将类别数组转换为虚拟变量时,会删除最后一个类别的虚拟变量,仅使用ravel,1维

try_ols_anova.data2groupcont(x1, x2)

创建虚拟连续变量

try_ols_anova.data2proddummy(x)

从2D数组的2列创建产品虚拟变量

try_ols_anova.dropname(ss, li)

从字符串列表中删除名称,要删除的名称在以空格分隔的列表中,不会改变原始列表

try_ols_anova.form2design(ss, data)

将字符串公式转换为数据字典

以下是用于组统计的辅助函数,其中组由标签数组定义。适用于前一组函数的资格注释也适用于这一组函数。

try_catdata.cat2dummy(y[, nonseq])

try_catdata.convertlabels(ys[, indices])

根据多个变量或字符串标签转换为唯一的索引标签 0,1,2,...,nk-1,其中 nk 是不同标签的数量

try_catdata.groupsstats_1d(y, x, labelsunique)

使用ndimage获取快速均值和方差

try_catdata.groupsstats_dummy(y, x[, nonseq])

try_catdata.groupstatsbin(factors, values)

使用 np.bincount,假设因子/标签为整数

try_catdata.labelmeanfilter(y, x)

try_catdata.labelmeanfilter_nd(y, x)

try_catdata.labelmeanfilter_str(ys, x)

除了这些功能外,sandbox回归还包含几个示例,这些示例展示了statsmodels回归模型的使用。

回归方程组和联立方程组

以下是用于拟合方程组模型的内容。尽管返回的参数已被验证为准确,但此代码仍处于非常实验性的阶段,模型的使用方式在加入主代码库之前很可能会发生显著变化。

SUR(sys[, sigma, dfk])

看似不相关的回归

Sem2SLS(sys[, indep_endog, instruments])

两阶段最小二乘法用于联立方程

杂项

描述性统计打印

descstats.sign_test(samp[, mu0])

符号检验

descstats.descstats(数据[, 列, 轴])

打印一个或多个变量的描述性统计信息。

原始的 stats.models

这些都不是完全可用的。公式框架被cox和mixed使用。

使用EM算法的重复测量混合效应模型

statsmodels.sandbox.mixed

Cox比例风险模型

statsmodels.sandbox.cox

广义加性模型

statsmodels.sandbox.gam

公式

statsmodels.sandbox.formula


Last update: Oct 16, 2024