统计学 stats¶
本节收集了各种统计检验和工具。 有些可以独立于任何模型使用,有些则作为模型和模型结果的扩展。
API 警告:此类别中的函数和对象分布在各个模块中,并且可能仍在移动。我们预计未来统计测试将返回具有更多信息报告的类实例,而不仅仅是原始数字。
残差诊断和规范测试¶
|
计算德宾-沃森统计量。 |
|
Jarque-Bera正态性检验。 |
|
正态性的综合检验 |
|
计算中位数偏度(medcouple)的稳健度量。 |
|
计算Kim & White中的四种偏度度量 |
|
计算Kim & White中的四个峰度度量 |
|
计算在Kim和White假设数据呈正态分布的情况下,稳健峰度指标的期望值。 |
|
Breusch-Godfrey Lagrange 乘数检验用于残差自相关。 |
|
残差自相关性的Ljung-Box检验。 |
|
拉格朗日乘数检验用于自相关。 |
|
基于ols残差的参数稳定性Cusum检验。 |
|
测试模型的稳定性,ols参数的中断,Hansen 1992 |
|
计算带有残差和Cusum检验统计量的递归OLS |
|
计算非嵌套模型的Cox检验 |
|
Davidson-MacKinnon 包含测试用于比较非嵌套模型 |
|
计算非嵌套模型的J检验 |
|
Engle 的自回归条件异方差性 (ARCH) 检验。 |
|
Breusch-Pagan Lagrange 乘数检验用于异方差性 |
|
Goldfeld-Quandt 同方差性检验。 |
|
怀特的拉格朗日乘数检验用于异方差性。 |
|
怀特的两矩规范检验 |
|
哈维·科利尔检验线性性 |
|
拉格朗日乘子检验线性假设对函数形式的替代假设 |
|
线性彩虹测试 |
|
拉姆齐的RESET检验用于忽略的非线性 |
异常值和影响度量¶
|
类用于计算OLS结果的异常值和影响度量 |
|
影响和异常值度量(实验性) |
|
全球影响力和异常值测量(实验性) |
|
方差膨胀因子,VIF,用于一个外生变量 |
另请参阅关于回归诊断的注释
三明治稳健协方差¶
以下函数计算参数估计的协方差矩阵和标准误差,这些估计对误差中的异方差性和自相关性具有稳健性。类似于适用于 LinearModelResults 的方法,这些方法设计用于与 OLS 一起使用。
|
异方差性和自相关稳健协方差矩阵(Newey-West) |
|
面板HAC稳健协方差矩阵 |
|
Driscoll 和 Kraay 面板稳健协方差矩阵 |
|
聚类稳健协方差矩阵 |
两个组/集群的聚类稳健协方差矩阵 |
|
异方差稳健协方差矩阵(怀特) |
以下是与 LinearModelResults 相关的异方差稳健标准误差的独立版本
查看 statsmodels.RegressionResults |
|
查看 statsmodels.RegressionResults |
|
查看 statsmodels.RegressionResults |
|
查看 statsmodels.RegressionResults |
|
从协方差矩阵获取标准差 |
拟合优度检验和度量¶
一些用于单变量分布拟合优度的测试
|
计算幂差异,作为观测数据与期望数据之间差异度量的拟合优度检验类别。 |
|
对离散分布的随机样本执行卡方检验 |
|
获取用于离散分布卡方拟合优度检验的分箱 |
|
卡方拟合优度检验的效果量 |
|
计算 Anderson-Darling a2 统计量。 |
|
安德森-达林检验用于未知均值和方差的正态分布。 |
|
使用Lilliefors检验假设正态或指数分布。 |
|
使用Lilliefors检验假设正态或指数分布。 |
|
使用Lilliefors检验假设正态或指数分布。 |
|
使用Lilliefors检验假设正态或指数分布。 |
非参数检验¶
|
McNemar 检验 |
|
测试(k, k)方阵列联表的对称性 |
|
用于检验中位数/位置相等的卡方检验 |
|
对二进制离散化数据进行游程检验,判断其是否在截止值之上/之下 |
|
两个样本的Wald-Wolfowitz游程检验 |
|
Cochran's Q 检验用于检验 k 个处理的效果是否相同 |
|
二进制序列中运行类 |
|
符号检验 |
|
统计和检验x1的值大于x2的概率。 |
|
两个独立有序样本的随机较大概率。 |
|
排名比较结果 |
将Cohen's d效应量转换为随机较大概率。 |
|
|
表示 distr1 比 distr2 具有更大随机性的概率。 |
|
计算两个样本的中位秩 |
描述性统计¶
|
数据的扩展描述性统计 |
|
数据的扩展描述性统计 |
评分者间信度和一致性¶
statsmodels 目前可用于评分者间一致性度量和测试的主要函数是 Cohen’s Kappa。Fleiss’ Kappa 目前仅作为度量实现,但没有相关的统计结果。
|
计算Cohen's kappa及其方差,并进行零值相等性检验 |
|
Fleiss' 和 Randolph's kappa 多评者一致性度量 |
|
将原始数据从形状 (subject, rater) 转换为 (rater1, rater2) |
|
将原始数据从形状 (subject, rater) 转换为 (subject, cat_counts) |
多重测试和多重比较程序¶
multipletests 是一个用于p值校正的函数,其中也包括基于fdr的p值校正,位于fdrcorrection中。 tukeyhsd 执行用于比较(独立)均值的联合检验。 这三个函数已经过验证。 GroupsStats 和 MultiComparison 是用于类似单向ANOVA的多重比较的便捷类,但仍在开发中
|
多重测试的测试结果和p值校正 |
|
p值校正用于错误发现率。 |
|
按组统计(另一个版本) |
|
多重比较测试 |
|
来自Tukey HSD检验的结果,带有额外的绘图方法 |
|
计算所有成对比较的TukeyHSD置信区间 |
|
计算一组Z分数的局部错误发现率值。 |
|
(迭代)两阶段线性逐步上升程序,用于估计真实假设的数量 |
|
估计空Z分数的高斯分布。 |
|
在回归过程中控制FDR。 |
用于FDR控制的边际相关效应大小。 |
|
用于knockoff分析的最小二乘回归。 |
|
|
用于控制FDR的前向选择效应大小。 |
用于knockoff分析的OLS回归。 |
|
|
使用任何回归模型进行回归FDR分析。 |
以下函数尚未公开
|
所有配对中样本大小不等的方差校正因子 |
|
返回所有对样本的不等方差和不等样本大小的联合方差 |
|
不等样本大小的方差校正因子 |
|
返回具有不等方差和不等样本量的样本的联合方差 |
|
用于逐步下降方法的类 |
|
|
数组对象表示一个多维的、同质的固定大小项的数组。 |
|
|
简单的有序均值顺序比较 |
|
成对距离矩阵,从tukeyhsd外包 |
|
用于fdrcorrection的无修饰经验累积分布函数 |
|
返回Tukey's HSD(Q)的临界值 |
|
递归检查所有值对的最小距离 |
|
找到所有上升的零交叉点并返回最高点的索引 |
|
找到所有上升的零交叉点并返回最高点的索引 |
|
蒙特卡罗方法测试fdrcorrection |
str(object='') -> str str(bytes_or_buffer[, encoding[, errors]]) -> str |
|
|
从等相关多元正态分布中创建随机抽取 |
|
rankdata,等同于 scipy.stats.rankdata |
|
多重检验中的拒绝参考线 |
|
从元组列表中提取一个分区 |
|
从元组列表中移除是另一个集合子集的集合 |
|
应等同于 scipy.stats.tiecorrect |
基本统计和带有频率权重的t检验¶
除了基本的统计数据,如均值、方差、协方差和相关性,适用于带有案例权重的数据,这里的类还提供了单样本和双样本均值检验。t检验比scipy.stats中的选项更多,但在数组形状上更为严格。基于与t检验相同的假设,提供了均值的置信区间。
此外,对于一个样本和两个样本(配对或独立),都可以进行均值相等的检验。这些检验基于TOST(双单侧检验),其原假设是均值彼此“不接近”。
|
描述性统计和带权重的案例权重测试 |
|
用于两样本比较的类 |
|
独立样本t检验 |
|
两个独立样本的(非)等价性检验 |
|
两个相关、配对样本的(非)等价性检验 |
|
基于正态分布的均值检验,一个或两个样本 |
|
基于正态分布的等效性检验 |
|
基于正态分布z检验的置信区间 |
weightstats 还包含基于汇总数据的测试和置信区间
|
基于汇总统计的通用t置信区间 |
|
基于汇总统计的通用t检验 |
|
基于汇总统计的通用正态置信区间 |
|
基于汇总统计量的通用(正常)z检验 |
|
基于汇总统计量的通用(正常)z检验 |
功效与样本量计算¶
The power 模块目前实现了t检验、基于正态分布的检验、F检验和卡方拟合优度检验的幂和样本量计算。
该实现是基于类的,但该模块还提供了三个快捷函数,tt_solve_power、tt_ind_solve_power 和
zt_ind_solve_power,用于求解幂方程中的任意一个参数。
|
两独立样本t检验的统计功效计算 |
|
单样本或配对样本t检验的统计功效计算 |
|
单样本卡方检验的统计功效计算 |
|
两个独立样本的z检验的统计功效计算。 |
|
单因素平衡方差分析的F检验统计功效计算 |
|
通用F检验约束的统计功效计算 |
|
计算正态分布检验统计量的幂 |
|
如果仅涉及一个尾部,则显式计算样本量 |
|
求解单样本t检验功效的任意一个参数 |
|
求解两样本t检验功效的任意一个参数 |
|
求解两个样本z检验功效的任意一个参数 |
比例¶
此外,还提供了可以使用 NormalIndPower 的比例假设检验、置信区间和效应量。
|
二项式比例的置信区间 |
|
比较两个比例的检验效果大小 |
|
执行一个测试,以验证成功的概率为p。 |
|
单样本比例的二项检验的拒绝域 |
|
使用二项分布的单比例精确TOST检验 |
|
二项式TOST的拒绝域 |
|
多项式比例的置信区间。 |
|
基于正态(z)检验的比例测试 |
|
基于正态分布的等效性检验 |
|
基于卡方检验的比例测试 |
|
所有k个样本对的卡方比例检验 |
|
比较控制组与k组样本比例的卡方检验 |
|
比较两个比例的检验效果大小 |
|
|
|
基于正态分布的比例等效性检验 |
|
找到样本量以获得所需的置信区间长度 |
两个独立样本的统计 状态:实验性,API可能会更改,添加于0.12
|
比较两个独立比例的假设检验 |
|
比较两个独立比例的置信区间。 |
|
两个独立比例相等的z检验功效 |
|
基于两个单侧的等效性检验 test_proportions_2indep |
假设基于单尾的正态分布所需的样本量 |
|
|
两个独立比例的得分检验 |
|
通过反转得分检验计算得分置信区间 |
费率¶
用于比率的统计函数。目前包括两个独立样本的假设检验。 另请参阅示例笔记本以获取概述 泊松比率
状态:实验性,API可能会更改,添加于0.12版本,在0.14版本中重构和增强
单样本的统计函数
|
单样本泊松均值或率的检验 |
|
泊松均值或率的置信区间 |
|
泊松随机变量的分位数置信区间 |
|
泊松观测的容差区间 |
两个独立样本的统计函数
|
用于比较两个样本泊松强度率的测试。 |
|
两个样本泊松率比的E检验。 |
|
两个独立泊松率比率或差异的置信区间。 |
|
基于两个单侧的等效性检验 test_proportions_2indep |
|
非等价性检验,泊松分布的最小效应。 |
统计功效函数
|
两个独立泊松率比值的检验功效。 |
|
两个独立泊松率比值的等价性检验。 |
|
两个独立泊松率差异的z检验功效。 |
|
两个独立负二项比率检验的检验功效。 |
|
两个独立比率的等价检验的幂 |
多元¶
多变量样本的统计函数。
这包括多元观测样本均值的假设检验和置信区间,以及协方差矩阵结构的假设检验。
状态: 实验性, API 可能会更改, 添加于 0.12
|
单样本多元均值的Hotelling检验 |
|
多元均值线性变换的置信区间 |
|
多元均值线性变换的置信区间 |
|
两个独立样本中多元均值的Hotelling检验 |
|
一个样本假设检验,用于协方差等于零协方差 |
|
一个样本假设检验,协方差是块对角的。 |
|
一个样本假设检验,协方差矩阵是对角矩阵。 |
|
多个样本假设检验,检验协方差矩阵是否相等。 |
|
一个样本假设检验,协方差矩阵是球形的 |
单因素方差分析¶
假设检验、置信区间和单因素方差分析的效应量。
状态: 实验性, API 可能会更改, 添加于 0.12
|
单因素方差分析 |
|
基于汇总统计的单因素方差分析 |
|
单因素方差分析的等价性检验(Wellek's Anova) |
|
单因素方差分析的等效性检验(Wellek及扩展) |
|
单向等价检验的功效 |
|
单向等价检验的经验功效 |
|
单因素方差分析测试等比例、方差或离散度 |
|
单因素方差分析用于检验尺度、方差或离散度的等价性 |
|
单因素方差分析中F分布效应量的置信区间 |
|
F检验中非中心性参数的置信区间 |
|
转换f族中的平方效应量 |
|
对应于单因素方差分析的Cohen's f = nc / nobs的效果量 |
|
将Cohen的f平方转换为Wellek效应量(平方根) |
|
将F统计量转换为Wellek的影响大小eps平方 |
|
将Wellek的效果量(平方根)转换为Cohen的f平方 |
|
从F统计量计算方差分析效应量 |
|
转换数据以进行Levene型检验的方差比较 |
|
模拟单向等价检验(Wellek的方差分析)的效力 |
稳健的、修剪后的统计¶
固定比例修剪样本的统计数据。这包括用于单样本统计的TrimmedMean类。它用于stats.oneway中进行修剪的“Yuen”方差分析。
状态: 实验性, API 可能会更改, 添加于 0.12
|
用于修剪和温莎化单样本统计的类 |
|
转换数据以进行Levene型检验的方差比较 |
|
返回数组在修剪两端观察值后的平均值。 |
|
从数组的两端切掉一部分项目。 |
Moment 助手¶
当存在缺失值时,可能会导致相关性或协方差矩阵不是半正定的。以下函数可用于找到一个正定且接近原始矩阵的相关性或协方差矩阵。 其他函数用于估计空间协方差矩阵和正则化逆协方差或精度矩阵。
|
找到一个接近的相关矩阵,该矩阵是半正定的 |
|
找到最接近的半正定相关矩阵。 |
|
找到与给定方阵最接近的具有因子结构的协方差矩阵。 |
|
构建一个包含从数据数组中得到的行间相关矩阵的稀疏矩阵。 |
|
找到最接近的正(半)定协方差矩阵 |
|
用形式为 k*I + XX' 的因子结构矩阵近似任意方阵。 |
|
半正定矩阵的因式分解表示。 |
|
使用核平均法来估计多元协方差函数。 |
|
用于通过节点回归估计正则化逆协方差的类 |
这些是用于在中心矩和非中心矩、偏度、峰度和累积量之间进行转换的实用函数。
|
将非中心矩转换为累积量的递归公式产生的累积量与矩的数量相同 |
|
将中心矩转换为非中心矩,使用递归公式,可选地调整第一个矩以返回均值 |
|
将中心矩转换为均值、方差、偏度、峰度 |
|
将非中心矩转换为累积量的递归公式产生与矩一样多的累积量 |
|
将非中心矩转换为中心矩,使用递归公式可选地调整第一个矩以返回均值 |
|
将中心矩转换为均值、方差、偏度、峰度 |
|
将均值、方差、偏度、峰度转换为中心矩 |
|
将均值、方差、偏度、峰度转换为非中心矩 |
|
将协方差矩阵转换为相关矩阵 |
|
在给定标准差的情况下将相关矩阵转换为协方差矩阵 |
|
从协方差矩阵获取标准差 |
中介分析¶
中介分析关注三个关键变量之间的关系:一个“结果”、一个“处理”和一个“中介”。由于中介分析是一种因果推断形式,因此涉及几个难以或无法验证的假设。理想情况下,中介分析是在实验环境中进行的,例如本实验中处理是随机分配的。人们也常常使用观察数据进行中介分析,其中处理可以被视为一种“暴露”。在观察环境中,中介分析背后的假设更难以验证。
|
进行中介分析。 |
|
用于保存中介分析结果的类。 |
Oaxaca-Blinder 分解¶
Oaxaca-Blinder(有些人称之为Blinder-Oaxaca)分解试图解释群体均值之间的差距。它使用两个给定的回归方程的线性模型来展示哪些是由回归系数和已知数据解释的,哪些是使用相同数据无法解释的。Oaxaca-Blinder分解有两种类型,即两重分解和三重分解,这两种方法都可以并且在经济学文献中用于讨论群体之间的差异。这种方法有助于分类歧视或未观察到的效应。此函数试图将STATA中的oaxaca命令的功能移植到Python中。
|
用于执行Oaxaca-Blinder分解的类。 |
|
此类总结了OaxacaBlinder模型的拟合结果。 |
距离依赖性度量¶
距离依赖性度量和距离协方差(dCov)检验。
|
距离协方差 (dCov) 检验 |
|
计算各种距离依赖统计量。 |
|
距离相关性。 |
|
距离协方差。 |
距离方差。 |
元分析¶
用于对一组样本统计数据进行基本元分析的函数。
示例可以在笔记本中找到
状态: 实验性, API 可能会更改, 添加于 0.12
|
使用元分析结合效应量 |
|
两个样本二项比例的效果大小 |
|
用于元分析的均值差异效应量 |
|
来自均值或效应量综合估计的结果 |
该模块还包括用于计算随机效应方差的内部函数。
|
随机效应方差的两步矩估计法 |
|
Paule-Mandel 迭代估计的随机效应方差 |
|
一步法随机效应方差矩估计 |