statsmodels.stats.descriptivestats.describe

statsmodels.stats.descriptivestats.describe(data, stats=None, *, numeric=True, categorical=True, alpha=0.05, use_t=False, percentiles=(1, 5, 10, 25, 50, 75, 90, 95, 99), ntop=5)[source]

数据的扩展描述性统计

Parameters:
dataarray_like

要描述的数据。必须可以转换为 pandas DataFrame。

statsSequence[str], optional

要包含的统计数据。如果未提供,则计算完整的统计数据集。此列表可能会随着版本的变化而演变,以反映最佳实践。支持的选项包括: “nobs”、“missing”、“mean”、“std_err”、“ci”、“ci”、“std”、“iqr”、 “iqr_normal”、“mad”、“mad_normal”、“coef_var”、“range”、“max”、 “min”、“skew”、“kurtosis”、“jarque_bera”、“mode”、“freq”、 “median”、“percentiles”、“distinct”、“top”和“freq”。详见注释。

numericbool, default True

是否在描述性统计中包含数值列。

categoricalbool, default True

是否在描述性统计中包含分类列。

alphafloat, default 0.05

一个介于0和1之间的数字,表示用于计算置信区间的尺寸,其覆盖率为1 - alpha。

use_tbool, default False

使用学生t分布来构建置信区间。

percentilessequence[float]

一系列介于0到100之间的独特浮点值。 默认的分位数为1, 5, 10, 25, 50, 75, 90, 95, 99。

ntopint, default 5

报告的顶级分类标签的数量。默认是

Returns:
DataFrame

描述性统计

另请参阅

pandas.DataFrame.describe

基本描述性统计

Description

具有附加输出选项的描述性统计类

注释

可选的统计信息包括:

  • “nobs” - 观测值数量

  • “缺失” - 缺失观测值的数量

  • “mean” - 平均值

  • “std_err” - 假设无相关性时的均值标准误差

  • “ci” - 置信区间,覆盖率为 (1 - alpha),使用正态分布或 t 分布。此选项在任何表格中创建两个条目:lower_ci 和 upper_ci。

  • “std” - 标准差

  • “iqr” - 四分位距

  • “iqr_normal” - 相对于正态分布的四分位距

  • “mad” - 平均绝对偏差

  • “mad_normal” - 相对于正态分布的平均绝对偏差

  • “coef_var” - 变异系数

  • “range” - 最大值和最小值之间的范围

  • “max” - 最大值

  • “min” - 最小值

  • “偏斜” - 偏度定义为标准化的第三中心矩

  • “峰度” - 定义为标准化四阶中心矩的峰度

  • “jarque_bera” - 基于偏度和峰度的正态性Jarque-Bera检验统计量。此选项创建两个条目,jarque_bera和jarque_beta_pval。

  • “mode” - 数据的众数。此选项在所有表中创建两个条目,mode 和 mode_freq,其中 mode_freq 是众数的经验频率。

  • “中位数” - 数据的中位数。

  • “percentiles” - 百分位数。包含的值取决于输入的 percentiles

  • “distinct” - 分类变量中不同类别的数量。

  • “top” - 最常见的类别模式。标记为 top_n,其中 n 为 1, 2, …, ntop

  • “freq” - 常见类别的频率。标记为 freq_n,其中 n 为 1, 2, …, ntop


Last update: Oct 16, 2024