statsmodels.stats.descriptivestats.Description¶
-
class statsmodels.stats.descriptivestats.Description(data, stats=
None, *, numeric=True, categorical=True, alpha=0.05, use_t=False, percentiles=(1, 5, 10, 25, 50, 75, 90, 95, 99), ntop=5)[source]¶ 数据的扩展描述性统计
- Parameters:¶
- dataarray_like
要描述的数据。必须可以转换为 pandas DataFrame。
- stats
Sequence[str],optional 要包含的统计数据。如果未提供,则计算完整的统计数据集。此列表可能会随着版本的变化而演变,以反映最佳实践。支持的选项包括: “nobs”、“missing”、“mean”、“std_err”、“ci”、“ci”、“std”、“iqr”、 “iqr_normal”、“mad”、“mad_normal”、“coef_var”、“range”、“max”、 “min”、“skew”、“kurtosis”、“jarque_bera”、“mode”、“freq”、 “median”、“percentiles”、“distinct”、“top”和“freq”。详见注释。
- numericbool,
defaultTrue 是否在描述性统计中包含数值列。
- categoricalbool,
defaultTrue 是否在描述性统计中包含分类列。
- alpha
float,default0.05 一个介于0和1之间的数字,表示用于计算置信区间的尺寸,其覆盖率为1 - alpha。
- use_tbool,
defaultFalse 使用学生t分布来构建置信区间。
- percentilessequence[
float] 一系列介于0到100之间的独特浮点值。 默认的分位数为1, 5, 10, 25, 50, 75, 90, 95, 99。
- ntop
int,default5 报告的顶级分类标签的数量。默认是
- Attributes:¶
- numeric_statistics
支持的数值数据的统计列表
- categorical_statistics
分类数据支持的统计列表
- default_statistics
默认的统计列表
另请参阅
pandas.DataFrame.describe基本描述性统计
describe返回DataFrame的简化版本
注释
可选的统计信息包括:
“nobs” - 观测值数量
“缺失” - 缺失观测值的数量
“mean” - 平均值
“std_err” - 假设无相关性时的均值标准误差
“ci” - 置信区间,覆盖率为 (1 - alpha),使用正态分布或 t 分布。此选项在任何表格中创建两个条目:lower_ci 和 upper_ci。
“std” - 标准差
“iqr” - 四分位距
“iqr_normal” - 相对于正态分布的四分位距
“mad” - 平均绝对偏差
“mad_normal” - 相对于正态分布的平均绝对偏差
“coef_var” - 变异系数
“range” - 最大值和最小值之间的范围
“max” - 最大值
“min” - 最小值
“偏斜” - 偏度定义为标准化的第三中心矩
“峰度” - 定义为标准化四阶中心矩的峰度
“jarque_bera” - 基于偏度和峰度的正态性Jarque-Bera检验统计量。此选项创建两个条目,jarque_bera和jarque_beta_pval。
“mode” - 数据的众数。此选项在所有表中创建两个条目,mode 和 mode_freq,其中 mode_freq 是众数的经验频率。
“中位数” - 数据的中位数。
“percentiles” - 百分位数。包含的值取决于输入的
percentiles。“distinct” - 分类变量中不同类别的数量。
“top” - 最常见的类别模式。标记为 top_n,其中 n 为 1, 2, …,
ntop。“freq” - 常见类别的频率。标记为 freq_n,其中 n 为 1, 2, …,
ntop。
方法
summary()描述性统计的汇总表
属性
分类数据的描述性统计
数值型和类别型数据的描述性统计
数值数据的描述性统计