numpy.random.Generator.f#

方法

random.Generator.f(dfnum, dfden, size=None)#

从 F 分布中抽取样本.

样本是从具有指定参数的 F 分布中抽取的,`dfnum`（分子自由度）和 `dfden`（分母自由度）,其中这两个参数都必须大于零.

F 分布（也称为 Fisher 分布）的随机变量是一个连续概率分布,出现在方差分析测试中,并且是两个卡方变量的比率.

参数:

dfnum浮点数或浮点数的类数组对象: 分子中的自由度,必须大于0.
dfden浮点数或浮点数的类数组: 分母中的自由度,必须大于0.
size整数或整数的元组,可选: 输出形状.如果给定的形状是,例如,``(m, n, k)``,那么会抽取 m * n * k 个样本.如果大小是 None``（默认）,当 ``dfnum 和 dfden 都是标量时,返回一个单一值.否则,会抽取 np.broadcast(dfnum, dfden).size 个样本.

返回:

outndarray 或标量: 从参数化的Fisher分布中抽取样本.

参见

scipy.stats.f: 概率密度函数、分布或累积密度函数等.

备注

F统计量用于比较组内方差与组间方差.计算分布取决于抽样,因此它是问题中各自自由度的函数.变量 dfnum 是样本数减一,即组间自由度,而 dfden 是组内自由度,即每个组中样本数减去组数的总和.

参考文献

[1]

Glantz, Stanton A. “生物统计学入门.”, McGraw-Hill, 第五版, 2002.

[2]

Wikipedia, “F-分布”, https://en.wikipedia.org/wiki/F-distribution

示例

来自 Glantz[1],第 47-40 页的一个例子:

两组,糖尿病患者的子女（25人）和无糖尿病人士的子女（25名对照者）.测量了空腹血糖,病例组的平均值为86.1,对照组的平均值为82.2.标准差分别为2.09和2.49.这些数据是否与父母糖尿病状态不影响其子女血糖水平的零假设一致?从数据计算出的F统计量值为36.01.

从分布中抽取样本:

>>> dfnum = 1. # between group degrees of freedom
>>> dfden = 48. # within groups degrees of freedom
>>> rng = np.random.default_rng()
>>> s = rng.f(dfnum, dfden, 1000)

样本中前1%的下限是:

>>> np.sort(s)[-10]
7.61988120985 # random

因此,F统计量超过7.62的概率大约为1%,测量值为36,因此在1%的水平上拒绝原假设.

对于 n = 20 和 m = 20 的相应概率密度函数是:

>>> import matplotlib.pyplot as plt
>>> from scipy import stats
>>> dfnum, dfden, size = 20, 20, 10000
>>> s = rng.f(dfnum=dfnum, dfden=dfden, size=size)
>>> bins, density, _ = plt.hist(s, 30, density=True)
>>> x = np.linspace(0, 5, 1000)
>>> plt.plot(x, stats.f.pdf(x, dfnum, dfden))
>>> plt.xlim([0, 5])
>>> plt.show()

../../../_images/numpy-random-Generator-f-1.png