make_regression#

sklearn.datasets.make_regression(n_samples=100, n_features=100, *, n_informative=10, n_targets=1, bias=0.0, effective_rank=None, tail_strength=0.5, noise=0.0, shuffle=True, coef=False, random_state=None)#

生成一个随机回归问题。

输入集可以是良态的(默认情况下)或具有低秩-胖尾奇异值分布。有关更多详细信息,请参阅 make_low_rank_matrix

输出是通过将一个(可能是有偏的)随机线性回归模型应用于先前生成的输入和一些可调节尺度的中心高斯噪声生成的,该模型具有 n_informative 个非零回归量。

用户指南 中阅读更多信息。

Parameters:
n_samplesint, default=100

样本数量。

n_featuresint, default=100

特征数量。

n_informativeint, default=10

信息特征的数量,即用于构建生成输出的线性模型的特征数量。

n_targetsint, default=1

回归目标的数量,即与样本相关的 y 输出向量的维度。默认情况下,输出是标量。

biasfloat, default=0.0

底层线性模型中的偏差项。

effective_rankint, default=None
如果不是 None:

需要解释大部分输入数据的奇异向量的近似数量。使用这种奇异值谱的输入可以使生成器再现实践中常见的相关性。

如果是 None:

输入集是良态的,中心化且高斯分布,方差为单位。

tail_strengthfloat, default=0.5

如果 effective_rank 不是 None,奇异值分布的胖噪声尾部的相对重要性。当为浮点数时,应在 0 和 1 之间。

noisefloat, default=0.0

应用于输出的高斯噪声的标准差。

shufflebool, default=True

打乱样本和特征。

coefbool, default=False

如果为 True,则返回底层线性模型的系数。

random_stateint, RandomState instance or None, default=None

确定数据集创建的随机数生成。传递一个 int 以在多次函数调用中获得可重复的输出。 参见 术语表

Returns:
Xndarray of shape (n_samples, n_features)

输入样本。

yndarray of shape (n_samples,) or (n_samples, n_targets)

输出值。

coefndarray of shape (n_features,) or (n_features, n_targets)

底层线性模型的系数。仅当 coef 为 True 时返回。

Examples

>>> from sklearn.datasets import make_regression
>>> X, y = make_regression(n_samples=5, n_features=2, noise=1, random_state=42)
>>> X
array([[ 0.4967..., -0.1382... ],
    [ 0.6476...,  1.523...],
    [-0.2341..., -0.2341...],
    [-0.4694...,  0.5425...],
    [ 1.579...,  0.7674...]])
>>> y
array([  6.737...,  37.79..., -10.27...,   0.4017...,   42.22...])