更新日志

版本 2024.4.1

版本 2023.3.24

  • 与 Python 3.10 的兼容性

  • 已放弃对 Python 3.7 的支持

  • 与 scikit-learn 1.2.0 及更新版本的兼容性

版本 2022.5.27

  • 与 scikit-learn 1.1 及更新版本的兼容性 (GH#910)

版本 2021.11.30

  • 修复了当基础估计器返回 scipy.sparse 矩阵时,包装器的元推断中的回归问题 (GH#889)

版本 2021.11.16

  • wrappers.ParallelPostFit 这样的元估计器现在可以与 cuDF 和 CuPy 对象一起工作。(GH#862)

  • 修复了 wrappers.ParallelPostFit 中与新 Dask 优化不兼容的问题 (GH#878)

版本 2021.10.17

  • 添加了对 scikit-learn 1.0.0 的支持。scikit-learn 1.0.0 现在是支持的最低版本。

版本 1.9.0

  • LogisticRegression.predict_proba 现在正确地返回二分类的 (n, 2) 数组 (GH#760)

  • 修复了多输出行为,使其与 scikit-learn 一致 (GH#820)

  • 添加了MAPE到回归指标中 (GH#822)

  • NumPy 1.20 兼容性 (GH#784)

版本 1.8.0

  • 与 scikit-learn 0.24 的兼容性

版本 1.7.0

版本 1.6.0

版本 1.5.0

版本 1.4.0

版本 1.3.0

版本 1.2.0

  • model_selection.IncrementalSearchCV 中的第二个位置参数名称从 param_distribution 更改为 parameters,以匹配基类的名称。

  • 与 scikit-learn 0.22.1 的兼容性。

  • 添加了 dask_ml.preprocessing.BlockTransfomer,这是 scikit-learn 的 FunctionTransformer 的扩展 (GH#366)。

  • 添加了 dask_ml.feature_extraction.FeatureHasher,它类似于 scikit-learn 的实现。

版本 1.1.1

  • 修复了 1.1.0 轮子的问题 (GH#575)

  • 使 svd_flip 在数组为只读时也能工作 (GH#592)

版本 1.1.0

版本 1.0.0

版本 0.13.0

备注

dask-ml 0.13.0 将是支持 Python 2 的最后一个版本。

版本 0.12.0

API 破坏性变更

版本 0.11.0

请注意,此版本的 Dask-ML 需要 scikit-learn >= 0.20.0。

增强功能

  • 添加了 dask_ml.model_selection.IncrementalSearchCV,这是一个用于超参数优化的大于内存数据集的元估计器 (GH#356)。更多信息请参见 增量超参数优化

  • 添加了 dask_ml.preprocessing.PolynomialTransformer,作为 scikit-learn 版本的直接替代(GH#347)。

  • dask_ml.model_selection.ParallelPostFit 中,为 Dask Arrays 添加了自动重新分块功能,这些数组在特征方向上有多个块 (GH#376)

  • dask_ml.cluster.KMeans 添加了对 Dask DataFrame 输入的支持 (GH#390)

  • dask_ml.wrappers.ParallelPostFit.score() 中添加了 compute 关键字,以支持延迟评估模型的分数 (GH#402)

Bug 修复

版本 0.10.0

版本 0.9.0

Bug 修复

文档更新

  • 添加了一个 路线图 。如果您希望在路线图中包含某些内容,请 提交问题 。(GH#322)

  • 在文档和 dask 示例 binder 中添加了许多 示例

构建变更

我们现在在 Dask-ML 的性能敏感部分使用 Numba。Dask-ML 现在是一个纯 Python 项目,因此我们可以提供通用轮子。

版本 0.8.0

增强功能

  • 在 Incremental 中自动替换默认的 scikit-learn 评分器为 dask 感知的版本 (GH#200)

  • 添加了 dask_ml.metrics.log_loss() 损失函数和 neg_log_loss 评分器 (GH#318)

  • 修复了 GridSearchCV 和 BaseSearchCV 对类似数组的拟合参数的处理 (GH#320)

Bug 修复

  • LabelEncoder.fit_transform() 中固定了数据类型为整数,而不是 dask 数组的类数据类型 (GH#311)

版本 0.7.0

增强功能

API 破坏性变更

  • dask_ml.cluster.SpectralClustering 中移除了 basis_inds_ 属性,因为它不再使用 (GH#152)

  • dask_ml.wrappers.Incremental.fit() 更改为在训练前克隆基础估计器(GH#258)。这带来了一些变化

    1. 底层估计器不再提供对学习属性(如 coef_)的访问。我们建议使用 Incremental.coef_

    2. 在连续的 fit 调用之间,状态不再泄漏。请注意,如果您希望重用状态,例如学习到的属性或随机种子,仍然可以使用 Incremental.partial_fit()。如果您要对训练数据进行多次传递,这非常有用。

  • 更改了 dask_ml.wrappers.Incrementalget_paramsset_params,使其不再神奇地获取/设置底层估计器的参数(GH#258)。要为底层估计器指定参数,请使用 scikit-learn 建立的双下划线前缀约定:

    inc.set_params('estimator__alpha': 10)
    

重组

Dask-SearchCV 现在正在 dask/dask-ml 仓库中开发。之前安装了 dask-searchcv 的用户现在应该安装 dask-ml

Bug 修复

  • 在32位平台上修复了随机种子生成 (GH#230)

版本 0.6.0

API 破坏性变更

增强功能

版本 0.5.0

API 破坏性变更

Bug 修复

  • dask_ml.preprocessing.StandardScalar 现在可以处理 DataFrame 输入 (GH#157)。

版本 0.4.1

此版本添加了几个新的估计器。

增强功能

添加了 dask_ml.preprocessing.RobustScaler

使用对异常值稳健的统计数据来缩放特征。这反映了 sklearn.preprocessing.RobustScalar (GH#62)。

添加了 dask_ml.preprocessing.OrdinalEncoder

将分类特征编码为有序特征,在一个有序特征中 (GH#119)。

添加了 dask_ml.wrappers.ParallelPostFit

一个用于与任何 scikit-learn 估计器拟合的元估计器,但在 dask 数组上并行进行后处理(predicttransform 等)。更多信息请参见 并行元估计器 (GH#132)。

版本 0.4.0

API 变更

  • 更改了 dask_glm.linear_model 中基于 dask-glm 的估计器的参数,以匹配 scikit-learn 的 API (GH#94)。

    • 要指定 lambuh 使用 C = 1.0 / lambduh (默认值 1.0 保持不变)

    • rhoover_relaxabstolreltol 参数已被移除。请在 solver_kwargs 中提供它们。

    这会影响 LinearRegressionLogisticRegressionPoissonRegression 估计器。

增强功能

  • 接受 dask.dataframe 用于基于 dask-glm 的估计器 (GH#84)。

版本 0.3.2

增强功能

  • 添加了 dask_ml.preprocessing.TruncatedSVD()dask_ml.preprocessing.PCA() (GH#78)

版本 0.3.0

增强功能

  • 添加了 KMeans.predict() (GH#83)

API 变更

  • 更改了 MinMaxScalerStandardScaler 上的拟合属性,使其成为具体的 NumPy 或 pandas 对象,而不是持久化的 dask 对象 (GH#75)。