更新日志

内容

更新日志¶

版本 2024.4.1¶

修复打包 GH#986

版本 2023.3.24¶

与 Python 3.10 的兼容性
已放弃对 Python 3.7 的支持
与 scikit-learn 1.2.0 及更新版本的兼容性

版本 2022.5.27¶

与 scikit-learn 1.1 及更新版本的兼容性 (GH#910)

版本 2021.11.30¶

修复了当基础估计器返回 scipy.sparse 矩阵时，包装器的元推断中的回归问题 (GH#889)

版本 2021.11.16¶

像 wrappers.ParallelPostFit 这样的元估计器现在可以与 cuDF 和 CuPy 对象一起工作。(GH#862)
修复了 wrappers.ParallelPostFit 中与新 Dask 优化不兼容的问题 (GH#878)

版本 2021.10.17¶

添加了对 scikit-learn 1.0.0 的支持。scikit-learn 1.0.0 现在是支持的最低版本。

版本 1.9.0¶

LogisticRegression.predict_proba 现在正确地返回二分类的 (n, 2) 数组 (GH#760)
修复了多输出行为，使其与 scikit-learn 一致 (GH#820)
添加了MAPE到回归指标中 (GH#822)
NumPy 1.20 兼容性 (GH#784)

版本 1.8.0¶

与 scikit-learn 0.24 的兼容性

版本 1.7.0¶

改进了与 PyTorch 模型一起工作的文档，参见 pytorch (GH#699)
改进了与 Keras / TensorFlow 模型工作的文档，参见 Keras 和 Tensorflow (GH#713)
修复了 dask_ml.feature_extraction.text.HashingVectorizer 中远程词汇的处理 (GH#719)
添加了 dask_ml.metrics.regression.mean_squared_log_error() (GH#725)
在 dask_ml.preprocessing.OneHotEncoder 中允许用户提供的类别 (GH#727)
添加了 dask_ml.linear_model.LogisticRegression.decision_function() (GH#728)
为 dask_ml.decomposition.TruncatedSVD 添加了 compute 参数 (GH#743)
增量PCA中的固定符号稳定性 (GH#742)

版本 1.6.0¶

改进了 RandomizedSearchCV 的文档
改进了 dask_ml.cluster.KMeans 中的日志记录 (GH#688)
在 dask_ml.model_selection.HyperbandSearchCV 中添加了对 dask.dataframe 对象的支持 (GH#701)
为 dask_ml.metrics.mean_squared_error 添加了 squared=True 选项 (GH#707)
添加了 dask_ml.feature_extraction.text.CountVectorizer (GH#705)

版本 1.5.0¶

支持 Python 3.8 (GH#669)
与 Scikit-Learn 0.23.0 的兼容性 (GH#669)
现在需要 Scikit-Learn 0.23.0 或更新版本 (GH#669)
移除了之前已弃用的 Partial 类。请改用 dask_ml.wrappers.Incremental (GH#674)

版本 1.4.0¶

添加了 dask_ml.decomposition.IncrementalPCA 用于核心外 / 分布式增量PCA (GH#619)
在增量模型选择中改进了日志记录和监控 (GH#528)
添加了 dask_ml.ensemble.BlockwiseVotingClassifier 和 dask_ml.ensemble.BlockwiseVotingRegressor 用于分块训练和集成预测 (GH#657)
改进了超参数搜索的文档 (GH#432)

版本 1.3.0¶

为 dask_ml.model_selection.train_test_split() 添加了 shuffle 支持，适用于 DataFrame 输入 (GH#625)
通过重用缓存任务，改进了 dask_ml.model_selection.GridSearchCV 的性能 (GH#622)
为 dask_ml.model_selection.GridSearchCV 添加 DataFrame 支持 (GH#612)
修复了 dask_ml.linear_model.LinearRegression.score() 以使用 r2_score 而不是 mse (GH#614)
在 dask_ml.preprocessing.StandardScaler 中处理缺失数据 (GH#608)

版本 1.2.0¶

将 model_selection.IncrementalSearchCV 中的第二个位置参数名称从 param_distribution 更改为 parameters，以匹配基类的名称。
与 scikit-learn 0.22.1 的兼容性。
添加了 dask_ml.preprocessing.BlockTransfomer，这是 scikit-learn 的 FunctionTransformer 的扩展 (GH#366)。
添加了 dask_ml.feature_extraction.FeatureHasher，它类似于 scikit-learn 的实现。

版本 1.1.1¶

修复了 1.1.0 轮子的问题 (GH#575)
使 svd_flip 在数组为只读时也能工作 (GH#592)

版本 1.1.0¶

非数组（例如 Dask Bags 和 DataFrames）现在允许在 dask_ml.wrappers.Incremental 中使用。这对于文本分类管道（pr:570）非常有用
索引现在在 dask_ml.preprocessing.PolynomialFeatures 中被保留，用于 DataFrame 输入 (GH#563)
dask_ml.decomposition.PCA 现在支持 DataFrame 输入 (GH#543)
dask_ml.cluster.KMeans 处理某些块长度为0的输入 (GH#559)
改进了对 dask_ml.model_selection.train_test_split() 混合输入的错误报告 (GH#552)
移除了已弃用的 dask_ml.joblib 模块。请改用 joblib.parallel_backend 代替 (GH#545)
dask_ml.preprocessing.QuantileTransformer 现在处理 DataFrame 输入 (GH#533)

版本 1.0.0¶

为分布式数据集的超参数搜索添加了新的超参数搜索元估计器：HyperbandSearchCV 和 SuccessiveHalvingSearchCV
已移除对 Python 2 的支持 (GH#500)

版本 0.13.0¶

与 scikit-learn 0.21.1 的兼容性
在 GridSearchCV 和 RandomizedSearchCV 中的交叉验证结果现在会在完成时收集，以防工作进程丢失 (GH#433)。
修复了在只提供训练/测试大小之一时 dask_ml.model_selection.train_test_split() 中的错误 (GH#502)
为 dask_ml.model_selection.IncrementalSearchCV 提供一致的随机状态
修复了32位Windows构建的多个问题 (GH#487)

备注

dask-ml 0.13.0 将是支持 Python 2 的最后一个版本。

版本 0.12.0¶

API 破坏性变更¶

dask_ml.model_selection.IncrementalSearchCV 现在为 .predict 等后拟合方法返回 Dask 对象 (GH#423)。

版本 0.11.0¶

请注意，此版本的 Dask-ML 需要 scikit-learn >= 0.20.0。

增强功能¶

添加了 dask_ml.model_selection.IncrementalSearchCV，这是一个用于超参数优化的大于内存数据集的元估计器 (GH#356)。更多信息请参见增量超参数优化。
添加了 dask_ml.preprocessing.PolynomialTransformer，作为 scikit-learn 版本的直接替代（GH#347）。
在 dask_ml.model_selection.ParallelPostFit 中，为 Dask Arrays 添加了自动重新分块功能，这些数组在特征方向上有多个块 (GH#376)
为 dask_ml.cluster.KMeans 添加了对 Dask DataFrame 输入的支持 (GH#390)
在 dask_ml.wrappers.ParallelPostFit.score() 中添加了 compute 关键字，以支持延迟评估模型的分数 (GH#402)

Bug 修复¶

更改了 dask_ml.wrappers.ParallelPostFit ，当输入数组在特征方向上有多于一个块时，自动对 predict 等方法的输入数组进行重新分块 (GH#376)。
在 dask_ml.impute.SimpleImputer 中存在一个错误，当使用 Dask DataFrames 时，填充的是最频繁项的计数，而不是项本身 (GH#385)。
在设置 random_state 时，dask_ml.model_selection.ShuffleSplit 返回相同的分割 (GH#380)。

版本 0.10.0¶

增强功能¶

为 dask_ml.model_selection.train_test_split() 添加了对 dask.dataframe.DataFrame 的支持 (GH#351)

版本 0.9.0¶

增强功能¶

添加了 dask_ml.model_selection.ShuffleSplit (GH#340)

Bug 修复¶

修复了 dask_ml.model_selection.GridSearchCV 和 dask_ml.model_selection.RandomizedSearchCV 的预测和评分步骤中的错误处理 (GH#339)
与 Dask 0.18 兼容的 dask_ml.preprocessing.LabelEncoder`（您还会注意到性能的提升）(:pr:`336)。

文档更新¶

添加了一个路线图。如果您希望在路线图中包含某些内容，请提交问题。(GH#322)
在文档和 dask 示例 binder 中添加了许多示例。

构建变更¶

我们现在在 Dask-ML 的性能敏感部分使用 Numba。Dask-ML 现在是一个纯 Python 项目，因此我们可以提供通用轮子。

版本 0.8.0¶

增强功能¶

在 Incremental 中自动替换默认的 scikit-learn 评分器为 dask 感知的版本 (GH#200)
添加了 dask_ml.metrics.log_loss() 损失函数和 neg_log_loss 评分器 (GH#318)
修复了 GridSearchCV 和 BaseSearchCV 对类似数组的拟合参数的处理 (GH#320)

Bug 修复¶

在 LabelEncoder.fit_transform() 中固定了数据类型为整数，而不是 dask 数组的类数据类型 (GH#311)

版本 0.7.0¶

增强功能¶

为 dask_ml.metrics.accuracy_score() 添加了 sample_weight 支持。(GH#217)
改进了在 dask_ml.cluster.SpectralClustering 上的训练性能 (GH#152)
添加了 dask_ml.preprocessing.LabelEncoder。(GH#226)
修复了 model_selection 元估计器不遵守默认 Dask 调度器的问题 (GH#260)

API 破坏性变更¶

从 dask_ml.cluster.SpectralClustering 中移除了 basis_inds_ 属性，因为它不再使用 (GH#152)
将 dask_ml.wrappers.Incremental.fit() 更改为在训练前克隆基础估计器（GH#258）。这带来了一些变化
1. 底层估计器不再提供对学习属性（如 coef_）的访问。我们建议使用 Incremental.coef_。
2. 在连续的 fit 调用之间，状态不再泄漏。请注意，如果您希望重用状态，例如学习到的属性或随机种子，仍然可以使用 Incremental.partial_fit()。如果您要对训练数据进行多次传递，这非常有用。
更改了 dask_ml.wrappers.Incremental 的 get_params 和 set_params，使其不再神奇地获取/设置底层估计器的参数（GH#258）。要为底层估计器指定参数，请使用 scikit-learn 建立的双下划线前缀约定：
```
inc.set_params('estimator__alpha': 10)
```

重组¶

Dask-SearchCV 现在正在 dask/dask-ml 仓库中开发。之前安装了 dask-searchcv 的用户现在应该安装 dask-ml。

Bug 修复¶

在32位平台上修复了随机种子生成 (GH#230)

版本 0.6.0¶

API 破坏性变更¶

从增量学习器的 fit 方法中移除了 get 关键字。(GH#187)
弃用了各种 Partial* 估计器，转而使用 dask_ml.wrappers.Incremental 元估计器 (GH#190)

增强功能¶

新增了一个新的元估计器 dask_ml.wrappers.Incremental ，用于包装任何具有 partial_fit 方法的估计器。更多信息请参见增量元估计器。(GH#190)
添加了一个 R2-score 指标 dask_ml.metrics.r2_score()。

版本 0.5.0¶

API 破坏性变更¶

在 dask_ml.preprocessing.StandardScalar 上的 n_samples_seen_ 属性现在始终为 numpy.nan (GH#157)。
更改了 dask_ml.datasets.make_blobs()、dask_ml.datasets.make_regression() 和 dask_ml.datasets.make_classfication() 的算法，以减少单机峰值内存使用 (GH#67)

增强功能¶

添加了 dask_ml.model_selection.train_test_split() 和 dask_ml.model_selection.ShuffleSplit (GH#172)
添加了 dask_ml.metrics.classification_score()、dask_ml.metrics.mean_absolute_error() 和 dask_ml.metrics.mean_squared_error()。

Bug 修复¶

dask_ml.preprocessing.StandardScalar 现在可以处理 DataFrame 输入 (GH#157)。

版本 0.4.1¶

此版本添加了几个新的估计器。

增强功能¶

添加了 `dask_ml.preprocessing.RobustScaler`¶

使用对异常值稳健的统计数据来缩放特征。这反映了 sklearn.preprocessing.RobustScalar (GH#62)。

添加了 `dask_ml.preprocessing.OrdinalEncoder`¶

将分类特征编码为有序特征，在一个有序特征中 (GH#119)。

添加了 `dask_ml.wrappers.ParallelPostFit`¶

一个用于与任何 scikit-learn 估计器拟合的元估计器，但在 dask 数组上并行进行后处理（predict、transform 等）。更多信息请参见并行元估计器 (GH#132)。

版本 0.4.0¶

API 变更¶

更改了 dask_glm.linear_model 中基于 dask-glm 的估计器的参数，以匹配 scikit-learn 的 API (GH#94)。
- 要指定 lambuh 使用 C = 1.0 / lambduh （默认值 1.0 保持不变）
- rho、over_relax、abstol 和 reltol 参数已被移除。请在 solver_kwargs 中提供它们。
这会影响 LinearRegression、LogisticRegression 和 PoissonRegression 估计器。

增强功能¶

接受 dask.dataframe 用于基于 dask-glm 的估计器 (GH#84)。

版本 0.3.2¶

增强功能¶

添加了 dask_ml.preprocessing.TruncatedSVD() 和 dask_ml.preprocessing.PCA() (GH#78)

版本 0.3.0¶

增强功能¶

添加了 KMeans.predict() (GH#83)

API 变更¶

更改了 MinMaxScaler 和 StandardScaler 上的拟合属性，使其成为具体的 NumPy 或 pandas 对象，而不是持久化的 dask 对象 (GH#75)。

Keras 和 Tensorflow

贡献

更新日志

内容

更新日志¶

版本 2024.4.1¶

版本 2023.3.24¶

版本 2022.5.27¶

版本 2021.11.30¶

版本 2021.11.16¶

版本 2021.10.17¶

版本 1.9.0¶

版本 1.8.0¶

版本 1.7.0¶

版本 1.6.0¶

版本 1.5.0¶

版本 1.4.0¶

版本 1.3.0¶

版本 1.2.0¶

版本 1.1.1¶

版本 1.1.0¶

版本 1.0.0¶

版本 0.13.0¶

版本 0.12.0¶

API 破坏性变更¶

版本 0.11.0¶

增强功能¶

Bug 修复¶

版本 0.10.0¶

增强功能¶

版本 0.9.0¶

增强功能¶

Bug 修复¶

文档更新¶

构建变更¶

版本 0.8.0¶

增强功能¶

Bug 修复¶

版本 0.7.0¶

增强功能¶

API 破坏性变更¶

重组¶

Bug 修复¶

版本 0.6.0¶

API 破坏性变更¶

增强功能¶

版本 0.5.0¶

API 破坏性变更¶

增强功能¶

Bug 修复¶

版本 0.4.1¶

增强功能¶

添加了 dask_ml.preprocessing.RobustScaler¶

添加了 dask_ml.preprocessing.OrdinalEncoder¶

添加了 dask_ml.wrappers.ParallelPostFit¶

版本 0.4.0¶

API 变更¶

增强功能¶

版本 0.3.2¶

增强功能¶

版本 0.3.0¶

增强功能¶

API 变更¶

添加了 `dask_ml.preprocessing.RobustScaler`¶

添加了 `dask_ml.preprocessing.OrdinalEncoder`¶

添加了 `dask_ml.wrappers.ParallelPostFit`¶