更新日志
内容
更新日志¶
版本 2023.3.24¶
与 Python 3.10 的兼容性
已放弃对 Python 3.7 的支持
与 scikit-learn 1.2.0 及更新版本的兼容性
版本 2021.11.16¶
版本 2021.10.17¶
添加了对 scikit-learn 1.0.0 的支持。scikit-learn 1.0.0 现在是支持的最低版本。
版本 1.9.0¶
版本 1.8.0¶
与 scikit-learn 0.24 的兼容性
版本 1.7.0¶
改进了与 PyTorch 模型一起工作的文档,参见 pytorch (GH#699)
改进了与 Keras / TensorFlow 模型工作的文档,参见 Keras 和 Tensorflow (GH#713)
修复了
dask_ml.feature_extraction.text.HashingVectorizer中远程词汇的处理 (GH#719)添加了
dask_ml.metrics.regression.mean_squared_log_error()(GH#725)在
dask_ml.preprocessing.OneHotEncoder中允许用户提供的类别 (GH#727)添加了
dask_ml.linear_model.LogisticRegression.decision_function()(GH#728)为
dask_ml.decomposition.TruncatedSVD添加了compute参数 (GH#743)增量PCA中的固定符号稳定性 (GH#742)
版本 1.6.0¶
改进了 RandomizedSearchCV 的文档
改进了
dask_ml.cluster.KMeans中的日志记录 (GH#688)在
dask_ml.model_selection.HyperbandSearchCV中添加了对dask.dataframe对象的支持 (GH#701)为
dask_ml.metrics.mean_squared_error添加了squared=True选项 (GH#707)添加了
dask_ml.feature_extraction.text.CountVectorizer(GH#705)
版本 1.5.0¶
支持 Python 3.8 (GH#669)
与 Scikit-Learn 0.23.0 的兼容性 (GH#669)
现在需要 Scikit-Learn 0.23.0 或更新版本 (GH#669)
移除了之前已弃用的 Partial 类。请改用
dask_ml.wrappers.Incremental(GH#674)
版本 1.4.0¶
添加了
dask_ml.decomposition.IncrementalPCA用于核心外 / 分布式增量PCA (GH#619)在增量模型选择中改进了日志记录和监控 (GH#528)
添加了
dask_ml.ensemble.BlockwiseVotingClassifier和dask_ml.ensemble.BlockwiseVotingRegressor用于分块训练和集成预测 (GH#657)改进了 超参数搜索 的文档 (GH#432)
版本 1.3.0¶
为
dask_ml.model_selection.train_test_split()添加了shuffle支持,适用于DataFrame输入 (GH#625)通过重用缓存任务,改进了
dask_ml.model_selection.GridSearchCV的性能 (GH#622)为
dask_ml.model_selection.GridSearchCV添加DataFrame支持 (GH#612)修复了
dask_ml.linear_model.LinearRegression.score()以使用r2_score而不是mse(GH#614)在
dask_ml.preprocessing.StandardScaler中处理缺失数据 (GH#608)
版本 1.2.0¶
将
model_selection.IncrementalSearchCV中的第二个位置参数名称从param_distribution更改为parameters,以匹配基类的名称。与 scikit-learn 0.22.1 的兼容性。
添加了
dask_ml.preprocessing.BlockTransfomer,这是 scikit-learn 的 FunctionTransformer 的扩展 (GH#366)。添加了
dask_ml.feature_extraction.FeatureHasher,它类似于 scikit-learn 的实现。
版本 1.1.0¶
非数组(例如 Dask Bags 和 DataFrames)现在允许在
dask_ml.wrappers.Incremental中使用。这对于文本分类管道(pr:570)非常有用索引现在在
dask_ml.preprocessing.PolynomialFeatures中被保留,用于 DataFrame 输入 (GH#563)dask_ml.decomposition.PCA现在支持 DataFrame 输入 (GH#543)dask_ml.cluster.KMeans处理某些块长度为0的输入 (GH#559)改进了对
dask_ml.model_selection.train_test_split()混合输入的错误报告 (GH#552)移除了已弃用的
dask_ml.joblib模块。请改用joblib.parallel_backend代替 (GH#545)dask_ml.preprocessing.QuantileTransformer现在处理 DataFrame 输入 (GH#533)
版本 1.0.0¶
为分布式数据集的超参数搜索添加了新的超参数搜索元估计器:
HyperbandSearchCV和SuccessiveHalvingSearchCV已移除对 Python 2 的支持 (GH#500)
版本 0.13.0¶
与 scikit-learn 0.21.1 的兼容性
在
GridSearchCV和RandomizedSearchCV中的交叉验证结果现在会在完成时收集,以防工作进程丢失 (GH#433)。修复了在只提供训练/测试大小之一时
dask_ml.model_selection.train_test_split()中的错误 (GH#502)为
dask_ml.model_selection.IncrementalSearchCV提供一致的随机状态修复了32位Windows构建的多个问题 (GH#487)
备注
dask-ml 0.13.0 将是支持 Python 2 的最后一个版本。
版本 0.12.0¶
API 破坏性变更¶
dask_ml.model_selection.IncrementalSearchCV现在为.predict等后拟合方法返回 Dask 对象 (GH#423)。
版本 0.11.0¶
请注意,此版本的 Dask-ML 需要 scikit-learn >= 0.20.0。
增强功能¶
添加了
dask_ml.model_selection.IncrementalSearchCV,这是一个用于超参数优化的大于内存数据集的元估计器 (GH#356)。更多信息请参见 增量超参数优化。添加了
dask_ml.preprocessing.PolynomialTransformer,作为 scikit-learn 版本的直接替代(GH#347)。在
dask_ml.model_selection.ParallelPostFit中,为 Dask Arrays 添加了自动重新分块功能,这些数组在特征方向上有多个块 (GH#376)为
dask_ml.cluster.KMeans添加了对 Dask DataFrame 输入的支持 (GH#390)在
dask_ml.wrappers.ParallelPostFit.score()中添加了compute关键字,以支持延迟评估模型的分数 (GH#402)
Bug 修复¶
更改了
dask_ml.wrappers.ParallelPostFit,当输入数组在特征方向上有多于一个块时,自动对predict等方法的输入数组进行重新分块 (GH#376)。在
dask_ml.impute.SimpleImputer中存在一个错误,当使用 Dask DataFrames 时,填充的是最频繁项的计数,而不是项本身 (GH#385)。在设置
random_state时,dask_ml.model_selection.ShuffleSplit返回相同的分割 (GH#380)。
版本 0.9.0¶
增强功能¶
Bug 修复¶
修复了
dask_ml.model_selection.GridSearchCV和dask_ml.model_selection.RandomizedSearchCV的预测和评分步骤中的错误处理 (GH#339)与 Dask 0.18 兼容的
dask_ml.preprocessing.LabelEncoder`(您还会注意到性能的提升)(:pr:`336)。
版本 0.8.0¶
增强功能¶
在 Incremental 中自动替换默认的 scikit-learn 评分器为 dask 感知的版本 (GH#200)
添加了
dask_ml.metrics.log_loss()损失函数和neg_log_loss评分器 (GH#318)修复了 GridSearchCV 和 BaseSearchCV 对类似数组的拟合参数的处理 (GH#320)
版本 0.7.0¶
增强功能¶
为
dask_ml.metrics.accuracy_score()添加了sample_weight支持。(GH#217)改进了在
dask_ml.cluster.SpectralClustering上的训练性能 (GH#152)修复了
model_selection元估计器不遵守默认 Dask 调度器的问题 (GH#260)
API 破坏性变更¶
从
dask_ml.cluster.SpectralClustering中移除了basis_inds_属性,因为它不再使用 (GH#152)将
dask_ml.wrappers.Incremental.fit()更改为在训练前克隆基础估计器(GH#258)。这带来了一些变化底层估计器不再提供对学习属性(如
coef_)的访问。我们建议使用Incremental.coef_。在连续的
fit调用之间,状态不再泄漏。请注意,如果您希望重用状态,例如学习到的属性或随机种子,仍然可以使用Incremental.partial_fit()。如果您要对训练数据进行多次传递,这非常有用。
更改了
dask_ml.wrappers.Incremental的get_params和set_params,使其不再神奇地获取/设置底层估计器的参数(GH#258)。要为底层估计器指定参数,请使用 scikit-learn 建立的双下划线前缀约定:inc.set_params('estimator__alpha': 10)
重组¶
Dask-SearchCV 现在正在 dask/dask-ml 仓库中开发。之前安装了 dask-searchcv 的用户现在应该安装 dask-ml。
版本 0.6.0¶
API 破坏性变更¶
从增量学习器的
fit方法中移除了 get 关键字。(GH#187)弃用了各种
Partial*估计器,转而使用dask_ml.wrappers.Incremental元估计器 (GH#190)
增强功能¶
新增了一个新的元估计器
dask_ml.wrappers.Incremental,用于包装任何具有 partial_fit 方法的估计器。更多信息请参见 增量元估计器 。(GH#190)添加了一个 R2-score 指标
dask_ml.metrics.r2_score()。
版本 0.5.0¶
API 破坏性变更¶
在
dask_ml.preprocessing.StandardScalar上的 n_samples_seen_ 属性现在始终为numpy.nan(GH#157)。更改了
dask_ml.datasets.make_blobs()、dask_ml.datasets.make_regression()和dask_ml.datasets.make_classfication()的算法,以减少单机峰值内存使用 (GH#67)
增强功能¶
添加了
dask_ml.model_selection.train_test_split()和dask_ml.model_selection.ShuffleSplit(GH#172)添加了
dask_ml.metrics.classification_score()、dask_ml.metrics.mean_absolute_error()和dask_ml.metrics.mean_squared_error()。
版本 0.4.1¶
此版本添加了几个新的估计器。
增强功能¶
添加了 dask_ml.preprocessing.RobustScaler¶
使用对异常值稳健的统计数据来缩放特征。这反映了 sklearn.preprocessing.RobustScalar (GH#62)。
添加了 dask_ml.preprocessing.OrdinalEncoder¶
将分类特征编码为有序特征,在一个有序特征中 (GH#119)。
添加了 dask_ml.wrappers.ParallelPostFit¶
一个用于与任何 scikit-learn 估计器拟合的元估计器,但在 dask 数组上并行进行后处理(predict、transform 等)。更多信息请参见 并行元估计器 (GH#132)。