API 参考

本页列出了 dask_ml 中的所有估计器和顶级函数。除非另有说明,否则 dask-ml 中实现的估计器适用于并行和分布式训练。

dask_ml.model_selection: 模型选择

用于超参数优化的工具。

这些估计器将并行操作。它们的可扩展性取决于所使用的底层估计器。

Dask-ML 有一些交叉验证工具。

model_selection.train_test_split(*arrays[, ...])

将数组随机分割为训练和测试矩阵。

model_selection.train_test_split() 是一个简单的辅助工具,它在内部使用了 model_selection.ShuffleSplit

model_selection.ShuffleSplit([n_splits, ...])

随机排列交叉验证器。

model_selection.KFold([n_splits, shuffle, ...])

K折交叉验证器

Dask-ML 提供了网格搜索和随机搜索的直接替代方案。这些方案适用于数据集的交叉验证拆分适合内存的情况。

model_selection.GridSearchCV(estimator, ...)

对估计器的指定参数值进行穷举搜索。

model_selection.RandomizedSearchCV(...[, ...])

超参数的随机搜索。

对于内存不足的大数据集的超参数优化,Dask-ML 提供了以下功能:

model_selection.IncrementalSearchCV(...[, ...])

在支持 partial_fit 的模型上逐步搜索超参数

model_selection.HyperbandSearchCV(estimator, ...)

使用自适应交叉验证算法为特定模型找到最佳参数。

model_selection.SuccessiveHalvingSearchCV(...)

执行连续减半算法 [R424ea1a907b1-1]

model_selection.InverseDecaySearchCV(...[, ...])

在支持 partial_fit 的模型上逐步搜索超参数

dask_ml.ensemble: 集成方法

ensemble.BlockwiseVotingClassifier(estimator)

块训练和集成投票分类器。

ensemble.BlockwiseVotingRegressor(estimator)

块训练和集成投票回归器。

dask_ml.linear_model: 广义线性模型

dask_ml.linear_model 模块实现了用于分类和回归的线性模型。

linear_model.LinearRegression([penalty, ...])

线性回归的估计器。

linear_model.LogisticRegression([penalty, ...])

逻辑回归的估计器。

linear_model.PoissonRegression([penalty, ...])

泊松回归的估计器。

dask_ml.naive_bayes: 朴素贝叶斯

naive_bayes.GaussianNB([priors, classes])

使用高斯似然拟合朴素贝叶斯模型

dask_ml.wrappers: 元估计器

dask-ml 提供了一些元估计器,这些元估计器有助于使用遵循 scikit-learn API 的常规估计器。这些元估计器使得底层估计器能够很好地与 Dask 数组或数据框一起工作。

wrappers.ParallelPostFit([estimator, ...])

用于并行预测和转换的元估计器。

wrappers.Incremental([estimator, scoring, ...])

用于将 Dask 数组分块喂给估计器的元估计器。

dask_ml.cluster: 聚类

无监督聚类算法

cluster.KMeans([n_clusters, init, ...])

可扩展的 KMeans 用于聚类

cluster.SpectralClustering([n_clusters, ...])

应用并行谱聚类

dask_ml.decomposition: 矩阵分解

decomposition.IncrementalPCA([n_components, ...])

增量主成分分析 (IPCA)。

decomposition.PCA([n_components, copy, ...])

主成分分析 (PCA)

decomposition.TruncatedSVD([n_components, ...])

方法

dask_ml.preprocessing: 数据预处理

数据预处理的工具。

preprocessing.StandardScaler(*[, copy, ...])

通过去除均值并缩放到单位方差来标准化特征。

preprocessing.RobustScaler(*[, ...])

使用对异常值稳健的统计数据来缩放特征。

preprocessing.MinMaxScaler([feature_range, ...])

通过将每个特征缩放到给定范围来转换特征。

preprocessing.QuantileTransformer(*[, ...])

使用分位数信息转换特征。

preprocessing.Categorizer([categories, columns])

将 DataFrame 的列转换为分类数据类型。

preprocessing.DummyEncoder([columns, drop_first])

对分类列进行虚拟(独热)编码。

preprocessing.OrdinalEncoder([columns])

序数(整数)编码分类列。

preprocessing.LabelEncoder([use_categorical])

将标签编码为介于 0 和 n_classes-1 之间的值。

preprocessing.PolynomialFeatures([degree, ...])

生成多项式和交互特征。

preprocessing.BlockTransformer(func, *[, ...])

从任意可调用对象构建一个转换器

dask_ml.feature_extraction.text: 特征提取

feature_extraction.text.CountVectorizer(*[, ...])

将一组文本文档转换为词频矩阵

feature_extraction.text.HashingVectorizer(*)

将一组文本文档转换为标记出现次数的矩阵。

feature_extraction.text.FeatureHasher([...])

实现了特征哈希,即哈希技巧。

dask_ml.compose: 复合估计器

用于构建带有转换器的复合模型的元估计器。

用于组合多个转换器的元估计器模型。

这些估计器对于处理异构表格数据非常有用。

compose.ColumnTransformer(transformers[, ...])

将转换器应用于数组或 pandas DataFrame 的列。

compose.make_column_transformer(...)

从给定的转换器构建一个 ColumnTransformer。

dask_ml.impute: 填补缺失数据

impute.SimpleImputer(*[, missing_values, ...])

方法

dask_ml.metrics: 指标

评分函数、性能指标和成对距离计算。

回归指标

metrics.mean_absolute_error(y_true, y_pred)

平均绝对误差回归损失。

metrics.mean_absolute_percentage_error(...)

平均绝对百分比误差回归损失。

metrics.mean_squared_error(y_true, y_pred[, ...])

均方误差回归损失。

metrics.mean_squared_log_error(y_true, y_pred)

均方对数误差回归损失。

metrics.r2_score(y_true, y_pred[, ...])

\(R^2\) (决定系数) 回归评分函数。

分类指标

metrics.accuracy_score(y_true, y_pred[, ...])

准确性分类得分。

metrics.log_loss(y_true, y_pred[, eps, ...])

对数损失,又称逻辑损失或交叉熵损失。

dask_ml.xgboost: XGBoost

dask_ml.datasets: 数据集

dask-ml 提供了一些用于生成玩具数据集的工具。

make_counts([n_samples, n_features, ...])

生成一个用于建模计数数据的虚拟数据集。

make_blobs([n_samples, n_features, centers, ...])

生成用于聚类的各向同性高斯斑点。

make_regression([n_samples, n_features, ...])

生成一个随机的回归问题。

make_classification([n_samples, n_features, ...])

make_classification_df([n_samples, ...])

使用 make_classification 函数创建一个用于测试的 dask 数据帧。