管道和复合估计器

管道和复合估计器

Dask-ML 估计器遵循 scikit-learn API。这意味着 Dask-ML 估计器,如 dask_ml.decomposition.PCA,可以放置在常规的 sklearn.pipeline.Pipeline 中。

更多关于使用管道的一般信息,请参见 http://scikit-learn.org/dev/modules/compose.html

In [1]: from sklearn.pipeline import Pipeline  # regular scikit-learn pipeline

In [2]: from dask_ml.cluster import KMeans

In [3]: from dask_ml.decomposition import PCA

In [4]: estimators = [('reduce_dim', PCA()), ('cluster', KMeans())]

In [5]: pipe = Pipeline(estimators)

In [6]: pipe
Out[6]: Pipeline(steps=[('reduce_dim', PCA()), ('cluster', KMeans())])

管道 pipe 现在可以与 Dask 数组一起使用。

异构数据的ColumnTransformer

dask_ml.compose.ColumnTransformer 是 scikit-learn 版本的克隆,与 Dask 对象配合良好。

请参阅 http://scikit-learn.org/dev/modules/compose.html#columntransformer-for-heterogeneous-data 以了解 ColumnTransformer 的介绍。