管道和复合估计器
内容
管道和复合估计器¶
Dask-ML 估计器遵循 scikit-learn API。这意味着 Dask-ML 估计器,如 dask_ml.decomposition.PCA,可以放置在常规的 sklearn.pipeline.Pipeline 中。
更多关于使用管道的一般信息,请参见 http://scikit-learn.org/dev/modules/compose.html。
In [1]: from sklearn.pipeline import Pipeline # regular scikit-learn pipeline
In [2]: from dask_ml.cluster import KMeans
In [3]: from dask_ml.decomposition import PCA
In [4]: estimators = [('reduce_dim', PCA()), ('cluster', KMeans())]
In [5]: pipe = Pipeline(estimators)
In [6]: pipe
Out[6]: Pipeline(steps=[('reduce_dim', PCA()), ('cluster', KMeans())])
管道 pipe 现在可以与 Dask 数组一起使用。
异构数据的ColumnTransformer¶
dask_ml.compose.ColumnTransformer 是 scikit-learn 版本的克隆,与 Dask 对象配合良好。
请参阅 http://scikit-learn.org/dev/modules/compose.html#columntransformer-for-heterogeneous-data 以了解 ColumnTransformer 的介绍。