Pipeline ¶

class pyspark.ml. Pipeline ( * , stages : Optional [ List [ PipelineStage ] ] = None ) [source] ¶

一个简单的管道，作为估计器。一个管道由一系列阶段组成，每个阶段要么是一个 Estimator 要么是一个 Transformer 。当 Pipeline.fit() 被调用时，阶段按顺序执行。如果一个阶段是一个 Estimator ，它的 Estimator.fit() 方法将在输入数据集上调用以拟合一个模型。然后，该模型（作为一个转换器）将被用来转换数据集作为下一个阶段的输入。如果一个阶段是一个 Transformer ，它的 Transformer.transform() 方法将被调用来生成下一个阶段的数据集。来自一个 Pipeline 的拟合模型是一个 PipelineModel ，它由拟合的模型和转换器组成，对应于管道的阶段。如果阶段是一个空列表，管道作为一个身份转换器。

新增于版本 1.3.0。

方法

`clear` (参数)	如果参数已明确设置，则从参数映射中清除该参数。
`copy` ([extra])	创建此实例的副本。
`explainParam` (参数)	解释单个参数并返回其名称、文档以及可选的默认值和用户提供的值的字符串。
`explainParams` ()	返回所有参数的文档，包括它们可选的默认值和用户提供的值。
`extractParamMap` ([extra])	提取嵌入的默认参数值和用户提供的值，然后将它们与输入中的额外值合并到一个扁平的参数映射中，如果存在冲突，则使用后者的值，即顺序为：默认参数值 < 用户提供的值 < 额外值。
`fit` (数据集[, 参数])	使用可选参数将模型拟合到输入数据集。
`fitMultiple` (数据集, 参数映射)	为输入数据集中的每个参数映射拟合一个模型。
`getOrDefault` (参数)	获取用户提供的参数映射中的参数值或其默认值。
`getParam` (参数名称)	根据名称获取参数。
`getStages` ()	获取流水线阶段。
`hasDefault` (参数)	检查参数是否具有默认值。
`hasParam` (参数名称)	测试此实例是否包含具有给定（字符串）名称的参数。
`isDefined` (参数)	检查参数是否由用户显式设置或具有默认值。
`isSet` (参数)	检查参数是否被用户显式设置。
`load` (路径)	从输入路径读取一个ML实例，是 read().load(path) 的快捷方式。
`read` ()	返回此类的一个 MLReader 实例。
`save` (路径)	将此 ML 实例保存到给定路径，是 ‘write().save(path)’ 的快捷方式。
`set` (参数, 值)	在嵌入的参数映射中设置一个参数。
`setParams` (self, \*[, stages])	设置Pipeline的参数。
`setStages` (值)	设置流水线阶段。
`write` ()	返回此ML实例的MLWriter实例。

属性

`参数`	返回按名称排序的所有参数。
`stages`

方法文档

clear ( param : pyspark.ml.param.Param ) → None ¶: 如果参数已明确设置，则从参数映射中清除该参数。

copy ( extra : Optional [ ParamMap ] = None ) → Pipeline [source] ¶

创建此实例的副本。

新增于版本 1.4.0。

Parameters

extra dict, optional: 额外参数

Returns

Pipeline: 新实例

explainParam ( param : Union [ str , pyspark.ml.param.Param ] ) → str ¶: 解释单个参数并返回其名称、文档以及可选的默认值和用户提供的值的字符串。

explainParams ( ) → str ¶: 返回所有参数的文档，包括它们可选的默认值和用户提供的值。

extractParamMap ( extra : Optional [ ParamMap ] = None ) → ParamMap ¶

提取嵌入的默认参数值和用户提供的值，然后将它们与输入中的额外值合并到一个扁平的参数映射中，如果存在冲突，则使用后者的值，即顺序为：默认参数值 < 用户提供的值 < 额外值。

Parameters

extra dict, optional: 额外参数值

Returns

dict: 合并的参数映射

fit ( dataset : pyspark.sql.dataframe.DataFrame , params : Union[ParamMap, List[ParamMap], Tuple[ParamMap], None] = None ) → Union [ M , List [ M ] ] ¶

使用可选参数将模型拟合到输入数据集。

新增于版本 1.3.0。

Parameters

dataset pyspark.sql.DataFrame: 输入数据集。
params dict or list or tuple, optional: 一个可选的参数映射，用于覆盖嵌入的参数。如果给定了一个参数映射的列表/元组，这将调用每个参数映射上的fit方法，并返回一个模型列表。

Returns

Transformer or a list of Transformer: 拟合模型

fitMultiple ( dataset : pyspark.sql.dataframe.DataFrame , paramMaps : Sequence [ ParamMap ] ) → Iterator [ Tuple [ int , M ] ] ¶

为输入数据集中的每个参数映射拟合一个模型。

新增于版本 2.3.0。

Parameters

dataset pyspark.sql.DataFrame: 输入数据集。
paramMaps collections.abc.Sequence: 一系列参数映射。

Returns

_FitMultipleIterator: 一个线程安全的可迭代对象，其中包含每个参数映射的一个模型。每次调用 next(modelIterator) 将返回 (index, model) ，其中模型是使用 paramMaps[index] 拟合的。 index 值可能不是连续的。

getOrDefault ( param : Union [ str , pyspark.ml.param.Param [ T ] ] ) → Union [ Any , T ] ¶: 获取用户提供的参数映射中的参数值或其默认值。如果两者都未设置，则引发错误。

getParam ( paramName : str ) → pyspark.ml.param.Param ¶: 根据名称获取参数。

getStages ( ) → List [ PipelineStage ] [source] ¶: 获取流水线阶段。

新增于版本 1.3.0。

hasDefault ( param : Union [ str , pyspark.ml.param.Param [ Any ] ] ) → bool ¶: 检查参数是否具有默认值。

hasParam ( paramName : str ) → bool ¶: 测试此实例是否包含具有给定（字符串）名称的参数。

isDefined ( param : Union [ str , pyspark.ml.param.Param [ Any ] ] ) → bool ¶: 检查参数是否由用户显式设置或具有默认值。

isSet ( param : Union [ str , pyspark.ml.param.Param [ Any ] ] ) → bool ¶: 检查参数是否被用户显式设置。

classmethod load ( path : str ) → RL ¶: 从输入路径读取一个ML实例，是 read().load(path) 的快捷方式。

classmethod read ( ) → pyspark.ml.pipeline.PipelineReader [source] ¶: 返回此类的一个 MLReader 实例。

新增于版本 2.0.0。

save ( path : str ) → None ¶: 将此 ML 实例保存到给定路径，是 ‘write().save(path)’ 的快捷方式。

set ( param : pyspark.ml.param.Param , value : Any ) → None ¶: 在嵌入的参数映射中设置一个参数。

setParams ( self , \* , stages=None ) [source] ¶: 设置Pipeline的参数。

新增于版本 1.3.0。

setStages ( value : List [ PipelineStage ] ) → Pipeline [source] ¶

设置流水线阶段。

新增于版本 1.3.0。

Parameters

value list: 的 pyspark.ml.Transformer 或 pyspark.ml.Estimator

Returns

Pipeline: 流水线实例

write ( ) → pyspark.ml.util.MLWriter [source] ¶: 返回此ML实例的MLWriter实例。

新增于版本 2.0.0。

属性文档

params ¶: 返回按名称排序的所有参数。默认实现使用 dir() 获取所有类型为 Param 的属性。

stages : pyspark.ml.param.Param[List[PipelineStage]] = Param(parent='undefined', name='stages', doc='a list of pipeline stages') ¶

预测模型

PipelineModel