Pipeline

class pyspark.ml. Pipeline ( * , stages : Optional [ List [ PipelineStage ] ] = None ) [source]

一个简单的管道,作为估计器。一个管道由一系列阶段组成,每个阶段要么是一个 Estimator 要么是一个 Transformer 。当 Pipeline.fit() 被调用时,阶段按顺序执行。如果一个阶段是一个 Estimator ,它的 Estimator.fit() 方法将在输入数据集上调用以拟合一个模型。然后,该模型(作为一个转换器)将被用来转换数据集作为下一个阶段的输入。如果一个阶段是一个 Transformer ,它的 Transformer.transform() 方法将被调用来生成下一个阶段的数据集。来自一个 Pipeline 的拟合模型是一个 PipelineModel ,它由拟合的模型和转换器组成,对应于管道的阶段。如果阶段是一个空列表,管道作为一个身份转换器。

新增于版本 1.3.0。

方法

clear (参数)

如果参数已明确设置,则从参数映射中清除该参数。

copy ([extra])

创建此实例的副本。

explainParam (参数)

解释单个参数并返回其名称、文档以及可选的默认值和用户提供的值的字符串。

explainParams ()

返回所有参数的文档,包括它们可选的默认值和用户提供的值。

extractParamMap ([extra])

提取嵌入的默认参数值和用户提供的值,然后将它们与输入中的额外值合并到一个扁平的参数映射中,如果存在冲突,则使用后者的值,即顺序为:默认参数值 < 用户提供的值 < 额外值。

fit (数据集[, 参数])

使用可选参数将模型拟合到输入数据集。

fitMultiple (数据集, 参数映射)

为输入数据集中的每个参数映射拟合一个模型。

getOrDefault (参数)

获取用户提供的参数映射中的参数值或其默认值。

getParam (参数名称)

根据名称获取参数。

getStages ()

获取流水线阶段。

hasDefault (参数)

检查参数是否具有默认值。

hasParam (参数名称)

测试此实例是否包含具有给定(字符串)名称的参数。

isDefined (参数)

检查参数是否由用户显式设置或具有默认值。

isSet (参数)

检查参数是否被用户显式设置。

load (路径)

从输入路径读取一个ML实例,是 read().load(path) 的快捷方式。

read ()

返回此类的一个 MLReader 实例。

save (路径)

将此 ML 实例保存到给定路径,是 ‘write().save(path)’ 的快捷方式。

set (参数, 值)

在嵌入的参数映射中设置一个参数。

setParams (self, \*[, stages])

设置Pipeline的参数。

setStages (值)

设置流水线阶段。

write ()

返回此ML实例的MLWriter实例。

属性

参数

返回按名称排序的所有参数。

stages

方法文档

clear ( param : pyspark.ml.param.Param ) → None

如果参数已明确设置,则从参数映射中清除该参数。

copy ( extra : Optional [ ParamMap ] = None ) → Pipeline [source]

创建此实例的副本。

新增于版本 1.4.0。

Parameters
extra dict, optional

额外参数

Returns
Pipeline

新实例

explainParam ( param : Union [ str , pyspark.ml.param.Param ] ) → str

解释单个参数并返回其名称、文档以及可选的默认值和用户提供的值的字符串。

explainParams ( ) → str

返回所有参数的文档,包括它们可选的默认值和用户提供的值。

extractParamMap ( extra : Optional [ ParamMap ] = None ) → ParamMap

提取嵌入的默认参数值和用户提供的值,然后将它们与输入中的额外值合并到一个扁平的参数映射中,如果存在冲突,则使用后者的值,即顺序为:默认参数值 < 用户提供的值 < 额外值。

Parameters
extra dict, optional

额外参数值

Returns
dict

合并的参数映射

fit ( dataset : pyspark.sql.dataframe.DataFrame , params : Union[ParamMap, List[ParamMap], Tuple[ParamMap], None] = None ) → Union [ M , List [ M ] ]

使用可选参数将模型拟合到输入数据集。

新增于版本 1.3.0。

Parameters
dataset pyspark.sql.DataFrame

输入数据集。

params dict or list or tuple, optional

一个可选的参数映射,用于覆盖嵌入的参数。如果给定了一个参数映射的列表/元组,这将调用每个参数映射上的fit方法,并返回一个模型列表。

Returns
Transformer or a list of Transformer

拟合模型

fitMultiple ( dataset : pyspark.sql.dataframe.DataFrame , paramMaps : Sequence [ ParamMap ] ) → Iterator [ Tuple [ int , M ] ]

为输入数据集中的每个参数映射拟合一个模型。

新增于版本 2.3.0。

Parameters
dataset pyspark.sql.DataFrame

输入数据集。

paramMaps collections.abc.Sequence

一系列参数映射。

Returns
_FitMultipleIterator

一个线程安全的可迭代对象,其中包含每个参数映射的一个模型。每次调用 next(modelIterator) 将返回 (index, model) ,其中模型是使用 paramMaps[index] 拟合的。 index 值可能不是连续的。

getOrDefault ( param : Union [ str , pyspark.ml.param.Param [ T ] ] ) → Union [ Any , T ]

获取用户提供的参数映射中的参数值或其默认值。如果两者都未设置,则引发错误。

getParam ( paramName : str ) pyspark.ml.param.Param

根据名称获取参数。

getStages ( ) → List [ PipelineStage ] [source]

获取流水线阶段。

新增于版本 1.3.0。

hasDefault ( param : Union [ str , pyspark.ml.param.Param [ Any ] ] ) → bool

检查参数是否具有默认值。

hasParam ( paramName : str ) → bool

测试此实例是否包含具有给定(字符串)名称的参数。

isDefined ( param : Union [ str , pyspark.ml.param.Param [ Any ] ] ) → bool

检查参数是否由用户显式设置或具有默认值。

isSet ( param : Union [ str , pyspark.ml.param.Param [ Any ] ] ) → bool

检查参数是否被用户显式设置。

classmethod load ( path : str ) → RL

从输入路径读取一个ML实例,是 read().load(path) 的快捷方式。

classmethod read ( ) → pyspark.ml.pipeline.PipelineReader [source]

返回此类的一个 MLReader 实例。

新增于版本 2.0.0。

save ( path : str ) → None

将此 ML 实例保存到给定路径,是 ‘write().save(path)’ 的快捷方式。

set ( param : pyspark.ml.param.Param , value : Any ) → None

在嵌入的参数映射中设置一个参数。

setParams ( self , \* , stages=None ) [source]

设置Pipeline的参数。

新增于版本 1.3.0。

setStages ( value : List [ PipelineStage ] ) → Pipeline [source]

设置流水线阶段。

新增于版本 1.3.0。

Parameters
value list

pyspark.ml.Transformer pyspark.ml.Estimator

Returns
Pipeline

流水线实例

write ( ) pyspark.ml.util.MLWriter [source]

返回此ML实例的MLWriter实例。

新增于版本 2.0.0。

属性文档

params

返回按名称排序的所有参数。默认实现使用 dir() 获取所有类型为 Param 的属性。

stages : pyspark.ml.param.Param[List[PipelineStage]] = Param(parent='undefined', name='stages', doc='a list of pipeline stages')