StreamingLogisticRegressionWithSGD

class pyspark.mllib.classification. StreamingLogisticRegressionWithSGD ( stepSize : float = 0.1 , numIterations : int = 50 , miniBatchFraction : float = 1.0 , regParam : float = 0.0 , convergenceTol : float = 0.001 ) [source]

在流数据上训练或预测逻辑回归模型。 训练使用随机梯度下降来根据来自DStream的每个新批次传入数据更新模型。

每个数据批次被假设为一个LabeledPoints的RDD。 每个批次的样本数量可以不同,但特征数量必须保持一致。 必须提供一个初始权重向量。

新增于版本 1.5.0。

Parameters
stepSize float, optional

每次梯度下降迭代的步长。 (默认值:0.1)

numIterations int, optional

每个数据批次的迭代次数。 (默认值:50)

miniBatchFraction float, optional

每批数据中用于更新的比例。 (默认值:1.0)

regParam float, optional

L2 正则化参数。 (默认值:0.0)

convergenceTol float, optional

用于确定何时终止迭代的值。 (默认值:0.001)

方法

latestModel ()

返回最新的模型。

predictOn (dstream)

使用模型对来自DStream的数据批次进行预测。

predictOnValues (dstream)

使用模型对DStream的值进行预测,并保留其键。

setInitialWeights (初始权重)

设置权重的初始值。

trainOn (dstream)

在传入的dstream上训练模型。

方法文档

latestModel ( ) → Optional [ pyspark.mllib.regression.LinearModel ]

返回最新的模型。

新增于版本 1.5.0。

predictOn ( dstream : DStream [ VectorLike ] ) → DStream [ float ]

使用模型对来自 DStream 的数据批次进行预测。

新增于版本 1.5.0。

Returns
pyspark.streaming.DStream

包含预测的DStream。

predictOnValues ( dstream : DStream [ Tuple [ K , VectorLike ] ] ) → DStream [ Tuple [ K , float ] ]

使用模型对DStream的值进行预测,并保留其键。

新增于版本 1.5.0。

Returns
pyspark.streaming.DStream

包含预测的DStream。

setInitialWeights ( initialWeights : VectorLike ) → StreamingLogisticRegressionWithSGD [source]

设置权重的初始值。

这必须在运行 trainOn 和 predictOn 之前设置。

新增于版本 1.5.0。

trainOn ( dstream : pyspark.streaming.dstream.DStream [ pyspark.mllib.regression.LabeledPoint ] ) → None [source]

在传入的dstream上训练模型。

新增于版本 1.5.0。