StreamingLogisticRegressionWithSGD ¶
-
class
pyspark.mllib.classification.
StreamingLogisticRegressionWithSGD
( stepSize : float = 0.1 , numIterations : int = 50 , miniBatchFraction : float = 1.0 , regParam : float = 0.0 , convergenceTol : float = 0.001 ) [source] ¶ -
在流数据上训练或预测逻辑回归模型。 训练使用随机梯度下降来根据来自DStream的每个新批次传入数据更新模型。
每个数据批次被假设为一个LabeledPoints的RDD。 每个批次的样本数量可以不同,但特征数量必须保持一致。 必须提供一个初始权重向量。
新增于版本 1.5.0。
- Parameters
-
- stepSize float, optional
-
每次梯度下降迭代的步长。 (默认值:0.1)
- numIterations int, optional
-
每个数据批次的迭代次数。 (默认值:50)
- miniBatchFraction float, optional
-
每批数据中用于更新的比例。 (默认值:1.0)
- regParam float, optional
-
L2 正则化参数。 (默认值:0.0)
- convergenceTol float, optional
-
用于确定何时终止迭代的值。 (默认值:0.001)
方法
latestModel
()返回最新的模型。
predictOn
(dstream)使用模型对来自DStream的数据批次进行预测。
predictOnValues
(dstream)使用模型对DStream的值进行预测,并保留其键。
setInitialWeights
(初始权重)设置权重的初始值。
trainOn
(dstream)在传入的dstream上训练模型。
方法文档
-
latestModel
( ) → Optional [ pyspark.mllib.regression.LinearModel ] ¶ -
返回最新的模型。
新增于版本 1.5.0。
-
predictOn
( dstream : DStream [ VectorLike ] ) → DStream [ float ] ¶ -
使用模型对来自 DStream 的数据批次进行预测。
新增于版本 1.5.0。
- Returns
-
-
pyspark.streaming.DStream
-
包含预测的DStream。
-
-
predictOnValues
( dstream : DStream [ Tuple [ K , VectorLike ] ] ) → DStream [ Tuple [ K , float ] ] ¶ -
使用模型对DStream的值进行预测,并保留其键。
新增于版本 1.5.0。
- Returns
-
-
pyspark.streaming.DStream
-
包含预测的DStream。
-
-
setInitialWeights
( initialWeights : VectorLike ) → StreamingLogisticRegressionWithSGD [source] ¶ -
设置权重的初始值。
这必须在运行 trainOn 和 predictOn 之前设置。
新增于版本 1.5.0。
-
trainOn
( dstream : pyspark.streaming.dstream.DStream [ pyspark.mllib.regression.LabeledPoint ] ) → None [source] ¶ -
在传入的dstream上训练模型。
新增于版本 1.5.0。