StreamingLogisticRegressionWithSGD ¶

class pyspark.mllib.classification. StreamingLogisticRegressionWithSGD ( stepSize : float = 0.1 , numIterations : int = 50 , miniBatchFraction : float = 1.0 , regParam : float = 0.0 , convergenceTol : float = 0.001 ) [source] ¶

在流数据上训练或预测逻辑回归模型。训练使用随机梯度下降来根据来自DStream的每个新批次传入数据更新模型。

每个数据批次被假设为一个LabeledPoints的RDD。每个批次的样本数量可以不同，但特征数量必须保持一致。必须提供一个初始权重向量。

新增于版本 1.5.0。

Parameters

stepSize float, optional: 每次梯度下降迭代的步长。（默认值：0.1）
numIterations int, optional: 每个数据批次的迭代次数。（默认值：50）
miniBatchFraction float, optional: 每批数据中用于更新的比例。（默认值：1.0）
regParam float, optional: L2 正则化参数。（默认值：0.0）
convergenceTol float, optional: 用于确定何时终止迭代的值。（默认值：0.001）

方法

`latestModel` ()	返回最新的模型。
`predictOn` (dstream)	使用模型对来自DStream的数据批次进行预测。
`predictOnValues` (dstream)	使用模型对DStream的值进行预测，并保留其键。
`setInitialWeights` (初始权重)	设置权重的初始值。
`trainOn` (dstream)	在传入的dstream上训练模型。

方法文档

latestModel ( ) → Optional [ pyspark.mllib.regression.LinearModel ] ¶: 返回最新的模型。

新增于版本 1.5.0。

predictOn ( dstream : DStream [ VectorLike ] ) → DStream [ float ] ¶

使用模型对来自 DStream 的数据批次进行预测。

新增于版本 1.5.0。

Returns

pyspark.streaming.DStream: 包含预测的DStream。

predictOnValues ( dstream : DStream [ Tuple [ K , VectorLike ] ] ) → DStream [ Tuple [ K , float ] ] ¶

使用模型对DStream的值进行预测，并保留其键。

新增于版本 1.5.0。

Returns

pyspark.streaming.DStream: 包含预测的DStream。

setInitialWeights ( initialWeights : VectorLike ) → StreamingLogisticRegressionWithSGD [source] ¶

设置权重的初始值。

这必须在运行 trainOn 和 predictOn 之前设置。

新增于版本 1.5.0。

trainOn ( dstream : pyspark.streaming.dstream.DStream [ pyspark.mllib.regression.LabeledPoint ] ) → None [source] ¶: 在传入的dstream上训练模型。

新增于版本 1.5.0。

朴素贝叶斯

二分K均值模型