MLlib (RDD-based)

Classification

LogisticRegressionModel (权重, 截距, …)

使用多项式/二元逻辑回归训练的分类模型。

LogisticRegressionWithSGD

使用随机梯度下降训练二元逻辑回归的分类模型。

LogisticRegressionWithLBFGS

使用有限内存BFGS训练多项式/二元逻辑回归的分类模型。

SVMModel (权重, 截距)

支持向量机(SVMs)的模型。

SVMWithSGD

使用随机梯度下降训练支持向量机(SVM)。

NaiveBayesModel (标签, pi, theta)

朴素贝叶斯分类器模型。

NaiveBayes

训练一个多项式朴素贝叶斯模型。

StreamingLogisticRegressionWithSGD ([…])

在流数据上训练或预测逻辑回归模型。

Clustering

BisectingKMeansModel (java_model)

从二分k均值方法衍生出的聚类模型。

BisectingKMeans

一个基于Steinbach、Karypis和Kumar的论文“文档聚类技术比较”的二分k均值算法,经过修改以适应Spark。

KMeansModel (中心)

基于k-means方法派生的聚类模型。

KMeans

K-means 聚类。

GaussianMixtureModel (java_model)

一种源自高斯混合模型方法的聚类模型。

GaussianMixture

使用期望最大化算法学习高斯混合模型的算法。

PowerIterationClusteringModel (java_model)

PowerIterationClustering 生成的模型。

PowerIterationClustering

幂迭代聚类(PIC),一种可扩展的图聚类算法。

StreamingKMeans ([k, decayFactor, timeUnit])

提供方法来设置 k、decayFactor、timeUnit,以配置 KMeans 算法以适应和预测 incoming dstreams。

StreamingKMeansModel (聚类中心, …)

可以在线更新质心的聚类模型。

LDA

训练潜在狄利克雷分配(LDA)模型。

LDAModel (java_model)

来自LDA方法的聚类模型。

Evaluation

BinaryClassificationMetrics (分数和标签)

二分类评估器。

RegressionMetrics (预测和观察值)

回归评估器。

MulticlassMetrics (预测和标签)

多类分类的评估器。

RankingMetrics (预测和标签)

排名算法的评估器。

Feature

Normalizer ([p])

将样本单独归一化为单位 L p 范数

StandardScalerModel (java_model)

表示一个可以转换向量的 StandardScaler 模型。

StandardScaler ([是否计算均值, 是否计算标准差])

通过去除均值并使用训练集样本上的列汇总统计对特征进行标准化,使其缩放到单位方差。

HashingTF ([numFeatures])

使用哈希技巧将一系列术语映射到它们的词频。

IDFModel (java_model)

表示一个可以转换词频向量的IDF模型。

IDF ([minDocFreq])

逆文档频率 (IDF)。

Word2Vec ()

Word2Vec 创建文本语料库中单词的向量表示。

Word2VecModel (java_model)

Word2Vec模型的类

ChiSqSelector ([numTopFeatures, …])

创建一个卡方特征选择器。

ChiSqSelectorModel (java_model)

表示卡方选择器模型。

ElementwiseProduct (缩放向量)

根据提供的权重向量,对向量的每一列进行缩放。

Frequency Pattern Mining

FPGrowth

一种并行FP-growth算法用于挖掘频繁项集。

FPGrowthModel (java_model)

一种用于挖掘频繁项集的 FP-Growth 模型,使用并行 FP-Growth 算法。

PrefixSpan

一个并行的 PrefixSpan 算法用于挖掘频繁的序列模式。

PrefixSpanModel (java_model)

通过PrefixSpan拟合的模型

Vector and Matrix

Vector

DenseVector (ar)

由值数组表示的稠密向量。

SparseVector (大小, *参数)

一个简单的稀疏向量类,用于将数据传递给MLlib。

Vectors

用于处理向量的工厂方法。

Matrix (行数, 列数[, 是否转置])

DenseMatrix (行数, 列数, 值[, …])

列优先稠密矩阵。

SparseMatrix (行数, 列数, 列指针, …)

以CSC格式存储的稀疏矩阵。

Matrices

QRDecomposition (Q, R)

表示QR因子。

Distributed Representation

BlockMatrix (块, 每块行数, 每块列数)

表示以本地矩阵块形式分布的矩阵。

CoordinateMatrix (条目[, 行数, 列数])

表示坐标格式的矩阵。

DistributedMatrix

表示一个由一个或多个RDD支持的分布式存储矩阵。

IndexedRow (索引, 向量)

表示一个IndexedRowMatrix的行。

IndexedRowMatrix (行[, 行数, 列数])

表示一个按行分布的矩阵,具有索引行。

MatrixEntry (i, j, value)

表示一个坐标矩阵的条目。

RowMatrix (行[, 行数, 列数])

表示一个没有有意义行索引的面向行的分布式矩阵。

SingularValueDecomposition (java_model)

表示奇异值分解(SVD)因子。

Random

RandomRDDs

用于创建由某些分布的独立同分布样本组成的RDD的生成器方法。

Recommendation

MatrixFactorizationModel (java_model)

一个通过正则化交替最小二乘法训练的矩阵分解模型。

ALS

交替最小二乘矩阵分解

Rating

表示一个 (用户, 产品, 评级) 元组。

Regression

LabeledPoint (标签, 特征)

代表数据点特征和标签的类。

LinearModel (权重, 截距)

一个具有系数向量和截距的线性模型。

LinearRegressionModel (权重, 截距)

从最小二乘法拟合中推导出的线性回归模型。

LinearRegressionWithSGD

使用随机梯度下降训练一个没有正则化的线性回归模型。

RidgeRegressionModel (权重, 截距)

来自带有l_2惩罚项的最小平方拟合的线性回归模型。

RidgeRegressionWithSGD

使用随机梯度下降训练带有L2正则化的回归模型。

LassoModel (权重, 截距)

一个基于最小二乘法拟合的线性回归模型,带有 l_1 惩罚项。

LassoWithSGD

使用随机梯度下降训练具有L1正则化的回归模型。

IsotonicRegressionModel (边界, …)

同调回归的回归模型。

IsotonicRegression

等距回归。

StreamingLinearAlgorithm (模型)

任何 StreamingLinearAlgorithm 必须继承的基类。

StreamingLinearRegressionWithSGD ([步长, …])

在流数据上训练或预测线性回归模型。

Statistics

Statistics

MultivariateStatisticalSummary (java_model)

用于数据矩阵的多变量统计摘要的特征。

ChiSqTestResult (java_model)

包含卡方假设检验的测试结果。

MultivariateGaussian

表示一个 (mu, sigma) 元组

KernelDensity ()

根据来自总体的样本RDD,在所需点估计概率密度。

ChiSqTestResult (java_model)

包含卡方假设检验的测试结果。

KolmogorovSmirnovTestResult (java_model)

包含Kolmogorov-Smirnov检验的测试结果。

Tree

DecisionTreeModel (java_model)

用于分类或回归的决策树模型。

DecisionTree

用于分类或回归的决策树模型的学习算法。

RandomForestModel (java_model)

表示随机森林模型。

RandomForest

随机森林模型的分类或回归学习算法。

GradientBoostedTreesModel (java_model)

表示一个梯度增强树模型。

GradientBoostedTrees

用于分类或回归的梯度提升树模型的学习算法。

Utilities

JavaLoader

用于可以使用其Scala实现加载保存模型的类的混入。

JavaSaveable

用于通过其Scala实现提供save()的模型的混入。

LinearDataGenerator

用于生成线性数据的工具。

Loader

用于可以从文件加载保存模型的类的混合类。

MLUtils

辅助方法用于加载、保存和预处理在MLlib中使用的数据。

Saveable

可保存为文件的模型和变换器的混合。