MLlib (RDD-based) ¶
Classification ¶
|
使用多项式/二元逻辑回归训练的分类模型。 |
使用随机梯度下降训练二元逻辑回归的分类模型。 |
|
使用有限内存BFGS训练多项式/二元逻辑回归的分类模型。 |
|
|
支持向量机(SVMs)的模型。 |
使用随机梯度下降训练支持向量机(SVM)。 |
|
|
朴素贝叶斯分类器模型。 |
训练一个多项式朴素贝叶斯模型。 |
|
在流数据上训练或预测逻辑回归模型。 |
Clustering ¶
|
从二分k均值方法衍生出的聚类模型。 |
一个基于Steinbach、Karypis和Kumar的论文“文档聚类技术比较”的二分k均值算法,经过修改以适应Spark。 |
|
|
基于k-means方法派生的聚类模型。 |
K-means 聚类。 |
|
|
一种源自高斯混合模型方法的聚类模型。 |
使用期望最大化算法学习高斯混合模型的算法。 |
|
|
由
|
幂迭代聚类(PIC),一种可扩展的图聚类算法。 |
|
|
提供方法来设置 k、decayFactor、timeUnit,以配置 KMeans 算法以适应和预测 incoming dstreams。 |
|
可以在线更新质心的聚类模型。 |
训练潜在狄利克雷分配(LDA)模型。 |
|
|
来自LDA方法的聚类模型。 |
Evaluation ¶
|
二分类评估器。 |
|
回归评估器。 |
|
多类分类的评估器。 |
|
排名算法的评估器。 |
Feature ¶
|
将样本单独归一化为单位 L p 范数 |
|
表示一个可以转换向量的 StandardScaler 模型。 |
|
通过去除均值并使用训练集样本上的列汇总统计对特征进行标准化,使其缩放到单位方差。 |
|
使用哈希技巧将一系列术语映射到它们的词频。 |
|
表示一个可以转换词频向量的IDF模型。 |
|
逆文档频率 (IDF)。 |
|
Word2Vec 创建文本语料库中单词的向量表示。 |
|
Word2Vec模型的类 |
|
创建一个卡方特征选择器。 |
|
表示卡方选择器模型。 |
|
根据提供的权重向量,对向量的每一列进行缩放。 |
Frequency Pattern Mining ¶
一种并行FP-growth算法用于挖掘频繁项集。 |
|
|
一种用于挖掘频繁项集的 FP-Growth 模型,使用并行 FP-Growth 算法。 |
一个并行的 PrefixSpan 算法用于挖掘频繁的序列模式。 |
|
|
通过PrefixSpan拟合的模型 |
Vector and Matrix ¶
|
|
|
由值数组表示的稠密向量。 |
|
一个简单的稀疏向量类,用于将数据传递给MLlib。 |
用于处理向量的工厂方法。 |
|
|
|
|
列优先稠密矩阵。 |
|
以CSC格式存储的稀疏矩阵。 |
|
|
|
表示QR因子。 |
Distributed Representation ¶
|
表示以本地矩阵块形式分布的矩阵。 |
|
表示坐标格式的矩阵。 |
表示一个由一个或多个RDD支持的分布式存储矩阵。 |
|
|
表示一个IndexedRowMatrix的行。 |
|
表示一个按行分布的矩阵,具有索引行。 |
|
表示一个坐标矩阵的条目。 |
|
表示一个没有有意义行索引的面向行的分布式矩阵。 |
|
表示奇异值分解(SVD)因子。 |
Random ¶
用于创建由某些分布的独立同分布样本组成的RDD的生成器方法。 |
Recommendation ¶
|
一个通过正则化交替最小二乘法训练的矩阵分解模型。 |
交替最小二乘矩阵分解 |
|
表示一个 (用户, 产品, 评级) 元组。 |
Regression ¶
|
代表数据点特征和标签的类。 |
|
一个具有系数向量和截距的线性模型。 |
|
从最小二乘法拟合中推导出的线性回归模型。 |
使用随机梯度下降训练一个没有正则化的线性回归模型。 |
|
|
来自带有l_2惩罚项的最小平方拟合的线性回归模型。 |
使用随机梯度下降训练带有L2正则化的回归模型。 |
|
|
一个基于最小二乘法拟合的线性回归模型,带有 l_1 惩罚项。 |
使用随机梯度下降训练具有L1正则化的回归模型。 |
|
|
同调回归的回归模型。 |
等距回归。 |
|
任何 StreamingLinearAlgorithm 必须继承的基类。 |
|
|
在流数据上训练或预测线性回归模型。 |
Statistics ¶
|
|
|
用于数据矩阵的多变量统计摘要的特征。 |
|
包含卡方假设检验的测试结果。 |
表示一个 (mu, sigma) 元组 |
|
根据来自总体的样本RDD,在所需点估计概率密度。 |
|
|
包含卡方假设检验的测试结果。 |
|
包含Kolmogorov-Smirnov检验的测试结果。 |
Tree ¶
|
用于分类或回归的决策树模型。 |
用于分类或回归的决策树模型的学习算法。 |
|
|
表示随机森林模型。 |
随机森林模型的分类或回归学习算法。 |
|
|
表示一个梯度增强树模型。 |
用于分类或回归的梯度提升树模型的学习算法。 |
Utilities ¶
用于可以使用其Scala实现加载保存模型的类的混入。 |
|
用于通过其Scala实现提供save()的模型的混入。 |
|
用于生成线性数据的工具。 |
|
用于可以从文件加载保存模型的类的混合类。 |
|
辅助方法用于加载、保存和预处理在MLlib中使用的数据。 |
|
可保存为文件的模型和变换器的混合。 |