MLlib (DataFrame-based) ¶
Pipeline APIs ¶
|
转换器的抽象类,用于将一个数据集转换为另一个数据集。 |
用于转换的抽象类,接收一个输入列,应用转换,并将结果作为新列输出。 |
|
|
用于将模型拟合到数据的估计器的抽象类。 |
|
估计器拟合的模型的抽象类。 |
|
用于预测任务(回归和分类)的估计器。 |
用于预测任务的模型(回归和分类)。 |
|
|
一个简单的管道,充当一个估计器。 |
|
表示一个包含变换器和拟合模型的编译管道。 |
Parameters ¶
|
具有自包含文档的参数。 |
|
接受参数的组件。 |
用于 Param.typeConverter 的常见类型转换函数的工厂方法。 |
Feature ¶
|
根据阈值将连续特征的列二值化。 |
|
用于欧几里得距离度量的LSH类。 |
|
模型通过
|
|
将连续特征的列映射到特征桶的列。 |
|
卡方特征选择,选择分类特征用于预测分类标签。 |
|
模型由
|
|
从文档集合中提取词汇并生成一个
|
|
模型通过
|
|
一个特征变换器,接受实向量的1D离散余弦变换。 |
|
输出每个输入向量与提供的“权重”向量的哈达马积(即元素逐个相乘)。 |
|
特征哈希将一组分类或数值特征投影到指定维度的特征向量中(通常比原始特征空间小得多)。 |
|
使用哈希技巧将一系列术语映射到它们的术语频率。 |
|
计算给定文档集合的逆文档频率 (IDF)。 |
|
模型由
|
|
用于填补缺失值的插补估计器,使用缺失值所在列的均值、中位数或众数。 |
|
模型通过
|
|
一个
|
|
实现特征交互变换。 |
|
通过将每个特征除以该特征中最大的绝对值,单独将每个特征缩放到范围[-1, 1]。 |
|
模型由
|
|
用于Jaccard距离的LSH类。 |
|
由
|
|
使用列摘要统计线性地将每个特征单独缩放到一个共同范围[min, max],这也被称为最小-最大归一化或重缩放。 |
|
模型由
|
|
一个特征转换器,将输入的字符串数组转换为n-grams数组。 |
|
使用给定的p范数将向量标准化为单位范数。 |
|
一个独热编码器,将类别索引的列映射到二进制向量的列,每行最多有一个表示输入类别索引的值为1。 |
|
模型由
|
|
PCA训练一个模型,将向量投影到前
|
|
模型由
|
|
在多项式空间中执行特征扩展。 |
|
|
|
鲁棒缩放器去除中位数,并根据分位数范围缩放数据。 |
|
模型由
|
|
一个基于正则表达式的分词器,它通过使用提供的正则表达式模式(在Java方言中)来分割文本(默认为如此),或者在间隙为false的情况下重复匹配正则表达式。 |
|
实现将数据集与R模型公式拟合所需的变换。 |
|
由
|
|
实现由SQL语句定义的转换。 |
|
通过去除均值并使用训练集样本的列摘要统计方法将特征标准化为单位方差。 |
|
模型由
|
|
一个特征转换器,用于过滤输入中的停用词。 |
|
一个标签索引器,将标签的字符串列映射到标签索引的ML列。 |
|
模型由
|
|
一个将输入字符串转换为小写并通过空格分隔的分词器。 |
|
基于单变量统计测试与标签的特征选择器。 |
|
模型由
|
|
特征选择器,用于移除所有低方差特征。 |
|
模型由
|
|
一个特征转换器,将多个列合并为一个向量列。 |
|
用于对 Vector 的数据集中分类特征列进行索引的类。 |
|
模型由
|
|
一个特征转换器,用于向向量列的元数据添加大小信息。 |
|
该类接受一个特征向量,并输出一个包含原始特征子数组的新特征向量。 |
|
Word2Vec 训练一个 Map(String, Vector) 的模型,即。 |
|
通过
|
Classification ¶
|
这个二元分类器使用OWLQN优化器优化铰链损失。 |
|
通过LinearSVC拟合的模型。 |
|
给定模型的LinearSVC结果的抽象。 |
|
线性支持向量分类(LinearSVC)训练结果的抽象。 |
|
逻辑回归。 |
|
通过LogisticRegression拟合的模型。 |
|
给定模型的逻辑回归结果的抽象。 |
|
多项式逻辑回归训练结果的抽象。 |
|
给定模型的二元逻辑回归结果。 |
给定模型的二元逻辑回归训练结果。 |
|
|
决策树 学习算法用于分类。它支持二元和多类标签,以及连续和分类特征。 |
|
通过DecisionTreeClassifier模型拟合。 |
|
梯度提升树 (GBTs) 分类学习算法。它支持二元标签,以及连续和分类特征。 |
|
由GBTClassifier拟合的模型。 |
|
随机森林 机器学习算法用于分类。它支持二元和多类标签,以及连续和分类特征。 |
|
模型由RandomForestClassifier拟合。 |
|
给定模型的随机森林分类结果的抽象。 |
随机森林分类训练结果的抽象。 |
|
给定模型的二元随机森林分类结果。 |
|
给定模型的二元随机森林分类训练结果。 |
|
|
朴素贝叶斯分类器。 |
|
通过朴素贝叶斯拟合的模型。 |
|
基于多层感知器的分类器训练器。 |
由MultilayerPerceptronClassifier拟合的模型。 |
|
给定模型的多层感知器分类器结果的抽象。 |
|
多层感知器分类器训练结果的抽象。 |
|
|
多类分类的减少到二元分类。 |
|
由OneVsRest拟合的模型。 |
|
因式分解机学习算法用于分类。 |
|
模型由
|
|
给定模型的FMClassifier结果的抽象。 |
|
FMClassifier训练结果的抽象。 |
Clustering ¶
|
一个基于Steinbach、Karypis和Kumar的论文“文档聚类技术的比较”的二分K均值算法,经过修改以适应Spark。 |
|
通过BisectingKMeans拟合的模型。 |
|
给定模型的二分K均值聚类结果。 |
|
K-means聚类使用类似k-means++的初始化模式(Bahmani等人的k-means||算法)。 |
|
通过KMeans拟合的模型。 |
|
KMeans 的总结。 |
|
高斯混合聚类。 |
|
通过GaussianMixture拟合的模型。 |
|
给定模型的高斯混合聚类结果。 |
|
潜在狄利克雷分配(LDA),一个专为文本文件设计的主题模型。 |
|
隐含狄利克雷分配 (LDA) 模型。 |
|
由
|
|
通过
|
|
幂迭代聚类(PIC),一个由 Lin 和 Cohen 开发的可扩展图聚类算法。来自摘要:PIC 使用在数据的归一化成对相似度矩阵上进行截断幂迭代,找到数据集的一个非常低维的嵌入。 |
Functions ¶
|
将一个数值类型的数组列转换为pyspark.ml.linalg.DenseVector实例的列 |
|
将 MLlib 稀疏/密集向量的一列转换为密集数组的一列。 |
|
给定一个加载模型的函数,并返回一个 predict 函数,用于对一批numpy输入进行推断,为在Spark DataFrame上进行推断返回一个Pandas UDF包装器。 |
Vector and Matrix ¶
|
|
|
由值数组表示的密集向量。 |
|
一个简单的稀疏向量类,用于将数据传递给MLlib。 |
用于处理向量的工厂方法。 |
|
|
|
|
列主序稠密矩阵。 |
|
以CSC格式存储的稀疏矩阵。 |
|
Recommendation ¶
|
交替最小二乘法(ALS)矩阵分解。 |
|
通过ALS拟合的模型。 |
Regression ¶
Statistics ¶
对每个特征与标签进行皮尔逊独立性检验。 |
|
使用指定的方法计算输入数据集的向量的相关矩阵。 |
|
对从连续分布中抽取的数据进行双侧Kolmogorov Smirnov(KS)检验。 |
|
|
表示一个(均值,协方差)元组 |
用于MLlib向量的向量化统计工具。 |
|
|
一个提供关于给定列的汇总统计信息的构建器对象。 |
Tuning ¶
用于基于网格搜索的模型选择的参数网格构建器。 |
|
|
K折交叉验证通过将数据集分割成一组不重叠的随机划分的折来执行模型选择,这些折被用作独立的训练和测试数据集。例如,对于k=3的折,K折交叉验证将生成3个(训练,测试)数据集对,每个数据集使用2/3的数据进行训练和1/3的数据进行测试。 |
|
CrossValidatorModel 包含在折中具有最高平均交叉验证指标的模型,并使用该模型来转换输入数据。 |
|
超参数调整的验证。 |
|
来自训练验证拆分的模型。 |
Evaluation ¶
|
评估器的基类,用于根据预测计算指标。 |
|
二分类的评估器,期望输入列为 rawPrediction、label 和一个可选的 weight 列。 |
|
回归评估器,期望输入列为预测、标签和一个可选的权重列。 |
|
多类分类的评估器,期待输入列:预测,标签,权重(可选)和概率列(仅用于logLoss)。 |
|
多标签分类的评估器,期望输入两个列:预测和标签。 |
|
聚类结果的评估器,期望两个输入列:预测和特征。 |
|
排名评估器,期望两个输入列:预测和标签。 |
Frequency Pattern Mining ¶
|
一个并行的FP-growth算法用于挖掘频繁项集。 |
|
通过FPGrowth拟合的模型。 |
|
一种并行的 PrefixSpan 算法用于挖掘频繁的序列模式。 |
Image ¶
内部类用于 pyspark.ml.image.ImageSchema 属性。 |
|
|
用于 pyspark.ml.image.ImageSchema 属性的内部类。 |
Distributor ¶
|
一个支持在PyTorch和PyTorch Lightning上使用PySpark进行分布式训练的类。 |
|
|
Utilities ¶
MLWriter和MLReader的基类。 |
|
辅助特性,用于使简单的
|
|
对
|
|
辅助特性,用于使简单的
|
|
|
针对
|
可以以不同格式保存ML实例的工具类。 |
|
提供训练摘要的模型基类。 |
|
|
具有唯一ID的对象。 |
提供
|
|
|
可以加载机器学习实例的工具类。 |
为提供
|
|
|
可以保存机器学习实例的工具类。 |