MLlib (DataFrame-based) — PySpark 3.5.3 documentation

Pipeline APIs ¶

`Transformer` ()	转换器的抽象类，用于将一个数据集转换为另一个数据集。
`UnaryTransformer` ()	用于转换的抽象类，接收一个输入列，应用转换，并将结果作为新列输出。
`Estimator` ()	用于将模型拟合到数据的估计器的抽象类。
`Model` ()	估计器拟合的模型的抽象类。
`Predictor` ()	用于预测任务（回归和分类）的估计器。
`PredictionModel` ()	用于预测任务的模型（回归和分类）。
`Pipeline` (*[, stages])	一个简单的管道，充当一个估计器。
`PipelineModel` (阶段)	表示一个包含变换器和拟合模型的编译管道。

Parameters ¶

`Param` (父对象, 名称, 文档[, 类型转换器])	具有自包含文档的参数。
`Params` ()	接受参数的组件。
`TypeConverters`	用于 Param.typeConverter 的常见类型转换函数的工厂方法。

Feature ¶

`Binarizer` (*[, 阈值, 输入列, …])	根据阈值将连续特征的列二值化。
`BucketedRandomProjectionLSH` (*[, 输入列, …])	用于欧几里得距离度量的LSH类。
`BucketedRandomProjectionLSHModel` ([java_model])	模型通过 `BucketedRandomProjectionLSH` 进行拟合，其中存储了多个随机向量。
`Bucketizer` (*[, 分割点, 输入列, 输出列, …])	将连续特征的列映射到特征桶的列。
`ChiSqSelector` (*[, numTopFeatures, …])	卡方特征选择，选择分类特征用于预测分类标签。
`ChiSqSelectorModel` ([java_model])	模型由 `ChiSqSelector` 拟合。
`CountVectorizer` (*[, 最小TF, 最小DF, 最大DF, …])	从文档集合中提取词汇并生成一个 `CountVectorizerModel` 。
`CountVectorizerModel` ([java_model])	模型通过 `CountVectorizer` 拟合。
`DCT` (*[, 反变换, 输入列, 输出列])	一个特征变换器，接受实向量的1D离散余弦变换。
`ElementwiseProduct` (*[, scalingVec, …])	输出每个输入向量与提供的“权重”向量的哈达马积（即元素逐个相乘）。
`FeatureHasher` (*[, 特征数量, 输入列, …])	特征哈希将一组分类或数值特征投影到指定维度的特征向量中（通常比原始特征空间小得多）。
`HashingTF` (*[, 特征数量, 二进制, …])	使用哈希技巧将一系列术语映射到它们的术语频率。
`IDF` (*[, minDocFreq, inputCol, outputCol])	计算给定文档集合的逆文档频率 (IDF)。
`IDFModel` ([java_model])	模型由 `IDF` 拟合。
`Imputer` (*[, 策略, 缺失值, …])	用于填补缺失值的插补估计器，使用缺失值所在列的均值、中位数或众数。
`ImputerModel` ([java_model])	模型通过 `Imputer` 拟合。
`IndexToString` (*[, 输入列, 输出列, 标签])	一个 `pyspark.ml.base.Transformer` ，将一个索引列映射回一个新的对应字符串值列。
`Interaction` (*[, 输入列, 输出列])	实现特征交互变换。
`MaxAbsScaler` (*[, 输入列, 输出列])	通过将每个特征除以该特征中最大的绝对值，单独将每个特征缩放到范围[-1, 1]。
`MaxAbsScalerModel` ([java_model])	模型由 `MaxAbsScaler` 拟合.
`MinHashLSH` (*[, 输入列, 输出列, 种子, …])	用于Jaccard距离的LSH类。
`MinHashLSHModel` ([java_model])	由 `MinHashLSH` 生成的模型，多个哈希函数被存储在这里。
`MinMaxScaler` (*[, min, max, inputCol, outputCol])	使用列摘要统计线性地将每个特征单独缩放到一个共同范围[min, max]，这也被称为最小-最大归一化或重缩放。
`MinMaxScalerModel` ([java_model])	模型由 `MinMaxScaler` 拟合。
`NGram` (*[, n, 输入列, 输出列])	一个特征转换器，将输入的字符串数组转换为n-grams数组。
`Normalizer` (*[, p, inputCol, outputCol])	使用给定的p范数将向量标准化为单位范数。
`OneHotEncoder` (*[, 输入列, 输出列, …])	一个独热编码器，将类别索引的列映射到二进制向量的列，每行最多有一个表示输入类别索引的值为1。
`OneHotEncoderModel` ([java_model])	模型由 `OneHotEncoder` 拟合.
`PCA` (*[, k, inputCol, outputCol])	PCA训练一个模型，将向量投影到前 `k` 主成分的较低维空间。
`PCAModel` ([java_model])	模型由 `PCA` 拟合。
`PolynomialExpansion` (*[, 度, 输入列, …])	在多项式空间中执行特征扩展。
`QuantileDiscretizer` (*[, numBuckets, …])	`QuantileDiscretizer` 处理一个包含连续特征的列，并输出一个具有分箱的类别特征的列。
`RobustScaler` (*[, lower, upper, …])	鲁棒缩放器去除中位数，并根据分位数范围缩放数据。
`RobustScalerModel` ([java_model])	模型由 `RobustScaler` 拟合。
`RegexTokenizer` (*[, 最小标记长度, 间隙, …])	一个基于正则表达式的分词器，它通过使用提供的正则表达式模式（在Java方言中）来分割文本（默认为如此），或者在间隙为false的情况下重复匹配正则表达式。
`RFormula` (*[, 公式, 特征列, …])	实现将数据集与R模型公式拟合所需的变换。
`RFormulaModel` ([java_model])	由 `RFormula` 拟合的模型。
`SQLTransformer` (*[, 语句])	实现由SQL语句定义的转换。
`StandardScaler` (*[, 有均值, 有标准差, …])	通过去除均值并使用训练集样本的列摘要统计方法将特征标准化为单位方差。
`StandardScalerModel` ([java_model])	模型由 `StandardScaler` 拟合.
`StopWordsRemover` (*[, 输入列, 输出列, …])	一个特征转换器，用于过滤输入中的停用词。
`StringIndexer` (*[, 输入列, 输出列, …])	一个标签索引器，将标签的字符串列映射到标签索引的ML列。
`StringIndexerModel` ([java_model])	模型由 `StringIndexer` 进行拟合。
`Tokenizer` (*[, 输入列, 输出列])	一个将输入字符串转换为小写并通过空格分隔的分词器。
`UnivariateFeatureSelector` (*[, 特征列, …])	基于单变量统计测试与标签的特征选择器。
`UnivariateFeatureSelectorModel` ([java_model])	模型由 `UnivariateFeatureSelector` 拟合。
`VarianceThresholdSelector` (*[, 特征列, …])	特征选择器，用于移除所有低方差特征。
`VarianceThresholdSelectorModel` ([java_model])	模型由 `VarianceThresholdSelector` 拟合.
`VectorAssembler` (*[, 输入列, 输出列, …])	一个特征转换器，将多个列合并为一个向量列。
`VectorIndexer` (*[, 最大类别数, 输入列, …])	用于对 Vector 的数据集中分类特征列进行索引的类。
`VectorIndexerModel` ([java_model])	模型由 `VectorIndexer` 拟合。
`VectorSizeHint` (*[, inputCol, size, …])	一个特征转换器，用于向向量列的元数据添加大小信息。
`VectorSlicer` (*[, 输入列, 输出列, …])	该类接受一个特征向量，并输出一个包含原始特征子数组的新特征向量。
`Word2Vec` (*[, 向量大小, 最小计数, …])	Word2Vec 训练一个 Map(String, Vector) 的模型，即。
`Word2VecModel` ([java_model])	通过 `Word2Vec` 拟合的模型。

Classification ¶

`LinearSVC` (*[, 特征列, 标签列, …])	这个二元分类器使用OWLQN优化器优化铰链损失。
`LinearSVCModel` ([java_model])	通过LinearSVC拟合的模型。
`LinearSVCSummary` ([java_obj])	给定模型的LinearSVC结果的抽象。
`LinearSVCTrainingSummary` ([java_obj])	线性支持向量分类（LinearSVC）训练结果的抽象。
`LogisticRegression` (*[, 特征列, …])	逻辑回归。
`LogisticRegressionModel` ([java_model])	通过LogisticRegression拟合的模型。
`LogisticRegressionSummary` ([java_obj])	给定模型的逻辑回归结果的抽象。
`LogisticRegressionTrainingSummary` ([java_obj])	多项式逻辑回归训练结果的抽象。
`BinaryLogisticRegressionSummary` ([java_obj])	给定模型的二元逻辑回归结果。
`BinaryLogisticRegressionTrainingSummary` ([…])	给定模型的二元逻辑回归训练结果。
`DecisionTreeClassifier` (*[, 特征列, …])	决策树学习算法用于分类。它支持二元和多类标签，以及连续和分类特征。
`DecisionTreeClassificationModel` ([java_model])	通过DecisionTreeClassifier模型拟合。
`GBTClassifier` (*[, 特征列, 标签列, …])	梯度提升树 (GBTs) 分类学习算法。它支持二元标签，以及连续和分类特征。
`GBTClassificationModel` ([java_model])	由GBTClassifier拟合的模型。
`RandomForestClassifier` (*[, 特征列, …])	随机森林机器学习算法用于分类。它支持二元和多类标签，以及连续和分类特征。
`RandomForestClassificationModel` ([java_model])	模型由RandomForestClassifier拟合。
`RandomForestClassificationSummary` ([java_obj])	给定模型的随机森林分类结果的抽象。
`RandomForestClassificationTrainingSummary` ([…])	随机森林分类训练结果的抽象。
`BinaryRandomForestClassificationSummary` ([…])	给定模型的二元随机森林分类结果。
`BinaryRandomForestClassificationTrainingSummary` ([…])	给定模型的二元随机森林分类训练结果。
`NaiveBayes` (*[, 特征列, 标签列, …])	朴素贝叶斯分类器。
`NaiveBayesModel` ([java_model])	通过朴素贝叶斯拟合的模型。
`MultilayerPerceptronClassifier` (*[, …])	基于多层感知器的分类器训练器。
`MultilayerPerceptronClassificationModel` ([…])	由MultilayerPerceptronClassifier拟合的模型。
`MultilayerPerceptronClassificationSummary` ([…])	给定模型的多层感知器分类器结果的抽象。
`MultilayerPerceptronClassificationTrainingSummary` ([…])	多层感知器分类器训练结果的抽象。
`OneVsRest` (*[, 特征列, 标签列, …])	多类分类的减少到二元分类。
`OneVsRestModel` (模型)	由OneVsRest拟合的模型。
`FMClassifier` (*[, 特征列, 标签列, …])	因式分解机学习算法用于分类。
`FMClassificationModel` ([java_model])	模型由 `FMClassifier` 拟合.
`FMClassificationSummary` ([java_obj])	给定模型的FMClassifier结果的抽象。
`FMClassificationTrainingSummary` ([java_obj])	FMClassifier训练结果的抽象。

Clustering ¶

`BisectingKMeans` (*[, 特征列, …])	一个基于Steinbach、Karypis和Kumar的论文“文档聚类技术的比较”的二分K均值算法，经过修改以适应Spark。
`BisectingKMeansModel` ([java_model])	通过BisectingKMeans拟合的模型。
`BisectingKMeansSummary` ([java_obj])	给定模型的二分K均值聚类结果。
`KMeans` (*[, 特征列, 预测列, 聚类数, …])	K-means聚类使用类似k-means++的初始化模式（Bahmani等人的k-means\|\|算法）。
`KMeansModel` ([java_model])	通过KMeans拟合的模型。
`KMeansSummary` ([java_obj])	KMeans 的总结。
`GaussianMixture` (*[, 特征列, …])	高斯混合聚类。
`GaussianMixtureModel` ([java_model])	通过GaussianMixture拟合的模型。
`GaussianMixtureSummary` ([java_obj])	给定模型的高斯混合聚类结果。
`LDA` (*[, 特征列, 最大迭代次数, 种子, …])	潜在狄利克雷分配（LDA），一个专为文本文件设计的主题模型。
`LDAModel` ([java_model])	隐含狄利克雷分配 (LDA) 模型。
`LocalLDAModel` ([java_model])	由 `LDA` 拟合的本地（非分布式）模型。
`DistributedLDAModel` ([java_model])	通过 `LDA` 拟合的分布式模型。
`PowerIterationClustering` (*[, k, maxIter, …])	幂迭代聚类（PIC），一个由 Lin 和 Cohen 开发的可扩展图聚类算法。来自摘要：PIC 使用在数据的归一化成对相似度矩阵上进行截断幂迭代，找到数据集的一个非常低维的嵌入。

Functions ¶

`array_to_vector` (col)	将一个数值类型的数组列转换为pyspark.ml.linalg.DenseVector实例的列
`vector_to_array` (col[, dtype])	将 MLlib 稀疏/密集向量的一列转换为密集数组的一列。
`predict_batch_udf` (make_predict_fn, *, …[, …])	给定一个加载模型的函数，并返回一个 predict 函数，用于对一批numpy输入进行推断，为在Spark DataFrame上进行推断返回一个Pandas UDF包装器。

Vector and Matrix ¶

`Vector`
`DenseVector` (ar)	由值数组表示的密集向量。
`SparseVector` (大小, *参数)	一个简单的稀疏向量类，用于将数据传递给MLlib。
`Vectors`	用于处理向量的工厂方法。
`Matrix` (行数, 列数[, 是否转置])
`DenseMatrix` (行数, 列数, 值[, …])	列主序稠密矩阵。
`SparseMatrix` (行数, 列数, 列指针, …)	以CSC格式存储的稀疏矩阵。
`Matrices`

Recommendation ¶

`ALS` (*[, 等级, 最大迭代次数, 正则化参数, …])	交替最小二乘法（ALS）矩阵分解。
`ALSModel` ([java_model])	通过ALS拟合的模型。

Regression ¶

`AFTSurvivalRegression` (*[, 特征列, …])	加速失效时间 (AFT) 模型生存回归
`AFTSurvivalRegressionModel` ([java_model])	模型由 `AFTSurvivalRegression` 拟合。
`DecisionTreeRegressor` (*[, 特征列, …])	决策树学习算法用于回归。它支持连续和分类特征。
`DecisionTreeRegressionModel` ([java_model])	模型由 `DecisionTreeRegressor` 拟合。
`GBTRegressor` (*[, 特征列, 标签列, …])	梯度提升树 (GBTs) 回归学习算法。它支持连续和分类特征。
`GBTRegressionModel` ([java_model])	模型由 `GBTRegressor` 拟合。
`GeneralizedLinearRegression` (*[, 标签列, …])	广义线性回归。
`GeneralizedLinearRegressionModel` ([java_model])	模型由 `GeneralizedLinearRegression` 拟合。
`GeneralizedLinearRegressionSummary` ([java_obj])	在数据集上评估的广义线性回归结果。
`GeneralizedLinearRegressionTrainingSummary` ([…])	广义线性回归训练结果。
`IsotonicRegression` (*[, 特征列, …])	目前使用并行化的邻近违犯者算法实现。
`IsotonicRegressionModel` ([java_model])	模型通过 `IsotonicRegression` 拟合。
`LinearRegression` (*[, 特征列, 标签列, …])	线性回归。
`LinearRegressionModel` ([java_model])	模型由 `LinearRegression` 拟合。
`LinearRegressionSummary` ([java_obj])	在数据集上评估的线性回归结果。
`LinearRegressionTrainingSummary` ([java_obj])	线性回归训练结果。
`RandomForestRegressor` (*[, 特征列, …])	Random Forest 回归学习算法。它支持连续特征和分类特征。
`RandomForestRegressionModel` ([java_model])	模型由 `RandomForestRegressor` 拟合。
`FMRegressor` (*[, 特征列, 标签列, …])	因子分解机学习算法用于回归。
`FMRegressionModel` ([java_model])	模型由 `FMRegressor` 拟合。

Statistics ¶

`ChiSquareTest`	对每个特征与标签进行皮尔逊独立性检验。
`Correlation`	使用指定的方法计算输入数据集的向量的相关矩阵。
`KolmogorovSmirnovTest`	对从连续分布中抽取的数据进行双侧Kolmogorov Smirnov（KS）检验。
`MultivariateGaussian` (均值, 协方差)	表示一个（均值，协方差）元组
`Summarizer`	用于MLlib向量的向量化统计工具。
`SummaryBuilder` (jSummaryBuilder)	一个提供关于给定列的汇总统计信息的构建器对象。

Tuning ¶

`ParamGridBuilder` ()	用于基于网格搜索的模型选择的参数网格构建器。
`CrossValidator` (*[, 估计器, …])	K折交叉验证通过将数据集分割成一组不重叠的随机划分的折来执行模型选择，这些折被用作独立的训练和测试数据集。例如，对于k=3的折，K折交叉验证将生成3个（训练，测试）数据集对，每个数据集使用2/3的数据进行训练和1/3的数据进行测试。
`CrossValidatorModel` (最佳模型[, 平均指标, …])	CrossValidatorModel 包含在折中具有最高平均交叉验证指标的模型，并使用该模型来转换输入数据。
`TrainValidationSplit` (*[, 估计器, …])	超参数调整的验证。
`TrainValidationSplitModel` (最佳模型[, …])	来自训练验证拆分的模型。

Evaluation ¶

`Evaluator` ()	评估器的基类，用于根据预测计算指标。
`BinaryClassificationEvaluator` (*[, …])	二分类的评估器，期望输入列为 rawPrediction、label 和一个可选的 weight 列。
`RegressionEvaluator` (*[, 预测列, …])	回归评估器，期望输入列为预测、标签和一个可选的权重列。
`MulticlassClassificationEvaluator` (*[, …])	多类分类的评估器，期待输入列：预测，标签，权重（可选）和概率列（仅用于logLoss）。
`MultilabelClassificationEvaluator` (*[, …])	多标签分类的评估器，期望输入两个列：预测和标签。
`ClusteringEvaluator` (*[, 预测列, …])	聚类结果的评估器，期望两个输入列：预测和特征。
`RankingEvaluator` (*[, 预测列, …])	排名评估器，期望两个输入列：预测和标签。

Frequency Pattern Mining ¶

`FPGrowth` (*[, 最小支持度, 最小置信度, …])	一个并行的FP-growth算法用于挖掘频繁项集。
`FPGrowthModel` ([java_model])	通过FPGrowth拟合的模型。
`PrefixSpan` (*[, 最小支持度, …])	一种并行的 PrefixSpan 算法用于挖掘频繁的序列模式。

Image ¶

`ImageSchema`	内部类用于 pyspark.ml.image.ImageSchema 属性。
`_ImageSchema` ()	用于 pyspark.ml.image.ImageSchema 属性的内部类。

Distributor ¶

TorchDistributor ([num_processes, …])

一个支持在PyTorch和PyTorch Lightning上使用PySpark进行分布式训练的类。

DeepspeedTorchDistributor ([numGpus, nnodes, …])

Utilities ¶

`BaseReadWrite` ()	MLWriter和MLReader的基类。
`DefaultParamsReadable`	辅助特性，用于使简单的 `Params` 类型可读。
`DefaultParamsReader` (类)	对 `MLReader` 的专业化，用于 `Params` 类型
`DefaultParamsWritable`	辅助特性，用于使简单的 `Params` 类型可写。
`DefaultParamsWriter` (实例)	针对 `MLWriter` 的 `Params` 类型的专门化
`GeneralMLWriter` ()	可以以不同格式保存ML实例的工具类。
`HasTrainingSummary`	提供训练摘要的模型基类。
`Identifiable` ()	具有唯一ID的对象。
`MLReadable`	提供 `MLReader` 的实例的混合类。
`MLReader` ()	可以加载机器学习实例的工具类。
`MLWritable`	为提供 `MLWriter` 的机器学习实例而设置的混入。
`MLWriter` ()	可以保存机器学习实例的工具类。

MLlib (DataFrame-based) ¶

Pipeline APIs ¶

Parameters ¶

Feature ¶

Classification ¶

Clustering ¶

Functions ¶

Vector and Matrix ¶

Recommendation ¶

Regression ¶

Statistics ¶

Tuning ¶

Evaluation ¶

Frequency Pattern Mining ¶

Image ¶

Distributor ¶

Utilities ¶