Mars 学习#
这是Mars学习的类和函数参考。
聚类#
类#
|
K-Means 聚类。 |
函数#
|
K均值聚类算法。 |
数据集#
样本生成器#
|
生成用于聚类的各向同性高斯斑点。 |
|
生成一个随机的n类分类问题。 |
|
生成一个主要是低秩的矩阵,具有钟形奇异值 |
|
生成一个随机回归问题。 |
矩阵分解#
|
主成分分析 (PCA) |
|
使用截断奇异值分解(又称LSA)进行降维。 |
集成方法#
|
一个Bagging分类器。 |
|
一个袋装回归器。 |
|
按区块训练和集成投票分类器。 |
|
分块训练和集成投票回归器。 |
|
孤立森林算法。 |
线性模型#
经典线性回归器#
|
普通最小二乘线性回归。 |
指标#
分类指标#
|
准确性分类得分。 |
|
使用梯形法计算曲线下面积 (AUC) |
|
计算F1得分,也称为平衡F得分或F测量 |
|
计算F-beta得分 |
|
对数损失,也称为逻辑损失或交叉熵损失。 |
|
计算每个类别或样本的混淆矩阵。 |
|
计算精度 |
计算每个类的精确度、召回率、F-measure和支持度 |
|
|
计算召回率 |
|
根据预测得分计算接收者操作特征曲线下面积(ROC AUC)。 |
|
计算接收者操作特征(ROC) |
回归指标#
|
\(R^2\) (决定系数)回归得分函数。 |
成对度量#
|
计算X和Y中样本之间的余弦相似度。 |
计算X和Y中样本之间的余弦距离。 |
|
|
将X(以及Y=X)的行视为向量,计算每对向量之间的距离矩阵。 |
计算X和Y中样本之间的Haversine距离 |
|
|
计算X和Y中向量之间的L1距离。 |
|
计算X和Y之间的rbf(高斯)核。 |
|
模型选择#
分割器类#
|
K-Folds 交叉验证器 |
分割器函数#
|
将数组或矩阵分割为随机的训练集和测试集 |
最近邻居#
|
预处理和规范化#
|
以一对多的方式二值化标签。 |
对目标标签进行编码,其值介于 0 和 n_classes-1 之间。 |
|
|
通过将每个特征缩放到给定范围来转换特征。 |
|
通过将每个特征缩放到给定范围来转换特征。 |
|
以一对多的方式二值化标签。 |
|
将输入向量单独缩放到单位范数(向量长度)。 |
半监督学习#
|
标签传播分类器 |
实用工具#
|
|
|
标准估计器的输入验证。 |
|
对张量、列表、稀疏矩阵或类似内容进行输入验证。 |
|
检查所有数组的首维是否一致。 |
确定目标所指示的数据类型。 |
|
检查 |
|
|
|
|
对估计器执行 is_fitted 验证。 |
|
压缩列或一维numpy数组,否则抛出错误 |
杂项#
|
用于并行预测和转换的元估计器。 |
LightGBM 集成#
|
|
|
|
|
PyTorch 集成#
|
在Mars集群中运行PyTorch脚本。 |
StatsModels 集成#
TensorFlow 集成#
在Mars集群中运行TensorFlow脚本。 |
|
将Mars数据类型转换为tf.data.Dataset。 |
XGBoost 集成#
|
|
|
以Mars的方式训练XGBoost模型。 |
|
|
|
XGBoost分类的scikit-learn API实现。 |
|
XGBoost回归器的scikit-learn API实现。 |