Mars 学习#

这是Mars学习的类和函数参考。

聚类#

#

cluster.KMeans([n_clusters, init, n_init, ...])

K-Means 聚类。

函数#

cluster.k_means(X, n_clusters[, ...])

K均值聚类算法。

数据集#

样本生成器#

datasets.make_blobs([n_samples, n_features, ...])

生成用于聚类的各向同性高斯斑点。

datasets.make_classification([n_samples, ...])

生成一个随机的n类分类问题。

datasets.make_low_rank_matrix([n_samples, ...])

生成一个主要是低秩的矩阵,具有钟形奇异值

datasets.make_regression([n_samples, ...])

生成一个随机回归问题。

矩阵分解#

decomposition.PCA([n_components, copy, ...])

主成分分析 (PCA)

decomposition.TruncatedSVD([n_components, ...])

使用截断奇异值分解(又称LSA)进行降维。

集成方法#

ensemble.BaggingClassifier([base_estimator, ...])

一个Bagging分类器。

ensemble.BaggingRegressor([基估计器, ...])

一个袋装回归器。

ensemble.BlockwiseVotingClassifier(estimator)

按区块训练和集成投票分类器。

ensemble.BlockwiseVotingRegressor(estimator)

分块训练和集成投票回归器。

ensemble.IsolationForest(*[, n_estimators, ...])

孤立森林算法。

线性模型#

经典线性回归器#

linear_model.LinearRegression(*[, ...])

普通最小二乘线性回归。

指标#

分类指标#

metrics.accuracy_score(y_true, y_pred[, ...])

准确性分类得分。

metrics.auc(x, y[, session, run_kwargs])

使用梯形法计算曲线下面积 (AUC)

metrics.f1_score(y_true, y_pred, *[, ...])

计算F1得分,也称为平衡F得分或F测量

metrics.fbeta_score(y_true, y_pred, *, beta)

计算F-beta得分

metrics.log_loss(y_true, y_pred, *[, eps, ...])

对数损失,也称为逻辑损失或交叉熵损失。

metrics.multilabel_confusion_matrix(y_true, ...)

计算每个类别或样本的混淆矩阵。

metrics.precision_score(y_true, y_pred, *[, ...])

计算精度

metrics.precision_recall_fscore_support(...)

计算每个类的精确度、召回率、F-measure和支持度

metrics.recall_score(y_true, y_pred, *[, ...])

计算召回率

metrics.roc_auc_score(y_true, y_score, *[, ...])

根据预测得分计算接收者操作特征曲线下面积(ROC AUC)。

metrics.roc_curve(y_true, y_score[, ...])

计算接收者操作特征(ROC)

回归指标#

metrics.r2_score(y_true, y_pred, *[, ...])

\(R^2\) (决定系数)回归得分函数。

成对度量#

metrics.pairwise.cosine_similarity(X[, Y, ...])

计算X和Y中样本之间的余弦相似度。

metrics.pairwise.cosine_distances(X[, Y])

计算X和Y中样本之间的余弦距离。

metrics.pairwise.euclidean_distances(X[, Y, ...])

将X(以及Y=X)的行视为向量,计算每对向量之间的距离矩阵。

metrics.pairwise.haversine_distances(X[, Y])

计算X和Y中样本之间的Haversine距离

metrics.pairwise.manhattan_distances(X[, Y, ...])

计算X和Y中向量之间的L1距离。

metrics.pairwise.rbf_kernel(X[, Y, gamma])

计算X和Y之间的rbf(高斯)核。

metrics.pairwise_distances(X[, Y, metric])

模型选择#

分割器类#

model_selection.KFold([n_splits, shuffle, ...])

K-Folds 交叉验证器

分割器函数#

model_selection.train_test_split(*数组, ...)

将数组或矩阵分割为随机的训练集和测试集

最近邻居#

neighbors.NearestNeighbors([n_neighbors, ...])

预处理和规范化#

preprocessing.LabelBinarizer(*[, neg_label, ...])

以一对多的方式二值化标签。

preprocessing.LabelEncoder()

对目标标签进行编码,其值介于 0 和 n_classes-1 之间。

preprocessing.MinMaxScaler([feature_range, ...])

通过将每个特征缩放到给定范围来转换特征。

preprocessing.minmax_scale(X[, ...])

通过将每个特征缩放到给定范围来转换特征。

preprocessing.label_binarize(y, *, classes)

以一对多的方式二值化标签。

preprocessing.normalize(X[, norm, axis, ...])

将输入向量单独缩放到单位范数(向量长度)。

半监督学习#

semi_supervised.LabelPropagation([kernel, ...])

标签传播分类器

实用工具#

utils.assert_all_finite(X[, allow_nan, ...])

utils.check_X_y(X, y[, accept_sparse, ...])

标准估计器的输入验证。

utils.check_array(array[, accept_sparse, ...])

对张量、列表、稀疏矩阵或类似内容进行输入验证。

utils.check_consistent_length(*arrays[, ...])

检查所有数组的首维是否一致。

utils.multiclass.type_of_target(y)

确定目标所指示的数据类型。

utils.multiclass.is_multilabel(y)

检查 y 是否为多标签格式。

utils.shuffle(*arrays, **options)

utils.validation.check_is_fitted(estimator)

对估计器执行 is_fitted 验证。

utils.validation.column_or_1d(y[, warn])

压缩列或一维numpy数组,否则抛出错误

杂项#

wrappers.ParallelPostFit([estimator, scoring])

用于并行预测和转换的元估计器。

LightGBM 集成#

contrib.lightgbm.LGBMClassifier(*args, **kwargs)

contrib.lightgbm.LGBMRegressor(*args, **kwargs)

contrib.lightgbm.LGBMRanker(*args, **kwargs)

PyTorch 集成#

contrib.pytorch.run_pytorch_script(script, ...)

在Mars集群中运行PyTorch脚本。

contrib.pytorch.MarsDataset

contrib.pytorch.SequentialSampler

contrib.pytorch.RandomSampler

contrib.pytorch.SubsetRandomSampler

contrib.pytorch.DistributedSampler

StatsModels 集成#

contrib.statsmodels.MarsDistributedModel([...])

contrib.statsmodels.MarsResults(模型)

TensorFlow 集成#

contrib.tensorflow.run_tensorflow_script(...)

在Mars集群中运行TensorFlow脚本。

contrib.tensorflow.gen_tensorflow_dataset(tensors)

将Mars数据类型转换为tf.data.Dataset。

XGBoost 集成#

contrib.xgboost.MarsDMatrix(数据[, 标签, ...])

contrib.xgboost.train(params, dtrain[, evals])

以Mars的方式训练XGBoost模型。

contrib.xgboost.predict(model, data[, ...])

contrib.xgboost.XGBClassifier([max_depth, ...])

XGBoost分类的scikit-learn API实现。

contrib.xgboost.XGBRegressor([max_depth, ...])

XGBoost回归器的scikit-learn API实现。