Mars 学习#

这是Mars学习的类和函数参考。

聚类#

类#

cluster.KMeans([n_clusters, init, n_init, ...])

K-Means 聚类。

函数#

cluster.k_means(X, n_clusters[, ...])

K均值聚类算法。

数据集#

样本生成器#

`datasets.make_blobs`([n_samples, n_features, ...])	生成用于聚类的各向同性高斯斑点。
`datasets.make_classification`([n_samples, ...])	生成一个随机的n类分类问题。
`datasets.make_low_rank_matrix`([n_samples, ...])	生成一个主要是低秩的矩阵，具有钟形奇异值
`datasets.make_regression`([n_samples, ...])	生成一个随机回归问题。

矩阵分解#

`decomposition.PCA`([n_components, copy, ...])	主成分分析 (PCA)
`decomposition.TruncatedSVD`([n_components, ...])	使用截断奇异值分解（又称LSA）进行降维。

集成方法#

`ensemble.BaggingClassifier`([base_estimator, ...])	一个Bagging分类器。
`ensemble.BaggingRegressor`([基估计器, ...])	一个袋装回归器。
`ensemble.BlockwiseVotingClassifier`(estimator)	按区块训练和集成投票分类器。
`ensemble.BlockwiseVotingRegressor`(estimator)	分块训练和集成投票回归器。
`ensemble.IsolationForest`(*[, n_estimators, ...])	孤立森林算法。

线性模型#

经典线性回归器#

linear_model.LinearRegression(*[, ...])

普通最小二乘线性回归。

指标#

分类指标#

`metrics.accuracy_score`(y_true, y_pred[, ...])	准确性分类得分。
`metrics.auc`(x, y[, session, run_kwargs])	使用梯形法计算曲线下面积 (AUC)
`metrics.f1_score`(y_true, y_pred, *[, ...])	计算F1得分，也称为平衡F得分或F测量
`metrics.fbeta_score`(y_true, y_pred, *, beta)	计算F-beta得分
`metrics.log_loss`(y_true, y_pred, *[, eps, ...])	对数损失，也称为逻辑损失或交叉熵损失。
`metrics.multilabel_confusion_matrix`(y_true, ...)	计算每个类别或样本的混淆矩阵。
`metrics.precision_score`(y_true, y_pred, *[, ...])	计算精度
`metrics.precision_recall_fscore_support`(...)	计算每个类的精确度、召回率、F-measure和支持度
`metrics.recall_score`(y_true, y_pred, *[, ...])	计算召回率
`metrics.roc_auc_score`(y_true, y_score, *[, ...])	根据预测得分计算接收者操作特征曲线下面积（ROC AUC）。
`metrics.roc_curve`(y_true, y_score[, ...])	计算接收者操作特征（ROC）

回归指标#

metrics.r2_score(y_true, y_pred, *[, ...])

\(R^2\) （决定系数）回归得分函数。

成对度量#

`metrics.pairwise.cosine_similarity`(X[, Y, ...])	计算X和Y中样本之间的余弦相似度。
`metrics.pairwise.cosine_distances`(X[, Y])	计算X和Y中样本之间的余弦距离。
`metrics.pairwise.euclidean_distances`(X[, Y, ...])	将X（以及Y=X）的行视为向量，计算每对向量之间的距离矩阵。
`metrics.pairwise.haversine_distances`(X[, Y])	计算X和Y中样本之间的Haversine距离
`metrics.pairwise.manhattan_distances`(X[, Y, ...])	计算X和Y中向量之间的L1距离。
`metrics.pairwise.rbf_kernel`(X[, Y, gamma])	计算X和Y之间的rbf（高斯）核。
`metrics.pairwise_distances`(X[, Y, metric])

模型选择#

分割器类#

model_selection.KFold([n_splits, shuffle, ...])

K-Folds 交叉验证器

分割器函数#

model_selection.train_test_split(*数组， ...)

将数组或矩阵分割为随机的训练集和测试集

预处理和规范化#

`preprocessing.LabelBinarizer`(*[, neg_label, ...])	以一对多的方式二值化标签。
`preprocessing.LabelEncoder`()	对目标标签进行编码，其值介于 0 和 n_classes-1 之间。
`preprocessing.MinMaxScaler`([feature_range, ...])	通过将每个特征缩放到给定范围来转换特征。
`preprocessing.minmax_scale`(X[, ...])	通过将每个特征缩放到给定范围来转换特征。
`preprocessing.label_binarize`(y, *, classes)	以一对多的方式二值化标签。
`preprocessing.normalize`(X[, norm, axis, ...])	将输入向量单独缩放到单位范数（向量长度）。

半监督学习#

semi_supervised.LabelPropagation([kernel, ...])

标签传播分类器

实用工具#

`utils.assert_all_finite`(X[, allow_nan, ...])
`utils.check_X_y`(X, y[, accept_sparse, ...])	标准估计器的输入验证。
`utils.check_array`(array[, accept_sparse, ...])	对张量、列表、稀疏矩阵或类似内容进行输入验证。
`utils.check_consistent_length`(*arrays[, ...])	检查所有数组的首维是否一致。
`utils.multiclass.type_of_target`(y)	确定目标所指示的数据类型。
`utils.multiclass.is_multilabel`(y)	检查 `y` 是否为多标签格式。
`utils.shuffle`(arrays, *options)
`utils.validation.check_is_fitted`(estimator)	对估计器执行 is_fitted 验证。
`utils.validation.column_or_1d`(y[, warn])	压缩列或一维numpy数组，否则抛出错误

杂项#

wrappers.ParallelPostFit([estimator, scoring])

用于并行预测和转换的元估计器。

LightGBM 集成#

`contrib.lightgbm.LGBMClassifier`(args, *kwargs)
`contrib.lightgbm.LGBMRegressor`(args, *kwargs)
`contrib.lightgbm.LGBMRanker`(args, *kwargs)

PyTorch 集成#

`contrib.pytorch.run_pytorch_script`(script, ...)	在Mars集群中运行PyTorch脚本。
`contrib.pytorch.MarsDataset`
`contrib.pytorch.SequentialSampler`
`contrib.pytorch.RandomSampler`
`contrib.pytorch.SubsetRandomSampler`
`contrib.pytorch.DistributedSampler`

StatsModels 集成#

`contrib.statsmodels.MarsDistributedModel`([...])
`contrib.statsmodels.MarsResults`(模型)

TensorFlow 集成#

`contrib.tensorflow.run_tensorflow_script`(...)	在Mars集群中运行TensorFlow脚本。
`contrib.tensorflow.gen_tensorflow_dataset`(tensors)	将Mars数据类型转换为tf.data.Dataset。

XGBoost 集成#

`contrib.xgboost.MarsDMatrix`(数据[, 标签, ...])
`contrib.xgboost.train`(params, dtrain[, evals])	以Mars的方式训练XGBoost模型。
`contrib.xgboost.predict`(model, data[, ...])
`contrib.xgboost.XGBClassifier`([max_depth, ...])	XGBoost分类的scikit-learn API实现。
`contrib.xgboost.XGBRegressor`([max_depth, ...])	XGBoost回归器的scikit-learn API实现。