API Reference#

This is the class and function reference of scikit-learn. Please refer to the full user guide for further details, as the raw specifications of classes and functions may not be enough to give full guidelines on their uses. For reference on concepts repeated across the API, see 常用术语和API元素词汇表.

Object

Description

config_context

上下文管理器用于全局scikit-learn配置。

get_config

获取由 set_config 设置的配置的当前值。

set_config

设置全局scikit-learn配置。

show_versions

打印有用的调试信息”

BaseEstimator

基类,适用于scikit-learn中的所有估计器。

BiclusterMixin

Mixin类用于scikit-learn中的所有双聚类估计器。

ClassNamePrefixFeaturesOutMixin

Mixin类用于通过前缀生成自己的名称的转换器。

ClassifierMixin

Mixin类用于scikit-learn中的所有分类器。

ClusterMixin

Mixin类用于scikit-learn中的所有聚类估计器。

DensityMixin

Mixin类用于scikit-learn中的所有密度估计器。

MetaEstimatorMixin

Mixin类用于scikit-learn中的所有元估计器。

OneToOneFeatureMixin

提供 get_feature_names_out 用于简单的转换器。

OutlierMixin

Mixin类用于scikit-learn中的所有异常检测估计器。

RegressorMixin

Mixin类用于scikit-learn中的所有回归估计器。

TransformerMixin

Mixin类用于scikit-learn中的所有转换器。

clone

构造一个具有相同参数的新未拟合估计器。

is_classifier

返回True如果给定的估计器是一个(可能的)分类器。

is_clusterer

返回True如果给定的估计器是一个(可能的)聚类器。

is_regressor

返回True如果给定的估计器是一个(可能的)回归器。

CalibratedClassifierCV

概率校准使用等渗回归或逻辑回归。

calibration_curve

计算校准曲线的真实和预测概率。

CalibrationDisplay

校准曲线(也称为可靠性图)可视化。

AffinityPropagation

执行数据亲和传播聚类。

AgglomerativeClustering

凝聚聚类。

Birch

实现BIRCH聚类算法。

BisectingKMeans

二分 K-Means 聚类。

DBSCAN

执行DBSCAN聚类从向量数组或距离矩阵。

FeatureAgglomeration

聚合特征。

HDBSCAN

聚类数据使用层次密度聚类。

KMeans

K-Means 聚类。

MeanShift

均值漂移聚类使用平坦核。

MiniBatchKMeans

Mini-Batch K-Means 聚类。

OPTICS

估计向量数组的聚类结构。

SpectralBiclustering

谱双聚类(Kluger, 2003)。

SpectralClustering

应用聚类到归一化拉普拉斯矩阵的投影。

SpectralCoclustering

谱共聚类算法(Dhillon, 2001)。

affinity_propagation

执行数据的自适应传播聚类。

cluster_optics_dbscan

执行DBSCAN提取以适应任意epsilon。

cluster_optics_xi

自动根据Xi-steep方法提取聚类。

compute_optics_graph

计算OPTICS可达性图。

dbscan

执行DBSCAN聚类从向量数组或距离矩阵。

estimate_bandwidth

估计用于均值漂移算法的带宽。

k_means

执行K-means聚类算法。

kmeans_plusplus

初始化 n_clusters 种子根据 k-means++。

mean_shift

执行使用平坦核的均值漂移聚类数据。

spectral_clustering

应用聚类到归一化拉普拉斯投影。

ward_tree

Ward聚类基于特征矩阵。

ColumnTransformer

应用转换器到数组或pandas DataFrame的列。

TransformedTargetRegressor

元估计器用于对变换后的目标进行回归。

make_column_selector

创建一个可调用对象以选择与 ColumnTransformer 一起使用的列。

make_column_transformer

构建一个由给定转换器组成的ColumnTransformer。

EllipticEnvelope

一个用于检测高斯分布数据集中异常点的对象。

EmpiricalCovariance

最大似然协方差估计器。

GraphicalLasso

稀疏逆协方差估计使用l1惩罚估计器。

GraphicalLassoCV

稀疏逆协方差与交叉验证选择的l1惩罚。

LedoitWolf

LedoitWolf 估计器。

MinCovDet

最小协方差决定(MCD):协方差的稳健估计器。

OAS

Oracle 近似收缩估计器。

ShrunkCovariance

协方差估计器使用收缩方法。

empirical_covariance

计算最大似然协方差估计器。

graphical_lasso

L1-惩罚协方差估计器。

ledoit_wolf

估计收缩的Ledoit-Wolf协方差矩阵。

ledoit_wolf_shrinkage

估计收缩的Ledoit-Wolf协方差矩阵。

oas

估计使用Oracle近似收缩的协方差。

shrunk_covariance

计算对角线收缩的协方差矩阵。

CCA

正则相关分析,也称为“模式B”PLS。

PLSCanonical

部分最小二乘变换器和回归器。

PLSRegression

PLSSVD

部分最小二乘奇异值分解。

clear_data_home

删除数据主目录缓存的所有内容。

dump_svmlight_file

将数据集以svmlight / libsvm文件格式转储。

fetch_20newsgroups

加载20个新闻组数据集的文件名和数据(分类)。

fetch_20newsgroups_vectorized

加载并向量化20个新闻组数据集(分类)。

fetch_california_housing

加载加利福尼亚住房数据集(回归)。

fetch_covtype

加载covertype数据集(分类)。

fetch_kddcup99

加载kddcup99数据集(分类)。

fetch_lfw_pairs

加载Labeled Faces in the Wild (LFW) pairs数据集(分类)。

fetch_lfw_people

加载Labeled Faces in the Wild (LFW)人物数据集(分类)。

fetch_olivetti_faces

加载来自AT&T的Olivetti人脸数据集(分类)。

fetch_openml

从openml按名称或数据集ID获取数据集。

fetch_rcv1

加载RCV1多标签数据集(分类)。

fetch_species_distributions

加载Phillips等人(2006年)的物种分布数据集的加载器。

get_data_home

返回scikit-learn数据目录的路径。

load_breast_cancer

加载并返回乳腺癌威斯康星数据集(分类)。

load_diabetes

加载并返回糖尿病数据集(回归)。

load_digits

加载并返回数字数据集(分类)。

load_files

加载带有类别作为子文件夹名称的文本文件。

load_iris

加载并返回鸢尾花数据集(分类)。

load_linnerud

加载并返回物理锻炼Linnerud数据集。

load_sample_image

加载单个样本图像的numpy数组。

load_sample_images

加载用于图像处理的示例图像。

load_svmlight_file

加载以svmlight / libsvm格式存储的数据集到稀疏CSR矩阵中。

load_svmlight_files

从多个文件加载数据集,文件格式为SVMlight格式。

load_wine

加载并返回葡萄酒数据集(分类)。

make_biclusters

生成一个用于双聚类的常量块对角结构数组。

make_blobs

生成用于聚类的各向同性高斯斑点。

make_checkerboard

生成一个用于双聚类的块状棋盘结构的数组。

make_circles

创建一个包含较小圆的大圆在二维平面上。

make_classification

生成一个随机的n类分类问题。

make_friedman1

生成“Friedman #1”回归问题。

make_friedman2

生成 “Friedman #2” 回归问题。

make_friedman3

生成“Friedman #3”回归问题。

make_gaussian_quantiles

生成各向同性高斯和按分位数标记的样本。

make_hastie_10_2

生成用于Hastie等人在2009年提出的二分类数据,示例10.2。

make_low_rank_matrix

生成一个主要为低秩矩阵,具有钟形奇异值。

make_moons

制作两个交错的半圆。

make_multilabel_classification

生成一个随机的多标签分类问题。

make_regression

生成一个随机回归问题。

make_s_curve

生成一个S形曲线数据集。

make_sparse_coded_signal

生成一个由字典元素稀疏组合而成的信号。

make_sparse_spd_matrix

生成一个稀疏的对称正定矩阵。

make_sparse_uncorrelated

生成一个具有稀疏不相关设计的随机回归问题。

make_spd_matrix

生成一个随机的对称正定矩阵。

make_swiss_roll

生成一个瑞士卷数据集。

DictionaryLearning

字典学习。

FactorAnalysis

因子分析(FA)。

FastICA

FastICA: 一种用于独立成分分析的快速算法。

IncrementalPCA

增量主成分分析(IPCA)。

KernelPCA

内核主成分分析(KPCA)。

LatentDirichletAllocation

潜在狄利克雷分配与在线变分贝叶斯算法。

MiniBatchDictionaryLearning

Mini-batch 字典学习。

MiniBatchNMF

Mini-Batch 非负矩阵分解 (NMF)。

MiniBatchSparsePCA

Mini-batch 稀疏主成分分析。

NMF

非负矩阵分解(NMF)。

PCA

主成分分析(PCA)。

SparseCoder

稀疏编码。

SparsePCA

稀疏主成分分析(SparsePCA)。

TruncatedSVD

降维使用截断的SVD(又名LSA)。

dict_learning

解决字典学习矩阵分解问题。

dict_learning_online

解决一个字典学习矩阵分解问题的在线方法。

fastica

执行快速独立成分分析。

non_negative_factorization

计算非负矩阵分解(NMF)。

sparse_encode

稀疏编码。

LinearDiscriminantAnalysis

线性判别分析。

QuadraticDiscriminantAnalysis

二次判别分析。

DummyClassifier

DummyClassifier 生成忽略输入特征的预测。

DummyRegressor

回归器,使用简单规则进行预测。

AdaBoostClassifier

一个AdaBoost分类器。

AdaBoostRegressor

一个AdaBoost回归器。

BaggingClassifier

一个Bagging分类器。

BaggingRegressor

一个Bagging回归器。

ExtraTreesClassifier

一个极端随机树分类器。

ExtraTreesRegressor

一个极端随机树回归器。

GradientBoostingClassifier

梯度提升用于分类。

GradientBoostingRegressor

梯度提升用于回归。

HistGradientBoostingClassifier

直方图梯度提升分类树。

HistGradientBoostingRegressor

直方图梯度提升回归树。

IsolationForest

Isolation Forest Algorithm.

RandomForestClassifier

一个随机森林分类器。

RandomForestRegressor

一个随机森林回归器。

RandomTreesEmbedding

一个完全随机树的集合。

StackingClassifier

堆叠估计器与最终分类器。

StackingRegressor

堆叠估计器与最终回归器。

VotingClassifier

软投票/多数规则分类器,用于未拟合的估计器。

VotingRegressor

预测投票回归器,用于未拟合的估计器。

ConvergenceWarning

自定义警告以捕获收敛问题

DataConversionWarning

警告用于通知代码中发生的隐式数据转换。

DataDimensionalityWarning

自定义警告,用于通知数据维度方面的潜在问题。

EfficiencyWarning

警告用于通知用户计算效率低下。

FitFailedWarning

警告类,用于在拟合估计器时发生错误。

InconsistentVersionWarning

警告:当一个估计器以不一致的版本解封时引发。

NotFittedError

异常类,如果在拟合之前使用估计器,则引发该异常。

UndefinedMetricWarning

警告用于当指标无效时

enable_halving_search_cv

启用逐次减半搜索估计器

enable_iterative_imputer

启用 IterativeImputer

DictVectorizer

将特征-值映射列表转换为向量。

FeatureHasher

实现特征哈希,即哈希技巧。

PatchExtractor

提取图像集合中的补丁。

extract_patches_2d

将2D图像重塑为补丁集合。

grid_to_graph

图的像素到像素连接。

img_to_graph

图的像素到像素梯度连接。

reconstruct_from_patches_2d

从所有补丁重建图像。

CountVectorizer

将一组文本文档转换为标记计数矩阵。

HashingVectorizer

将一组文本文档转换为标记出现次数的矩阵。

TfidfTransformer

将计数矩阵转换为归一化的tf或tf-idf表示形式。

TfidfVectorizer

将一组原始文档转换为TF-IDF特征矩阵。

GenericUnivariateSelect

单变量特征选择器,具有可配置的策略。

RFE

特征排序与递归特征消除。

RFECV

递归特征消除与交叉验证选择特征。

SelectFdr

过滤器:选择估计的错误发现率对应的p值。

SelectFpr

过滤器:基于FPR测试选择低于alpha的p值。

SelectFromModel

元转换器,用于根据重要性权重选择特征。

SelectFwe

过滤器:选择对应于族错误率的p值。

SelectKBest

根据k个最高分数选择特征。

SelectPercentile

根据最高得分的百分位数选择特征。

SelectorMixin

Transformer mixin 提供了基于支持掩码的特征选择功能

SequentialFeatureSelector

变压器,执行顺序特征选择。

VarianceThreshold

特征选择器,移除所有低方差的特征。

chi2

计算每个非负特征与类别之间的卡方统计量。

f_classif

计算提供的样本的ANOVA F值。

f_regression

单变量线性回归测试返回F统计量和p值。

mutual_info_classif

估计离散目标变量的互信息。

mutual_info_regression

估计连续目标变量的互信息。

r_regression

计算每个特征与目标之间的皮尔逊相关系数r。

GaussianProcessClassifier

高斯过程分类(GPC)基于拉普拉斯近似。

GaussianProcessRegressor

高斯过程回归(GPR)。

CompoundKernel

核函数,由一组其他核函数组成。

ConstantKernel

DotProduct

Dot-Product 核函数。

ExpSineSquared

Exp-Sine-Squared 核(又称周期核)。

Exponentiation

指数核接受一个基础核和一个标量参数 \(p\) ,并通过以下方式组合它们

Hyperparameter

一个以namedtuple形式表示的核超参数规范。

Kernel

基类用于所有核函数。

Matern

Matern 核函数。

PairwiseKernel

包装器用于sklearn.metrics.pairwise中的内核。

Product

Product 核函数接受两个核函数 \(k_1\)\(k_2\) ,并通过以下方式将它们组合起来:

RBF

径向基函数核(又称平方指数核)。

RationalQuadratic

有理二次核函数。

Sum

Sum 核接受两个核 \(k_1\)\(k_2\) 并通过以下方式组合它们:

WhiteKernel

IterativeImputer

多变量插补器,从所有其他特征中估计每个特征。

KNNImputer

补全缺失值的插补方法,使用k-最近邻算法。

MissingIndicator

二进制指示器用于缺失值。

SimpleImputer

单变量插补器,用于使用简单策略完成缺失值。

partial_dependence

部分依赖于 features

permutation_importance

排列重要性用于特征评估 [Rd9e56ef97513-BRE].

DecisionBoundaryDisplay

决策边界可视化。

PartialDependenceDisplay

部分依赖图 (PDP)。

IsotonicRegression

回归模型。

check_increasing

确定y是否与x单调相关。

isotonic_regression

解决等渗回归模型。

AdditiveChi2Sampler

近似特征映射用于加性chi2核。

Nystroem

近似使用训练数据的一个子集来近似一个核映射。

PolynomialCountSketch

多项式核近似通过张量草图实现。

RBFSampler

近似使用随机傅里叶特征的RBF核特征映射。

SkewedChi2Sampler

近似“偏斜卡方”核的特征映射。

KernelRidge

核岭回归。

LogisticRegression

逻辑回归(也称为logit,MaxEnt)分类器。

LogisticRegressionCV

逻辑回归交叉验证(即logit,MaxEnt)分类器。

PassiveAggressiveClassifier

被动攻击分类器。

Perceptron

线性感知机分类器。

RidgeClassifier

分类器使用岭回归。

RidgeClassifierCV

岭分类器,内置交叉验证。

SGDClassifier

线性分类器(SVM、逻辑回归等)使用SGD训练。

SGDOneClassSVM

解决使用随机梯度下降的线性单类支持向量机。

LinearRegression

普通最小二乘线性回归。

Ridge

线性最小二乘法与l2正则化。

RidgeCV

岭回归内置交叉验证。

SGDRegressor

线性模型通过最小化带有SGD的正则化经验损失进行拟合。

ElasticNet

线性回归结合了L1和L2先验作为正则化项。

ElasticNetCV

弹性网络模型沿正则化路径进行迭代拟合。

Lars

最小角回归模型,又名 LAR。

LarsCV

交叉验证的最小角回归模型。

Lasso

线性模型使用L1先验作为正则化训练(又名Lasso)。

LassoCV

Lasso线性模型沿着正则化路径进行迭代拟合。

LassoLars

Lasso模型使用最小角回归进行拟合,即Lars。

LassoLarsCV

交叉验证的Lasso,使用LARS算法。

LassoLarsIC

Lasso模型使用Lars并通过BIC或AIC进行模型选择。

OrthogonalMatchingPursuit

正交匹配追踪模型(OMP)。

OrthogonalMatchingPursuitCV

跨验证正交匹配追踪模型(OMP)。

ARDRegression

贝叶斯 ARD 回归。

BayesianRidge

贝叶斯岭回归。

MultiTaskElasticNet

多任务弹性网络模型,使用L1/L2混合范数作为正则化器进行训练。

MultiTaskElasticNetCV

多任务L1/L2弹性网络,内置交叉验证。

MultiTaskLasso

多任务Lasso模型,使用L1/L2混合范数作为正则化项进行训练。

MultiTaskLassoCV

多任务Lasso模型,使用L1/L2混合范数作为正则化项进行训练。

HuberRegressor

L2-正则化的线性回归模型,对异常值具有鲁棒性。

QuantileRegressor

线性回归模型,用于预测条件分位数。

RANSACRegressor

RANSAC (RANdom SAmple Consensus) 算法。

TheilSenRegressor

Theil-Sen 估计器:稳健的多变量回归模型。

GammaRegressor

广义线性模型与Gamma分布。

PoissonRegressor

广义线性模型与泊松分布。

TweedieRegressor

广义线性模型与Tweedie分布。

PassiveAggressiveRegressor

被动攻击回归器。

enet_path

计算弹性网络路径使用坐标下降法。

lars_path

计算最小角回归或Lasso路径使用LARS算法。

lars_path_gram

lars_path 在充分统计模式下。

lasso_path

计算Lasso路径使用坐标下降法。

orthogonal_mp

正交匹配追踪 (OMP)。

orthogonal_mp_gram

Gram 正交匹配追踪 (OMP).

ridge_regression

解决岭方程通过正规方程法。

Isomap

Isomap Embedding.

LocallyLinearEmbedding

局部线性嵌入。

MDS

多维缩放。

SpectralEmbedding

光谱嵌入用于非线性降维。

TSNE

T-分布随机邻域嵌入。

locally_linear_embedding

执行数据上的局部线性嵌入分析。

smacof

计算使用SMACOF算法的多维缩放。

spectral_embedding

将样本投影到图拉普拉斯矩阵的前几个特征向量上。

trustworthiness

指示局部结构保留到何种程度。

check_scoring

确定用户选项的评分器。

get_scorer

获取字符串形式的评分器。

get_scorer_names

获取所有可用评分器的名称。

make_scorer

创建一个从性能指标或损失函数生成的评分器。

accuracy_score

准确性分类得分。

auc

计算使用梯形法则的曲线下面积(AUC)。

average_precision_score

计算预测分数的平均精度(AP)。

balanced_accuracy_score

计算平衡准确率。

brier_score_loss

计算Brier分数损失。

class_likelihood_ratios

计算二分类的正负似然比。

classification_report

构建一个文本报告,展示主要的分类指标。

cohen_kappa_score

计算Cohen’s kappa:一种衡量标注者之间一致性的统计量。

confusion_matrix

计算混淆矩阵以评估分类的准确性。

d2_log_loss_score

\(D^2\) 评分函数,解释的对数损失分数。

dcg_score

计算折损累计增益。

det_curve

计算不同概率阈值下的错误率。

f1_score

计算F1分数,也称为平衡F-分数或F-度量。

fbeta_score

计算 F-beta 分数。

hamming_loss

计算平均汉明损失。

hinge_loss

平均铰链损失(非正则化)。

jaccard_score

Jaccard相似系数得分。

log_loss

Log loss,又称逻辑损失或交叉熵损失。

matthews_corrcoef

计算 Matthews 相关系数(MCC)。

multilabel_confusion_matrix

计算每个类别或样本的混淆矩阵。

ndcg_score

计算归一化折损累积增益。

precision_recall_curve

计算不同概率阈值下的精确率-召回率对。

precision_recall_fscore_support

计算每个类别的精确度、召回率、F-度量和支持度。

precision_score

计算精确度。

recall_score

计算召回率。

roc_auc_score

计算从预测分数得到的受试者工作特征曲线(ROC AUC)下的面积。

roc_curve

计算接收者操作特征(ROC)。

top_k_accuracy_score

Top-k 准确率分类得分。

zero_one_loss

零一分类损失。

d2_absolute_error_score

\(D^2\) 回归评分函数,解释的绝对误差分数。

d2_pinball_score

\(D^2\) 回归评分函数,解释了分位数损失的比例。

d2_tweedie_score

\(D^2\) 回归评分函数,解释的 Tweedie 偏差的比例。

explained_variance_score

方差解释回归评分函数。

max_error

max_error 指标计算最大残差误差。

mean_absolute_error

平均绝对误差回归损失。

mean_absolute_percentage_error

平均绝对百分比误差(MAPE)回归损失。

mean_gamma_deviance

均值伽玛偏差回归损失。

mean_pinball_loss

Pinball损失用于分位数回归。

mean_poisson_deviance

均值泊松偏差回归损失。

mean_squared_error

均方误差回归损失。

mean_squared_log_error

均方对数误差回归损失。

mean_tweedie_deviance

均值 Tweedie 偏差回归损失。

median_absolute_error

中位绝对误差回归损失。

r2_score

\(R^2\) (决定系数)回归得分函数。

root_mean_squared_error

均方根误差回归损失。

root_mean_squared_log_error

均方对数误差回归损失。

coverage_error

覆盖错误度量。

label_ranking_average_precision_score

计算基于排名的平均精度。

label_ranking_loss

计算排序损失度量。

adjusted_mutual_info_score

调整两个聚类的互信息。

adjusted_rand_score

Rand指数的随机调整。

calinski_harabasz_score

计算 Calinski 和 Harabasz 分数。

contingency_matrix

构建一个描述标签之间关系的列联矩阵。

pair_confusion_matrix

由两个聚类产生的对混淆矩阵。

completeness_score

计算给定真实标签的聚类标签完整性度量。

davies_bouldin_score

计算Davies-Bouldin得分。

fowlkes_mallows_score

测量一组点的两个聚类之间的相似性。

homogeneity_completeness_v_measure

计算同质性、完整性和V-Measure分数。

homogeneity_score

同质性度量给定真实标签的聚类标签。

mutual_info_score

互信息在两个聚类之间的相似性度量。

normalized_mutual_info_score

标准化两个聚类之间的互信息。

rand_score

Rand指数。

silhouette_samples

计算每个样本的轮廓系数。

silhouette_score

计算所有样本的平均轮廓系数。

v_measure_score

V-measure 聚类标签给定一个真实标签。

consensus_score

两个双聚类集的相似性。

DistanceMetric

统一接口,用于快速距离度量函数。

additive_chi2_kernel

计算观测值 X 和 Y 之间的加性卡方核。

chi2_kernel

计算X和Y之间的指数卡方核。

cosine_distances

计算X和Y中样本之间的余弦距离。

cosine_similarity

计算X和Y中样本之间的余弦相似度。

distance_metrics

有效的成对距离度量。

euclidean_distances

计算向量数组X和Y中每一对之间的距离矩阵。

haversine_distances

计算样本X和Y之间的Haversine距离。

kernel_metrics

有效的成对核函数度量。

laplacian_kernel

计算X和Y之间的拉普拉斯核。

linear_kernel

计算X和Y之间的线性核。

manhattan_distances

计算X和Y中向量之间的L1距离。

nan_euclidean_distances

计算在存在缺失值的情况下的欧几里得距离。

paired_cosine_distances

计算X和Y之间的配对余弦距离。

paired_distances

计算X和Y之间的配对距离。

paired_euclidean_distances

计算X和Y之间的配对欧几里得距离。

paired_manhattan_distances

计算X和Y之间的配对L1距离。

pairwise_kernels

计算数组 X 和可选数组 Y 之间的核。

polynomial_kernel

计算X和Y之间的多项式核。

rbf_kernel

计算X和Y之间的rbf(高斯)核。

sigmoid_kernel

计算X和Y之间的Sigmoid核。

pairwise_distances

计算从向量数组X和可选的Y的距离矩阵。

pairwise_distances_argmin

计算一个点和一组点之间的最小距离。

pairwise_distances_argmin_min

计算一个点和一组点之间的最小距离。

pairwise_distances_chunked

生成一个分块的距离矩阵,可选的归约操作。

ConfusionMatrixDisplay

混淆矩阵可视化。

DetCurveDisplay

DET曲线可视化。

PrecisionRecallDisplay

精确召回率可视化。

PredictionErrorDisplay

预测回归模型的误差可视化。

RocCurveDisplay

ROC曲线可视化。

BayesianGaussianMixture

变分贝叶斯高斯混合估计。

GaussianMixture

高斯混合模型。

GroupKFold

K-fold迭代器变体,具有不重叠的组。

GroupShuffleSplit

Shuffle-Group(s)-Out 交叉验证迭代器。

KFold

K-Fold交叉验证器。

LeaveOneGroupOut

Leave One Group Out 交叉验证器。

LeaveOneOut

Leave-One-Out 交叉验证器。

LeavePGroupsOut

Leave P Group(s) Out交叉验证器。

LeavePOut

Leave-P-Out交叉验证器。

PredefinedSplit

预定义的分割交叉验证器。

RepeatedKFold

Repeated K-Fold 交叉验证器。

RepeatedStratifiedKFold

重复分层K折交叉验证器。

ShuffleSplit

随机排列交叉验证器。

StratifiedGroupKFold

分层K折迭代器变种,具有不重叠的组。

StratifiedKFold

分层K折交叉验证器。

StratifiedShuffleSplit

分层随机分割交叉验证器。

TimeSeriesSplit

时间序列交叉验证器。

check_cv

输入检查工具,用于构建交叉验证器。

train_test_split

将数组或矩阵拆分为随机的训练和测试子集。

GridSearchCV

穷举搜索估计器的指定参数值。

HalvingGridSearchCV

搜索指定的参数值,使用连续减半的方法。

HalvingRandomSearchCV

随机搜索超参数。

ParameterGrid

网格参数,每个参数有离散的数值。

ParameterSampler

生成器在给定分布中采样参数。

RandomizedSearchCV

随机搜索超参数。

FixedThresholdClassifier

二元分类器,手动设置决策阈值。

TunedThresholdClassifierCV

分类器,使用交叉验证后调决策阈值。

cross_val_predict

生成每个输入数据点的交叉验证估计。

cross_val_score

评估通过交叉验证的得分。

cross_validate

评估指标通过交叉验证并记录拟合/评分时间。

learning_curve

学习曲线。

permutation_test_score

评估通过排列验证分数的显著性。

validation_curve

验证曲线。

LearningCurveDisplay

学习曲线可视化。

ValidationCurveDisplay

验证曲线可视化。

OneVsOneClassifier

一对一多类策略。

OneVsRestClassifier

One-vs-the-rest (OvR) 多类策略。

OutputCodeClassifier

(Error-Correcting) Output-Code 多类策略。

ClassifierChain

一个将二元分类器排列成链的多标签模型。

MultiOutputClassifier

多目标分类。

MultiOutputRegressor

多目标回归。

RegressorChain

一个将回归排列成链的多标签模型。

BernoulliNB

朴素贝叶斯分类器,适用于多元伯努利模型。

CategoricalNB

朴素贝叶斯分类器,适用于分类特征。

ComplementNB

The Complement Naive Bayes classifier described in Rennie et al. (2003).

GaussianNB

高斯朴素贝叶斯(GaussianNB)。

MultinomialNB

朴素贝叶斯分类器用于多项式模型。

BallTree

BallTree for fast generalized N-point problems

KDTree

KDTree for fast generalized N-point problems

KNeighborsClassifier

分类器实现k近邻投票。

KNeighborsRegressor

基于k近邻的回归。

KNeighborsTransformer

将X转换为k个最近邻的(加权)图。

KernelDensity

核密度估计。

LocalOutlierFactor

无监督异常检测使用局部异常因子(LOF)。

NearestCentroid

最近邻分类器。

NearestNeighbors

无监督学习者,用于实现邻居搜索。

NeighborhoodComponentsAnalysis

邻域组件分析。

RadiusNeighborsClassifier

分类器在给定半径内的邻居之间进行投票。

RadiusNeighborsRegressor

基于固定半径邻域的回归。

RadiusNeighborsTransformer

将X转换为一个(加权)邻近半径内的邻居图。

kneighbors_graph

计算X中点的k-邻居的(加权)图。

radius_neighbors_graph

计算X中点的(加权)邻居图。

sort_graph_by_row_values

对一个稀疏图进行排序,使得每一行按值递增存储。

BernoulliRBM

伯努利受限玻尔兹曼机(RBM)。

MLPClassifier

多层感知器分类器。

MLPRegressor

多层感知器回归器。

FeatureUnion

将多个转换器对象的结果连接起来。

Pipeline

一个带有可选最终预测器的数据转换器序列。

make_pipeline

构建一个来自给定估计器的 Pipeline

make_union

构造一个来自给定转换器的 FeatureUnion

Binarizer

二值化数据(根据阈值将特征值设置为0或1)。

FunctionTransformer

构建一个来自任意可调用对象的转换器。

KBinsDiscretizer

将连续数据分箱到区间中。

KernelCenterer

中心化任意核矩阵 \(K\)

LabelBinarizer

将标签二值化以进行一对多的分类。

LabelEncoder

编码目标标签,使其值在0到n_classes-1之间。

MaxAbsScaler

缩放每个特征以其最大绝对值。

MinMaxScaler

转换特征通过将每个特征缩放到给定范围。

MultiLabelBinarizer

转换可迭代对象和多标签格式之间的转换。

Normalizer

标准化样本为单位范数。

OneHotEncoder

将分类特征编码为独热数值数组。

OrdinalEncoder

将分类特征编码为整数数组。

PolynomialFeatures

生成多项式和交互特征。

PowerTransformer

应用幂变换特征以使数据更接近高斯分布。

QuantileTransformer

使用分位数信息转换特征。

RobustScaler

使用对异常值具有鲁棒性的统计数据来缩放特征。

SplineTransformer

生成单变量B样条基函数。

StandardScaler

标准化特征通过去除均值并缩放到单位方差。

TargetEncoder

目标编码器用于回归和分类目标。

add_dummy_feature

增强数据集以添加额外的虚拟特征。

binarize

布尔阈值处理数组类或scipy.sparse矩阵。

label_binarize

二值化标签以一对多的方式进行。

maxabs_scale

将每个特征缩放到 [-1, 1] 范围而不破坏稀疏性。

minmax_scale

转换特征通过将每个特征缩放到给定范围。

normalize

缩放输入向量以单位范数(向量长度)。

power_transform

参数化、单调变换使数据更符合高斯分布。

quantile_transform

使用分位数信息转换特征。

robust_scale

标准化一个数据集沿着任何轴。

scale

标准化一个数据集沿着任意轴。

GaussianRandomProjection

通过高斯随机投影降低维度。

SparseRandomProjection

通过稀疏随机投影降低维度。

johnson_lindenstrauss_min_dim

找到一个“安全”的随机投影组件数量。

LabelPropagation

标签传播分类器。

LabelSpreading

LabelSpreading 模型用于半监督学习。

SelfTrainingClassifier

自训练分类器。

LinearSVC

线性支持向量分类。

LinearSVR

线性支持向量回归。

NuSVC

Nu-支持向量分类。

NuSVR

Nu支持向量回归。

OneClassSVM

无监督异常检测。

SVC

C-支持向量分类。

SVR

Epsilon-支持向量回归。

l1_min_c

返回C的最低边界。

DecisionTreeClassifier

一个决策树分类器。

DecisionTreeRegressor

A decision tree regressor.

ExtraTreeClassifier

一个极度随机化的树分类器。

ExtraTreeRegressor

一个极度随机的树回归器。

export_graphviz

导出一个决策树为DOT格式。

export_text

构建一个文本报告,展示决策树的规则。

plot_tree

绘制决策树。

Bunch

容器对象,将键暴露为属性。

_safe_indexing

返回使用索引的X的行、项或列。

as_float_array

将类似数组的对象转换为浮点数数组。

assert_all_finite

抛出ValueError如果X包含NaN或无穷大。

deprecated

装饰器,用于将函数或类标记为已弃用。

estimator_html_repr

构建一个估计器的HTML表示。

gen_batches

生成器,用于创建包含从0到 nbatch_size 个元素的切片。

gen_even_slices

生成器,用于创建均匀分布的 n_packs 个切片,直到 n

indexable

使数组可索引以进行交叉验证。

murmurhash3_32

计算种子处键的32位murmurhash3。

resample

重采样数组或稀疏矩阵的一致方式。

safe_mask

返回一个可以安全用于X的掩码。

safe_sqr

逐元素平方数组类和稀疏矩阵。

shuffle

打乱数组或稀疏矩阵的一致方式。

check_X_y

输入验证用于标准估计器。

check_array

对数组、列表、稀疏矩阵或类似对象的输入验证。

check_consistent_length

检查所有数组是否具有一致的第一维度。

check_random_state

将种子转换为 np.random.RandomState 实例。

check_scalar

验证标量参数的类型和值。

check_is_fitted

执行估计器的is_fitted验证。

check_memory

检查 memory 是否类似于 joblib.Memory。

check_symmetric

确保数组是二维的、方形的和对称的。

column_or_1d

将列或一维 numpy 数组展平,否则引发错误。

has_fit_parameter

检查估计器的fit方法是否支持给定的参数。

available_if

一个只有在检查返回真值时才可用的属性。

compute_class_weight

估计不平衡数据集的类权重。

compute_sample_weight

估计不平衡数据集的样本权重。

is_multilabel

检查 y 是否为多标签格式。

type_of_target

确定由目标指示的数据类型。

unique_labels

提取一个有序的唯一标签数组。

density

计算稀疏向量的密度。

fast_logdet

计算方阵的行列式对数。

randomized_range_finder

计算一个正交矩阵,其范围近似于A的范围。

randomized_svd

计算截断的随机SVD。

safe_sparse_dot

点积能够正确处理稀疏矩阵的情况。

weighted_mode

返回一个数组,其中包含传入数组的加权众数(最常见的)值。

incr_mean_variance_axis

计算CSR或CSC矩阵沿轴的增量均值和方差。

inplace_column_scale

原地列缩放CSC/CSR矩阵。

inplace_csr_column_scale

原地列缩放CSR矩阵。

inplace_row_scale

原地行缩放CSR或CSC矩阵。

inplace_swap_column

交换CSC/CSR矩阵的两列,原地操作。

inplace_swap_row

交换CSC/CSR矩阵的两行,原地操作。

mean_variance_axis

计算CSR或CSC矩阵沿某一轴的均值和方差。

inplace_csr_row_normalize_l1

就地规范化CSR矩阵或数组的行,使其L1范数归一化。

inplace_csr_row_normalize_l2

就地规范化CSR矩阵或数组的行,使其L2范数为1。

single_source_shortest_path_length

返回从源点到所有可到达节点的最短路径长度。

sample_without_replacement

采样整数而不进行替换。

min_pos

查找数组中正数值的最小值。

MetadataRequest

包含消费者的元数据请求信息。

MetadataRouter

存储并处理路由对象的元数据路由。

MethodMapping

存储路由器调用者和被调用者方法之间的映射。

get_routing_for_object

获取给定对象的 Metadata{Router, Request} 实例。

process_routing

验证和路由输入参数。

all_displays

获取来自 sklearn 的所有显示列表。

all_estimators

获取 sklearn 中的所有估计器列表。

all_functions

获取 sklearn 中的所有函数列表。

check_estimator

检查估计器是否符合scikit-learn的约定。

parametrize_with_checks

装饰器特定于Pytest,用于参数化估计器检查。

Parallel

调整 joblib.Parallel 以传播 scikit-learn 配置。

delayed

装饰器用于捕获函数的参数。

parallel_backend

Change the default backend used by Parallel inside a with block.

register_parallel_backend

Register a new Parallel backend factory.