注意
转到末尾 以下载完整的示例代码。
绘制验证曲线#
在这个例子中,我们检查了SMOTE
的
k_neighbors
参数的影响。在图中,你可以看到对于不同值的
SMOTE
的k_neighbors
参数,SMOTE-CART分类器的验证分数。
# Authors: Christos Aridas
# Guillaume Lemaitre <g.lemaitre58@gmail.com>
# License: MIT
print(__doc__)
import seaborn as sns
sns.set_context("poster")
RANDOM_STATE = 42
首先,我们生成一个类别分布不平衡的数据集。
from sklearn.datasets import make_classification
X, y = make_classification(
n_classes=2,
class_sep=2,
weights=[0.1, 0.9],
n_informative=10,
n_redundant=1,
flip_y=0,
n_features=20,
n_clusters_per_class=4,
n_samples=5000,
random_state=RANDOM_STATE,
)
我们将使用一个过采样器 SMOTE
,然后使用 DecisionTreeClassifier
。目标将是搜索哪个 k_neighbors
参数最适合我们生成的数据集。
from sklearn.tree import DecisionTreeClassifier
from imblearn.over_sampling import SMOTE
from imblearn.pipeline import make_pipeline
model = make_pipeline(
SMOTE(random_state=RANDOM_STATE), DecisionTreeClassifier(random_state=RANDOM_STATE)
)
我们可以使用validation_curve
来检查
改变参数k_neighbors
的影响。在这种情况下,我们需要
使用一个分数来评估交叉验证期间的泛化分数。
from sklearn.metrics import cohen_kappa_score, make_scorer
from sklearn.model_selection import validation_curve
scorer = make_scorer(cohen_kappa_score)
param_range = range(1, 11)
train_scores, test_scores = validation_curve(
model,
X,
y,
param_name="smote__k_neighbors",
param_range=param_range,
cv=3,
scoring=scorer,
)
train_scores_mean = train_scores.mean(axis=1)
train_scores_std = train_scores.std(axis=1)
test_scores_mean = test_scores.mean(axis=1)
test_scores_std = test_scores.std(axis=1)
我们现在可以绘制我们尝试的不同参数值的交叉验证结果。
import matplotlib.pyplot as plt
fig, ax = plt.subplots(figsize=(7, 7))
ax.plot(param_range, test_scores_mean, label="SMOTE")
ax.fill_between(
param_range,
test_scores_mean + test_scores_std,
test_scores_mean - test_scores_std,
alpha=0.2,
)
idx_max = test_scores_mean.argmax()
ax.scatter(
param_range[idx_max],
test_scores_mean[idx_max],
label=r"Cohen Kappa: ${:.2f}\pm{:.2f}$".format(
test_scores_mean[idx_max], test_scores_std[idx_max]
),
)
fig.suptitle("Validation Curve with SMOTE-CART")
ax.set_xlabel("Number of neighbors")
ax.set_ylabel("Cohen's kappa")
# make nice plotting
sns.despine(ax=ax, offset=10)
ax.set_xlim([1, 10])
ax.set_ylim([0.4, 0.8])
ax.legend(loc="lower right", fontsize=16)
plt.tight_layout()
plt.show()

脚本的总运行时间: (0 分钟 6.905 秒)
预计内存使用量: 199 MB