指标

分类指标

根据1,使用平面分类指标可能不足以深入了解哪种算法在分类层次数据方面更好。因此,在HiClass中,我们实现了层次精度(hP)、层次召回率(hR)和层次F分数(hF)的指标,这些指标是著名的精度、召回率和F分数的扩展,但专门针对层次分类场景。这些层次对应指标最初由2提出,定义如下:

\(\displaystyle{hP = \frac{\sum_i|\alpha_i\cap\beta_i|}{\sum_i|\alpha_i|}}\), \(\displaystyle{hR = \frac{\sum_i|\alpha_i\cap\beta_i|}{\sum_i|\beta_i|}}\), \(\displaystyle{hF = \frac{2 \times hP \times hR}{hP + hR}}\)

其中 \(\alpha_i\) 是为测试示例 \(i\) 预测的最具体类别及其所有祖先类别的集合,而 \(\beta_i\) 是包含测试示例 \(i\) 的真实最具体类别及其所有祖先的集合,求和计算在所有测试示例上进行。

校准指标

1

Silla, C. N., & Freitas, A. A. (2011). 不同应用领域中层次分类的调查. 数据挖掘与知识发现, 22(1), 31-72.

2

Kiritchenko, S., Matwin, S., Nock, R., & Famili, A. F. (2006年6月). 在类层次结构存在下的学习和评估:应用于文本分类. 在加拿大计算智能研究学会会议上 (pp. 395-406). Springer, Berlin, Heidelberg.