数据集相似性

dataset_similarity(a: Dataset, b: Dataset, metric: str | None = None) float[source]

计算两个数据集之间的相似度。

Parameters:
  • a (Dataset) – 参考数据集

  • b (Dataset) – 目标数据集

  • metric (str | None) – 使用的相似度度量。默认为 tanimoto。可以是对称或非对称的度量。

Returns:

一个介于0和1之间的标量值,越接近1表示数据集基于该指标的相似度越高。

Raises:

ValueError – 如果传递了无效的度量类型。目前只有tanimoto,但这在以后可能会改变。

Return type:

float