scipy.spatial.distance.

cdist#

scipy.spatial.distance.cdist(XA, XB, metric='euclidean', *, out=None, **kwargs)[源代码][源代码]#

计算两个输入集合中每一对之间的距离。

参见注释以了解常见的调用约定。

参数:

XAarray_like

一个 \(m_A\) 乘以 \(n\) 的数组，包含在 \(n\) 维空间中的 \(m_A\) 个原始观测值。输入数据被转换为浮点类型。

XBarray_like

一个 \(m_B\) 乘以 \(n\) 的数组，包含 \(m_B\) 个原始观测值，位于 \(n\) 维空间中。输入数据被转换为浮点类型。

指标str 或 callable，可选

要使用的距离度量。如果是字符串，距离函数可以是 ‘braycurtis’, ‘canberra’, ‘chebyshev’, ‘cityblock’, ‘correlation’, ‘cosine’, ‘dice’, ‘euclidean’, ‘hamming’, ‘jaccard’, ‘jensenshannon’, ‘kulczynski1’, ‘mahalanobis’, ‘matching’, ‘minkowski’, ‘rogerstanimoto’, ‘russellrao’, ‘seuclidean’, ‘sokalmichener’, ‘sokalsneath’, ‘sqeuclidean’, ‘yule’。

**kwargsdict, 可选

metric 的额外参数：请参阅每个指标的文档以获取所有可能参数的列表。

一些可能的参数：

p : 标量应用于闵可夫斯基、加权和非加权的 p-范数。默认值: 2。

w : array_like 支持权重的度量（例如，Minkowski）的权重向量。

V : array_like 标准化欧几里得距离的方差向量。默认值: var(vstack([XA, XB]), axis=0, ddof=1)

VI : array_like Mahalanobis 协方差矩阵的逆矩阵。默认值：inv(cov(vstack([XA, XB].T))).T

out : ndarray 输出数组如果非空，距离矩阵 Y 将存储在此数组中。

返回:

Yndarray: 返回一个 \(m_A\) 乘以 \(m_B\) 的距离矩阵。对于每个 \(i\) 和 \(j\)，计算度量 dist(u=XA[i], v=XB[j]) 并存储在第 \(ij\) 个条目中。

Raises:

ValueError: 如果 XA 和 XB 的列数不同，则会抛出一个异常。

注释

以下是常见的调用约定：

Y = cdist(XA, XB, 'euclidean')

计算 \(m\) 个点之间的距离，使用欧几里得距离（2-范数）作为点之间的距离度量。这些点被排列为矩阵 X 中的 \(m\) 个 \(n\) 维行向量。
Y = cdist(XA, XB, 'minkowski', p=2.)

使用Minkowski距离计算距离 \(\|u-v\|_p\) (\(p\)-范数)，其中 \(p > 0`（注意，当 :math:`0 < p < 1\) 时，这只是一个拟度量）。
Y = cdist(XA, XB, 'cityblock')

计算点之间的城市街区或曼哈顿距离。
Y = cdist(XA, XB, 'seuclidean', V=None)

计算标准化的欧几里得距离。两个 n 维向量 u 和 v 之间的标准化欧几里得距离为

\[\sqrt{\sum {(u_i-v_i)^2 / V[x_i]}}.\]

V 是方差向量；V[i] 是计算所有点的第 i 个分量的方差。如果没有传递，它将自动计算。
Y = cdist(XA, XB, 'sqeuclidean')

计算向量之间的平方欧几里得距离 \(\|u-v\|_2^2\)。
Y = cdist(XA, XB, 'cosine')

计算向量 u 和 v 之间的余弦距离，

\[1 - \frac{u \cdot v} {{\|u\|}_2 {\|v\|}_2}\]

其中 \(\|*\|_2\) 是其参数 * 的 2-范数，而 \(u \cdot v\) 是 \(u\) 和 \(v\) 的点积。
Y = cdist(XA, XB, 'correlation')

计算向量 u 和 v 之间的相关距离。

\[1 - \frac{(u - \bar{u}) \cdot (v - \bar{v})} {{\|(u - \bar{u})\|}_2 {\|(v - \bar{v})\|}_2}\]

其中 \(\bar{v}\) 是向量 v 的元素的均值，而 \(x \cdot y\) 是 \(x\) 和 \(y\) 的点积。
Y = cdist(XA, XB, 'hamming')

计算两个 n 维向量 u 和 v 之间归一化的汉明距离，即这两个向量元素中不一致的比例。为了节省内存，矩阵 X 可以是布尔类型。
Y = cdist(XA, XB, 'jaccard')

计算点之间的 Jaccard 距离。给定两个向量 u 和 v，Jaccard 距离是那些元素 u[i] 和 v[i] 中至少有一个不为零且不一致的比例。
Y = cdist(XA, XB, 'jensenshannon')

计算两个概率数组之间的 Jensen-Shannon 距离。给定两个概率向量，\(p\) 和 \(q\)，Jensen-Shannon 距离为

\[\sqrt{\frac{D(p \parallel m) + D(q \parallel m)}{2}}\]

其中 \(m\) 是 \(p\) 和 \(q\) 的逐点均值，而 \(D\) 是 Kullback-Leibler 散度。
Y = cdist(XA, XB, 'chebyshev')

计算点之间的切比雪夫距离。两个 n 维向量 u 和 v 之间的切比雪夫距离是它们各自元素之间的最大范数-1 距离。更准确地说，距离由以下公式给出

\[d(u,v) = \max_i \{|u_i-v_i|\}.\]
Y = cdist(XA, XB, 'canberra')

计算点之间的堪培拉距离。两点 u 和 v 之间的堪培拉距离是

\[d(u,v) = \sum_i \frac{|u_i-v_i|}{ |u_i|+|v_i|}.\]
Y = cdist(XA, XB, 'braycurtis')

计算点之间的 Bray-Curtis 距离。两点 u 和 v 之间的 Bray-Curtis 距离是

\[d(u,v) = \frac{\sum_i (|u_i-v_i|)} {\sum_i (|u_i+v_i|)}\]
Y = cdist(XA, XB, 'mahalanobis', VI=None)

计算点之间的马氏距离。两点 u 和 v 之间的马氏距离为 \(\sqrt{(u-v)(1/V)(u-v)^T}\)，其中 \((1/V)`（即 ``VI`\) 变量）是协方差的逆。如果 VI 不为 None，则 VI 将被用作协方差矩阵的逆。
Y = cdist(XA, XB, 'yule')

计算布尔向量之间的 Yule 距离。（参见 yule 函数文档）
Y = cdist(XA, XB, 'matching')

“hamming”的同义词。
Y = cdist(XA, XB, 'dice')

计算布尔向量之间的Dice距离。（参见 dice 函数文档）
Y = cdist(XA, XB, 'kulczynski1')

计算布尔向量之间的 Kulczynski 距离。（参见 kulczynski1 函数文档）
Y = cdist(XA, XB, 'rogerstanimoto')

计算布尔向量之间的Rogers-Tanimoto距离。（参见 rogerstanimoto 函数文档）
Y = cdist(XA, XB, 'russellrao')

计算布尔向量之间的Russell-Rao距离。（参见 russellrao 函数文档）
Y = cdist(XA, XB, 'sokalmichener')

计算布尔向量之间的 Sokal-Michener 距离。（参见 sokalmichener 函数文档）
Y = cdist(XA, XB, 'sokalsneath')

计算向量之间的 Sokal-Sneath 距离。（参见 sokalsneath 函数文档）
Y = cdist(XA, XB, f)

使用用户提供的二元函数 f 计算 X 中所有向量对之间的距离。例如，可以如下计算向量之间的欧几里得距离:
```
dm = cdist(XA, XB, lambda u, v: np.sqrt(((u-v)**2).sum()))
```
请注意，您应避免传递此库中定义的距离函数之一的引用。例如，:
```
dm = cdist(XA, XB, sokalsneath)
```
将使用Python函数`sokalsneath`计算X中向量之间的成对距离。这将导致sokalsneath被调用:math:`{n choose 2}`次，这是低效的。相反，优化的C版本更高效，我们通过以下语法调用它:
```
dm = cdist(XA, XB, 'sokalsneath')
```

示例

计算四个二维坐标之间的欧几里得距离：

>>> from scipy.spatial import distance
>>> import numpy as np
>>> coords = [(35.0456, -85.2672),
...           (35.1174, -89.9711),
...           (35.9728, -83.9422),
...           (36.1667, -86.7833)]
>>> distance.cdist(coords, coords, 'euclidean')
array([[ 0.    ,  4.7044,  1.6172,  1.8856],
       [ 4.7044,  0.    ,  6.0893,  3.3561],
       [ 1.6172,  6.0893,  0.    ,  2.8477],
       [ 1.8856,  3.3561,  2.8477,  0.    ]])

找到从3-D点到单位立方体角点的曼哈顿距离：

>>> a = np.array([[0, 0, 0],
...               [0, 0, 1],
...               [0, 1, 0],
...               [0, 1, 1],
...               [1, 0, 0],
...               [1, 0, 1],
...               [1, 1, 0],
...               [1, 1, 1]])
>>> b = np.array([[ 0.1,  0.2,  0.4]])
>>> distance.cdist(a, b, 'cityblock')
array([[ 0.7],
       [ 0.9],
       [ 1.3],
       [ 1.5],
       [ 1.5],
       [ 1.7],
       [ 2.1],
       [ 2.3]])