speechbrain.inference.speaker 模块

指定用于说话人识别模块的推理接口。

Authors:

阿库·罗赫 2021
彼得·普兰廷加 2021
洛伦·卢戈斯奇 2020
Mirco Ravanelli 2020
Titouan Parcollet 2021
阿卜杜勒·赫巴 2021
安德烈亚斯·诺茨 2022, 2023
Pooneh Mousavi 2023
Sylvain de Langen 2023
阿德尔·穆门 2023
普拉迪亚·坎达尔卡 2023

摘要

类：

SpeakerRecognition

一个即用型的说话人识别模型。

参考

class speechbrain.inference.speaker.SpeakerRecognition(*args, **kwargs)[source]

基础类: EncoderClassifier

一个现成的说话人识别模型。它可以用于通过verify_batch()执行说话人验证。

Parameters:

*args (元组)
**kwargs (dict) – 参数被转发到 Pretrained 父类。

Example

>>> import torchaudio
>>> from speechbrain.inference.speaker import SpeakerRecognition
>>> # Model is downloaded from the speechbrain HuggingFace repo
>>> tmpdir = getfixture("tmpdir")
>>> verification = SpeakerRecognition.from_hparams(
...     source="speechbrain/spkrec-ecapa-voxceleb",
...     savedir=tmpdir,
... )

>>> # Perform verification
>>> signal, fs = torchaudio.load("tests/samples/single-mic/example1.wav")
>>> signal2, fs = torchaudio.load("tests/samples/single-mic/example2.flac")
>>> score, prediction = verification.verify_batch(signal, signal2)

MODULES_NEEDED = ['compute_features', 'mean_var_norm', 'embedding_model', 'mean_var_norm_emb']

verify_batch(wavs1, wavs2, wav1_lens=None, wav2_lens=None, threshold=0.25)[source]

使用余弦距离执行说话人验证。

它返回分数和决策（0 表示不同的说话者，1 表示相同的说话者）。

Parameters:

wavs1 (Torch.Tensor) – 包含语音波形1的torch.Tensor（批次，时间）。确保采样率为fs=16000 Hz。
wavs2 (Torch.Tensor) – 包含语音波形2的torch.Tensor（批次，时间）。确保采样率为fs=16000 Hz。
wav1_lens (Torch.Tensor) – 包含每个句子相对长度的torch.Tensor 在长度中（例如，[0.8 0.6 1.0]）
wav2_lens (Torch.Tensor) – 包含每个句子相对长度的torch.Tensor 在长度中（例如，[0.8 0.6 1.0]）
threshold (Float) – 应用于余弦距离的阈值，用于决定说话者是不同（0）还是相同（1）。

Returns:

score – 与二进制验证输出相关的分数（余弦距离）。
prediction – 如果输入的两个信号来自同一个说话者，则预测为1，否则为0。

verify_files(path_x, path_y, **kwargs)[source]

使用余弦距离进行说话人验证

返回分数和决策（0 表示不同的说话者，1 表示相同的说话者）。

Parameters:

path_x (str) – 文件x的路径
path_y (str) – 文件 y 的路径
**kwargs (dict) – 传递给 load_audio 的参数

Returns:

score – 与二进制验证输出相关的分数（余弦距离）。
prediction – 如果输入的两个信号来自同一个说话者，则预测为1，否则为0。