speechbrain.inference.interpretability 模块

指定可解释性模块的推理接口。

Authors:

阿库·罗赫 2021
彼得·普兰廷加 2021
洛伦·卢戈斯奇 2020
Mirco Ravanelli 2020
Titouan Parcollet 2021
阿卜杜勒·赫巴 2021
安德烈亚斯·诺茨 2022, 2023
Pooneh Mousavi 2023
Sylvain de Langen 2023
阿德尔·穆门 2023
普拉迪亚·坎达尔卡 2023

摘要

类：

PIQAudioInterpreter

该类实现了音频分类器的PIQ事后解释器的接口。

参考

class speechbrain.inference.interpretability.PIQAudioInterpreter(*args, **kwargs)[source]

基础类：Pretrained

该类实现了音频分类器的PIQ事后解释器的接口。

Parameters:

*args (元组)
**kwargs (dict) – 参数被转发到 Pretrained 父类。

Example

>>> from speechbrain.inference.interpretability import PIQAudioInterpreter
>>> tmpdir = getfixture("tmpdir")
>>> interpreter = PIQAudioInterpreter.from_hparams(
...     source="speechbrain/PIQ-ESC50",
...     savedir=tmpdir,
... )
>>> signal = torch.randn(1, 16000)
>>> interpretation, _ = interpreter.interpret_batch(signal)

preprocess(wavs)[source]: 预处理wav文件以计算STFT

classifier_forward(X_stft_logpower)[source]: 分类器的前向传递

invert_stft_with_phase(X_int, X_stft_phase)[source]: 根据相位反转STFT频谱。

interpret_batch(wavs)[source]

将给定的音频分类到给定的标签集中。它还提供了音频领域的解释。

Parameters:

wavs (torch.Tensor) – 波形批次 [batch, time, channels] 或 [batch, time]，具体取决于模型。请确保采样率为 fs=16000 Hz。

Returns:

x_int_sound_domain (torch.Tensor) – 波形域中的解释
text_lab (str) – 分类的文本标签

interpret_file(path, savedir=None)[source]

将给定的音频文件分类到给定的标签集中。它还提供了音频领域的解释。

Parameters:

path (str) – 要分类的音频文件的路径。
savedir (str) – 缓存目录的路径。

Returns:

x_int_sound_domain (torch.Tensor) – 波形域中的解释
text_lab (str) – 分类的文本标签
fs_model (int) – 模型的采样频率。用于保存音频。

forward(wavs, wav_lens=None)[source]: 运行分类