speechbrain.inference.interpretability 模块

指定可解释性模块的推理接口。

Authors:
  • 阿库·罗赫 2021

  • 彼得·普兰廷加 2021

  • 洛伦·卢戈斯奇 2020

  • Mirco Ravanelli 2020

  • Titouan Parcollet 2021

  • 阿卜杜勒·赫巴 2021

  • 安德烈亚斯·诺茨 2022, 2023

  • Pooneh Mousavi 2023

  • Sylvain de Langen 2023

  • 阿德尔·穆门 2023

  • 普拉迪亚·坎达尔卡 2023

摘要

类:

PIQAudioInterpreter

该类实现了音频分类器的PIQ事后解释器的接口。

参考

class speechbrain.inference.interpretability.PIQAudioInterpreter(*args, **kwargs)[source]

基础类:Pretrained

该类实现了音频分类器的PIQ事后解释器的接口。

Parameters:
  • *args (元组)

  • **kwargs (dict) – 参数被转发到 Pretrained 父类。

Example

>>> from speechbrain.inference.interpretability import PIQAudioInterpreter
>>> tmpdir = getfixture("tmpdir")
>>> interpreter = PIQAudioInterpreter.from_hparams(
...     source="speechbrain/PIQ-ESC50",
...     savedir=tmpdir,
... )
>>> signal = torch.randn(1, 16000)
>>> interpretation, _ = interpreter.interpret_batch(signal)
preprocess(wavs)[source]

预处理wav文件以计算STFT

classifier_forward(X_stft_logpower)[source]

分类器的前向传递

invert_stft_with_phase(X_int, X_stft_phase)[source]

根据相位反转STFT频谱。

interpret_batch(wavs)[source]

将给定的音频分类到给定的标签集中。 它还提供了音频领域的解释。

Parameters:

wavs (torch.Tensor) – 波形批次 [batch, time, channels] 或 [batch, time],具体取决于模型。请确保采样率为 fs=16000 Hz。

Returns:

  • x_int_sound_domain (torch.Tensor) – 波形域中的解释

  • text_lab (str) – 分类的文本标签

interpret_file(path, savedir=None)[source]

将给定的音频文件分类到给定的标签集中。 它还提供了音频领域的解释。

Parameters:
  • path (str) – 要分类的音频文件的路径。

  • savedir (str) – 缓存目录的路径。

Returns:

  • x_int_sound_domain (torch.Tensor) – 波形域中的解释

  • text_lab (str) – 分类的文本标签

  • fs_model (int) – 模型的采样频率。用于保存音频。

forward(wavs, wav_lens=None)[source]

运行分类