speechbrain.inference.enhancement 模块

指定语音增强模块的推理接口。

Authors:
  • 阿库·罗赫 2021

  • 彼得·普兰廷加 2021

  • 洛伦·卢戈斯奇 2020

  • Mirco Ravanelli 2020

  • Titouan Parcollet 2021

  • 阿卜杜勒·赫巴 2021

  • 安德烈亚斯·诺茨 2022, 2023

  • Pooneh Mousavi 2023

  • Sylvain de Langen 2023

  • 阿德尔·穆门 2023

  • 普拉迪亚·坎达尔卡 2023

摘要

类:

SpectralMaskEnhancement

一个用于语音增强的即用型模型。

WaveformEnhancement

一个用于语音增强的即用型模型。

参考

class speechbrain.inference.enhancement.SpectralMaskEnhancement(modules=None, hparams=None, run_opts=None, freeze_params=True)[source]

基础类:Pretrained

一个即用型的语音增强模型。

Parameters:

预训练。 (参见)

Example

>>> import torch
>>> from speechbrain.inference.enhancement import SpectralMaskEnhancement
>>> # Model is downloaded from the speechbrain HuggingFace repo
>>> tmpdir = getfixture("tmpdir")
>>> enhancer = SpectralMaskEnhancement.from_hparams(
...     source="speechbrain/metricgan-plus-voicebank",
...     savedir=tmpdir,
... )
>>> enhanced = enhancer.enhance_file(
...     "speechbrain/metricgan-plus-voicebank/example.wav"
... )
HPARAMS_NEEDED = ['compute_stft', 'spectral_magnitude', 'resynth']
MODULES_NEEDED = ['enhance_model']
compute_features(wavs)[source]

计算用于掩蔽的对数频谱幅度特征。

Parameters:

wavs (torch.Tensor) – 一批要转换为对数频谱幅度的波形。

Returns:

feats – 对数频谱幅度特征。

Return type:

torch.Tensor

enhance_batch(noisy, lengths=None)[source]

增强一批噪声波形。

Parameters:
  • noisy (torch.Tensor) – 一批要进行增强的波形。

  • lengths (torch.Tensor) – 如果增强模型处理波形,则为波形的长度。

Returns:

wavs – 一批增强的波形,形状与输入相同。

Return type:

torch.Tensor

enhance_file(filename, output_filename=None, **kwargs)[source]

增强一个wav文件。

Parameters:
  • 文件名 (str) – 磁盘上用于加载文件以进行增强的位置。

  • output_filename (str) – 如果提供,将增强的数据写入此文件。

  • **kwargs (dict) – 传递给 load_audio 的参数。

Returns:

wav – 增强后的波形。

Return type:

torch.Tensor

class speechbrain.inference.enhancement.WaveformEnhancement(modules=None, hparams=None, run_opts=None, freeze_params=True)[source]

基础类:Pretrained

一个即用型的语音增强模型。

Parameters:

预训练。 (参见)

Example

>>> from speechbrain.inference.enhancement import WaveformEnhancement
>>> # Model is downloaded from the speechbrain HuggingFace repo
>>> tmpdir = getfixture("tmpdir")
>>> enhancer = WaveformEnhancement.from_hparams(
...     source="speechbrain/mtl-mimic-voicebank",
...     savedir=tmpdir,
... )
>>> enhanced = enhancer.enhance_file(
...     "speechbrain/mtl-mimic-voicebank/example.wav"
... )
MODULES_NEEDED = ['enhance_model']
enhance_batch(noisy, lengths=None)[source]

增强一批噪声波形。

Parameters:
  • noisy (torch.Tensor) – 一批要进行增强的波形。

  • lengths (torch.Tensor) – 如果增强模型处理波形,则为波形的长度。

Returns:

一批与输入形状相同的增强波形。

Return type:

torch.Tensor

enhance_file(filename, output_filename=None, **kwargs)[source]

增强一个wav文件。

Parameters:
  • filename (str) – 磁盘上用于加载文件以进行增强的位置。

  • output_filename (str) – 如果提供,将增强的数据写入此文件。

  • **kwargs (dict) – 参数转发到 load_audio

Returns:

enhanced – 增强后的波形。

Return type:

torch.Tensor

forward(noisy, lengths=None)[source]

对噪声输入进行增强