speechbrain.inference.enhancement 模块

指定语音增强模块的推理接口。

Authors:

阿库·罗赫 2021
彼得·普兰廷加 2021
洛伦·卢戈斯奇 2020
Mirco Ravanelli 2020
Titouan Parcollet 2021
阿卜杜勒·赫巴 2021
安德烈亚斯·诺茨 2022, 2023
Pooneh Mousavi 2023
Sylvain de Langen 2023
阿德尔·穆门 2023
普拉迪亚·坎达尔卡 2023

摘要

类：

`SpectralMaskEnhancement`	一个用于语音增强的即用型模型。
`WaveformEnhancement`	一个用于语音增强的即用型模型。

参考

class speechbrain.inference.enhancement.SpectralMaskEnhancement(modules=None, hparams=None, run_opts=None, freeze_params=True)[source]

基础类：Pretrained

一个即用型的语音增强模型。

Parameters:: 预训练。 (参见)

Example

>>> import torch
>>> from speechbrain.inference.enhancement import SpectralMaskEnhancement
>>> # Model is downloaded from the speechbrain HuggingFace repo
>>> tmpdir = getfixture("tmpdir")
>>> enhancer = SpectralMaskEnhancement.from_hparams(
...     source="speechbrain/metricgan-plus-voicebank",
...     savedir=tmpdir,
... )
>>> enhanced = enhancer.enhance_file(
...     "speechbrain/metricgan-plus-voicebank/example.wav"
... )

HPARAMS_NEEDED = ['compute_stft', 'spectral_magnitude', 'resynth']

MODULES_NEEDED = ['enhance_model']

compute_features(wavs)[source]

计算用于掩蔽的对数频谱幅度特征。

Parameters:: wavs (torch.Tensor) – 一批要转换为对数频谱幅度的波形。
Returns:: feats – 对数频谱幅度特征。
Return type:: torch.Tensor

enhance_batch(noisy, lengths=None)[source]

增强一批噪声波形。

Parameters:

noisy (torch.Tensor) – 一批要进行增强的波形。
lengths (torch.Tensor) – 如果增强模型处理波形，则为波形的长度。

Returns:

wavs – 一批增强的波形，形状与输入相同。

Return type:

torch.Tensor

enhance_file(filename, output_filename=None, **kwargs)[source]

增强一个wav文件。

Parameters:

文件名 (str) – 磁盘上用于加载文件以进行增强的位置。
output_filename (str) – 如果提供，将增强的数据写入此文件。
**kwargs (dict) – 传递给 load_audio 的参数。

Returns:

wav – 增强后的波形。

Return type:

torch.Tensor

class speechbrain.inference.enhancement.WaveformEnhancement(modules=None, hparams=None, run_opts=None, freeze_params=True)[source]

基础类：Pretrained

一个即用型的语音增强模型。

Parameters:: 预训练。 (参见)

Example

>>> from speechbrain.inference.enhancement import WaveformEnhancement
>>> # Model is downloaded from the speechbrain HuggingFace repo
>>> tmpdir = getfixture("tmpdir")
>>> enhancer = WaveformEnhancement.from_hparams(
...     source="speechbrain/mtl-mimic-voicebank",
...     savedir=tmpdir,
... )
>>> enhanced = enhancer.enhance_file(
...     "speechbrain/mtl-mimic-voicebank/example.wav"
... )

MODULES_NEEDED = ['enhance_model']

enhance_batch(noisy, lengths=None)[source]

增强一批噪声波形。

Parameters:

noisy (torch.Tensor) – 一批要进行增强的波形。
lengths (torch.Tensor) – 如果增强模型处理波形，则为波形的长度。

Returns:

一批与输入形状相同的增强波形。

Return type:

torch.Tensor

enhance_file(filename, output_filename=None, **kwargs)[source]

增强一个wav文件。

Parameters:

filename (str) – 磁盘上用于加载文件以进行增强的位置。
output_filename (str) – 如果提供，将增强的数据写入此文件。
**kwargs (dict) – 参数转发到 load_audio

Returns:

enhanced – 增强后的波形。

Return type:

torch.Tensor

forward(noisy, lengths=None)[source]: 对噪声输入进行增强