speechbrain.inference.ST 模块

指定语音翻译（ST）模块的推理接口。

Authors:

阿库·罗赫 2021
彼得·普兰廷加 2021
洛伦·卢戈斯奇 2020
Mirco Ravanelli 2020
Titouan Parcollet 2021
阿卜杜勒·赫巴 2021
安德烈亚斯·诺茨 2022, 2023
Pooneh Mousavi 2023
Sylvain de Langen 2023
阿德尔·穆门 2023
普拉迪亚·坎达尔卡 2023

摘要

类：

EncoderDecoderS2UT

一个现成的用于语音到单元翻译模型的编码器解码器

参考

class speechbrain.inference.ST.EncoderDecoderS2UT(*args, **kwargs)[source]

基础类：Pretrained

一个即用型的编码器解码器，用于语音到单元翻译模型

该类可用于运行整个编码器-解码器 S2UT 模型（translate_file()）来翻译语音。给定的 YAML 必须包含 *_NEEDED[] 列表中指定的字段。

Parameters:

*args (元组)
**kwargs (dict) – 参数被转发到 Pretrained 父类。

Example

>>> from speechbrain.inference.ST import EncoderDecoderS2UT
>>> tmpdir = getfixture("tmpdir")
>>> s2ut_model = EncoderDecoderS2UT.from_hparams(source="speechbrain/s2st-transformer-fr-en-hubert-l6-k100-cvss", savedir=tmpdir) 
>>> s2ut_model.translate_file("speechbrain/s2st-transformer-fr-en-hubert-l6-k100-cvss/example-fr.wav") 

HPARAMS_NEEDED = ['sample_rate']

MODULES_NEEDED = ['encoder', 'decoder']

translate_file(path)[source]

将给定的音频文件翻译成一系列语音单元。

Parameters:: path (str) – 要翻译的音频文件的路径。
Returns:: 由这个语音到单元翻译模型生成的音频文件翻译。
Return type:: int[]

encode_batch(wavs, wav_lens)[source]

将输入音频编码为一系列隐藏状态

波形应该已经是模型所需的格式。你可以调用： normalized = EncoderDecoderS2UT.normalizer(signal, sample_rate) 在大多数情况下获取正确转换的信号。

Parameters:

wavs (torch.tensor) – 波形批次 [批次, 时间, 通道]。
wav_lens (torch.tensor) – 波形相对于批次中最长波形的长度，形状为 [batch] 的张量。最长的波形应具有相对长度 1.0，其他波形的长度为 len(waveform) / max_length。用于忽略填充。

Returns:

编码的批次

Return type:

torch.tensor

translate_batch(wavs, wav_lens)[source]

将输入的音频翻译成一系列单词

波形应该已经是模型所需的格式。你可以调用： normalized = EncoderDecoderS2UT.normalizer(signal, sample_rate) 在大多数情况下获取正确转换的信号。

Parameters:

wavs (torch.tensor) – 波形批次 [batch, time, channels]。
wav_lens (torch.tensor) – 波形相对于批次中最长波形的长度，形状为 [batch] 的张量。最长的波形应具有相对长度 1.0，其他波形的长度为 len(waveform) / max_length。用于忽略填充。

Returns:

list – 批次中每个翻译后的波形。
tensor – 每个预测的标记ID。

forward(wavs, wav_lens)[source]: 运行完整翻译