speechbrain.inference.ST 模块

指定语音翻译(ST)模块的推理接口。

Authors:
  • 阿库·罗赫 2021

  • 彼得·普兰廷加 2021

  • 洛伦·卢戈斯奇 2020

  • Mirco Ravanelli 2020

  • Titouan Parcollet 2021

  • 阿卜杜勒·赫巴 2021

  • 安德烈亚斯·诺茨 2022, 2023

  • Pooneh Mousavi 2023

  • Sylvain de Langen 2023

  • 阿德尔·穆门 2023

  • 普拉迪亚·坎达尔卡 2023

摘要

类:

EncoderDecoderS2UT

一个现成的用于语音到单元翻译模型的编码器解码器

参考

class speechbrain.inference.ST.EncoderDecoderS2UT(*args, **kwargs)[source]

基础类:Pretrained

一个即用型的编码器解码器,用于语音到单元翻译模型

该类可用于运行整个编码器-解码器 S2UT 模型(translate_file())来翻译语音。给定的 YAML 必须包含 *_NEEDED[] 列表中指定的字段。

Parameters:
  • *args (元组)

  • **kwargs (dict) – 参数被转发到 Pretrained 父类。

Example

>>> from speechbrain.inference.ST import EncoderDecoderS2UT
>>> tmpdir = getfixture("tmpdir")
>>> s2ut_model = EncoderDecoderS2UT.from_hparams(source="speechbrain/s2st-transformer-fr-en-hubert-l6-k100-cvss", savedir=tmpdir) 
>>> s2ut_model.translate_file("speechbrain/s2st-transformer-fr-en-hubert-l6-k100-cvss/example-fr.wav") 
HPARAMS_NEEDED = ['sample_rate']
MODULES_NEEDED = ['encoder', 'decoder']
translate_file(path)[source]

将给定的音频文件翻译成一系列语音单元。

Parameters:

path (str) – 要翻译的音频文件的路径。

Returns:

由这个语音到单元翻译模型生成的音频文件翻译。

Return type:

int[]

encode_batch(wavs, wav_lens)[source]

将输入音频编码为一系列隐藏状态

波形应该已经是模型所需的格式。 你可以调用: normalized = EncoderDecoderS2UT.normalizer(signal, sample_rate) 在大多数情况下获取正确转换的信号。

Parameters:
  • wavs (torch.tensor) – 波形批次 [批次, 时间, 通道]。

  • wav_lens (torch.tensor) – 波形相对于批次中最长波形的长度,形状为 [batch] 的张量。最长的波形应具有相对长度 1.0,其他波形的长度为 len(waveform) / max_length。用于忽略填充。

Returns:

编码的批次

Return type:

torch.tensor

translate_batch(wavs, wav_lens)[source]

将输入的音频翻译成一系列单词

波形应该已经是模型所需的格式。 你可以调用: normalized = EncoderDecoderS2UT.normalizer(signal, sample_rate) 在大多数情况下获取正确转换的信号。

Parameters:
  • wavs (torch.tensor) – 波形批次 [batch, time, channels]。

  • wav_lens (torch.tensor) – 波形相对于批次中最长波形的长度,形状为 [batch] 的张量。最长的波形应具有相对长度 1.0,其他波形的长度为 len(waveform) / max_length。用于忽略填充。

Returns:

  • list – 批次中每个翻译后的波形。

  • tensor – 每个预测的标记ID。

forward(wavs, wav_lens)[source]

运行完整翻译