speechbrain.inference.ST 模块
指定语音翻译(ST)模块的推理接口。
- Authors:
阿库·罗赫 2021
彼得·普兰廷加 2021
洛伦·卢戈斯奇 2020
Mirco Ravanelli 2020
Titouan Parcollet 2021
阿卜杜勒·赫巴 2021
安德烈亚斯·诺茨 2022, 2023
Pooneh Mousavi 2023
Sylvain de Langen 2023
阿德尔·穆门 2023
普拉迪亚·坎达尔卡 2023
摘要
类:
一个现成的用于语音到单元翻译模型的编码器解码器 |
参考
- class speechbrain.inference.ST.EncoderDecoderS2UT(*args, **kwargs)[source]
基础类:
Pretrained一个即用型的编码器解码器,用于语音到单元翻译模型
该类可用于运行整个编码器-解码器 S2UT 模型(translate_file())来翻译语音。给定的 YAML 必须包含 *_NEEDED[] 列表中指定的字段。
Example
>>> from speechbrain.inference.ST import EncoderDecoderS2UT >>> tmpdir = getfixture("tmpdir") >>> s2ut_model = EncoderDecoderS2UT.from_hparams(source="speechbrain/s2st-transformer-fr-en-hubert-l6-k100-cvss", savedir=tmpdir) >>> s2ut_model.translate_file("speechbrain/s2st-transformer-fr-en-hubert-l6-k100-cvss/example-fr.wav")
- HPARAMS_NEEDED = ['sample_rate']
- MODULES_NEEDED = ['encoder', 'decoder']
- encode_batch(wavs, wav_lens)[source]
将输入音频编码为一系列隐藏状态
波形应该已经是模型所需的格式。 你可以调用:
normalized = EncoderDecoderS2UT.normalizer(signal, sample_rate)在大多数情况下获取正确转换的信号。- Parameters:
wavs (torch.tensor) – 波形批次 [批次, 时间, 通道]。
wav_lens (torch.tensor) – 波形相对于批次中最长波形的长度,形状为 [batch] 的张量。最长的波形应具有相对长度 1.0,其他波形的长度为 len(waveform) / max_length。用于忽略填充。
- Returns:
编码的批次
- Return type:
torch.tensor
- translate_batch(wavs, wav_lens)[source]
将输入的音频翻译成一系列单词
波形应该已经是模型所需的格式。 你可以调用:
normalized = EncoderDecoderS2UT.normalizer(signal, sample_rate)在大多数情况下获取正确转换的信号。- Parameters:
wavs (torch.tensor) – 波形批次 [batch, time, channels]。
wav_lens (torch.tensor) – 波形相对于批次中最长波形的长度,形状为 [batch] 的张量。最长的波形应具有相对长度 1.0,其他波形的长度为 len(waveform) / max_length。用于忽略填充。
- Returns:
list – 批次中每个翻译后的波形。
tensor – 每个预测的标记ID。