paddlespeech.s2t.models.asr_interface 模块

ASR接口模块。

class paddlespeech.s2t.models.asr_interface.ASRInterface[来源]

基础: object

ASR接口模型实现。

Attributes:
attention_plot_class

获取注意力图类。

ctc_plot_class

获取CTC绘图类。

方法

add_arguments(parser)

添加参数到解析器。

build(idim, odim, **kwargs)

使用 Python 级别的参数初始化此类。

calculate_all_attentions(xs, ilens, ys)

计算注意力。

calculate_all_ctc_probs(xs, ilens, ys)

计算CTC概率。

encode(feat)

beam_search中编码特征(可选)。

forward(xs, ilens, ys, olens)

计算训练的损失。

get_total_subsampling_factor()

获取总子采样因子。

recognize(x, recog_args[, char_list, rnnlm])

对x进行评估识别。

recognize_batch(x, recog_args[, char_list, ...])

批量的束搜索实现。

scorers()

获取beam_search的得分者(可选)。

static add_arguments(parser)[来源]

向解析器添加参数。

property attention_plot_class

获取注意力图类。

classmethod build(idim: int, odim: int, **kwargs)[来源]

用python级别的参数初始化此类。

Args:

idim (int):输入特征维度的数量。
odim (int):输出词汇的数量。

Returns:

ASRinterface:ASRInterface的新实例。

calculate_all_attentions(xs, ilens, ys)[来源]

计算注意力。

Parameters:
  • xs (list) -- 填充输入序列的列表 [(T1, idim), (T2, idim), ...]

  • ilens (ndarray) -- 输入序列的长度批次 (B)

  • ys (list) -- 字符 ID 序列张量的列表 [(L1), (L2), (L3), ...]

Returns:

注意权重 (B, Lmax, Tmax)

Return type:

浮动 ndarray

calculate_all_ctc_probs(xs, ilens, ys)[来源]

计算CTC概率。

Parameters:
  • xs_pad (list) -- 填充输入序列的列表 [(T1, idim), (T2, idim), ...]

  • ilens (ndarray) -- 输入序列长度的批次 (B)

  • ys (list) -- 字符 id 序列张量的列表 [(L1), (L2), (L3), ...]

Returns:

CTC 概率 (B, Tmax, vocab)

Return type:

浮点 ndarray

property ctc_plot_class

获取CTC绘图类。

encode(feat)[来源]

beam_search 中编码特征(可选)。

Args:

x (numpy.ndarray): 输入特征 (T, D)

Returns:

paddle.Tensor: 编码特征 (T, D)

forward(xs, ilens, ys, olens)[来源]

计算训练的损失。

Parameters:
  • xs -- 填充源序列的批次 paddle.Tensor (B, Tmax, idim)

  • ilens -- 源序列的长度批次 (B),paddle.Tensor

  • ys -- 补齐目标序列的批次 paddle.Tensor (B, Lmax)

  • olens -- 目标序列的长度批次 (B),paddle.Tensor

Returns:

损失值

Return type:

paddle.Tensor

get_total_subsampling_factor()[来源]

获取总的下采样因子。

recognize(x, recog_args, char_list=None, rnnlm=None)[来源]

识别x以进行评估。

Parameters:
  • x (ndarray) -- 输入声学特征 (B, T, D) 或 (T, D)

  • recog_args (namespace) -- 参数命名空间包含选项

  • char_list (list) -- 字符列表

  • rnnlm (paddle.nn.Layer) -- 语言模型模块

Returns:

N-best 解码结果

Return type:

列表

recognize_batch(x, recog_args, char_list=None, rnnlm=None)[来源]

批量的光束搜索实现。

Parameters:
  • x (paddle.Tensor) -- 编码器隐藏状态序列 (B, Tmax, Henc)

  • recog_args (namespace) -- 参数命名空间,包含选项

  • char_list (list) -- 字符列表

  • rnnlm (paddle.nn.Module) -- 语言模型模块

Returns:

N-best 解码结果

Return type:

列表

scorers()[来源]

获取 beam_search 的得分者(可选)。

Returns:

dict[str, ScorerInterface]: ScorerInterface 对象的字典

paddlespeech.s2t.models.asr_interface.dynamic_import_asr(module)[来源]

动态导入ASR模型。

Args:

模块 (str): asr 名称。例如:transformer, conformer

Returns:

类型:ASR 类