paddlespeech.s2t.modules.ctc 模块

class paddlespeech.s2t.modules.ctc.CTCDecoder(*args, **kwargs)[来源]

基础: CTCDecoderBase

方法

__call__(*inputs, **kwargs)

将self作为一个函数调用。

add_parameter(name, parameter)

添加一个参数实例。

add_sublayer(name, sublayer)

添加一个子层实例。

apply(fn)

递归地将 fn 应用到每个子层(由 .sublayers() 返回)以及自身。

argmax(hs_pad)

帧激活的argmax 参数: paddle.Tensor hs_pad: 3维张量 (B, Tmax, eprojs) 返回: paddle.Tensor: 应用argmax的2维张量 (B, Tmax)

buffers([include_sublayers])

返回当前层及其子层中的所有缓冲区的列表。

children()

返回一个迭代器,遍历直接子层。

clear_gradients()

清除此层所有参数的梯度。

create_parameter(shape[, attr, dtype, ...])

为该层创建参数。

create_tensor([name, persistable, dtype])

为该层创建张量。

create_variable([name, persistable, dtype])

为该层创建张量。

decode()

获取解码结果 引发: 异常:当ctc解码器未初始化时 值错误:当解码方法不支持时。 返回: results_best (list(str)):一批数据的最佳结果 results_beam (list(list(str))):一批数据的束搜索结果。

decode_probs_offline(probs, logits_lens, ...)

此函数将在未来被弃用。使用 probs 进行 ctc 解码。参数: probs (Tensor):softmax 后的激活值 logits_lens (Tensor):音频输出长度 vocab_list (list):解码中词汇表中的符号列表 decoding_method (str):ctc_beam_search lang_model_path (str):语言模型路径 beam_alpha (float):beam_alpha beam_beta (float):beam_beta beam_size (int):beam_size cutoff_prob (float):束搜索中的截止概率 cutoff_top_n (int):cutoff_top_n num_processes (int):num_processes。

del_decoder()

删除解码器

eval()

将该层及其所有子层设置为评估模式。

extra_repr()

该层的额外表示,您可以自定义实现自己的层。

forced_align(ctc_probs, y[, blank_id])

CTC 强制对齐。参数: ctc_probs (paddle.Tensor): 隐藏状态序列,2D 张量 (T, D) y (paddle.Tensor): 标签 ID 序列张量,1D 张量 (L) blank_id (int): 空白符号索引 返回: paddle.Tensor: 最佳对齐结果,(T)。

forward(hs_pad, hlens, ys_pad, ys_lens)

计算CTC损失。

full_name()

此层的完整名称,由 name_scope + "/" + MyLayer.__class__.__name__ 组成

get_decoder(vocab_list, batch_size, ...)

初始化获取 ctc 解码器 参数: vocab_list (list): 解码时词汇表中的标记列表。 batch_size(int): 输入数据的批大小 beam_alpha (float): beam_alpha beam_beta (float): beam_beta beam_size (int): beam_size num_processes (int): num_processes cutoff_prob (float): beam search 中的截止概率 cutoff_top_n (int): cutoff_top_n。

init_decoder(batch_size, vocab_list, ...)

初始化 ctc 解码器 参数: batch_size(int):输入数据的批大小 vocab_list (list):用于解码的词汇表中的标记列表 decoding_method (str):ctc_beam_search lang_model_path (str):语言模型路径 beam_alpha (float):beam_alpha beam_beta (float):beam_beta beam_size (int):beam_size cutoff_prob (float):束搜索中的截止概率 cutoff_top_n (int):cutoff_top_n num_processes (int):num_processes

load_dict(state_dict[, use_structured_name])

从 state_dict 设置参数和可持久化缓存。

log_softmax(hs_pad[, temperature])

帧激活的log_softmax 参数: 张量 hs_pad: 3d 张量 (B, Tmax, eprojs) 返回: paddle.Tensor: 应用log softmax 的3d 张量 (B, Tmax, odim)

named_buffers([prefix, include_sublayers])

返回一个迭代器,遍历层中的所有缓冲区,生成名称和张量的元组。

named_children()

返回一个直接子层的迭代器,同时提供层的名称和层本身。

named_parameters([prefix, include_sublayers])

返回一个迭代器,遍历层中的所有参数,生成名称和参数的元组。

named_sublayers([prefix, include_self, ...])

返回Layer中所有子层的迭代器,生成名称和子层的元组。

next(probs, logits_lens)

将probs输入到ctc解码器 参数: probs (list(list(float))): 一批数据的probs logits_lens (list(int)): 一批数据的logits长度 引发: Exception: 当ctc解码器未初始化时 ValueError: 当解码方法不支持时。

parameters([include_sublayers])

返回当前层及其子层的所有参数的列表。

register_buffer(name, tensor[, persistable])

将一个张量注册为该层的缓冲区。

register_forward_post_hook(hook)

为层注册一个前向后钩子。

register_forward_pre_hook(hook)

为层注册一个前向预钩子。

set_dict(state_dict[, use_structured_name])

从 state_dict 设置参数和可持久化的缓冲区。

set_state_dict(state_dict[, use_structured_name])

从state_dict设置参数和持久化缓冲区。

softmax(eouts[, temperature])

获取CTC概率。 参数: eouts (FloatTensor): [B, T, enc_units] 返回: probs (FloatTensor): [B, T, odim]

state_dict([destination, include_sublayers, ...])

获取当前层及其子层的所有参数和可持久化缓冲区。

sublayers([include_self])

返回子层的列表。

to([device, dtype, blocking])

通过给定的设备、数据类型和阻塞方式转换层的参数和缓冲区。

to_static_state_dict([destination, ...])

获取当前层及其子层的所有参数和缓冲区。

train()

将此层及其所有子层设置为训练模式。

向后

注册状态字典钩子

重置解码器

decode()[来源]

获取解码结果 引发:

异常:当ctc解码器未初始化时
值错误:当解码方法不支持时。

Returns:

results_best (list(str)): 一批数据的最佳结果
results_beam (list(list(str))): 一批数据的束搜索结果

decode_probs_offline(probs, logits_lens, vocab_list, decoding_method, lang_model_path, beam_alpha, beam_beta, beam_size, cutoff_prob, cutoff_top_n, num_processes)[来源]

该函数将在未来被弃用。
ctc解码与概率。
参数:

probs (Tensor): softmax之后的激活值
logits_lens (Tensor): 音频输出长度
vocab_list (list): 词汇表中的标记列表,用于解码
decoding_method (str): ctc_beam_search
lang_model_path (str): 语言模型路径
beam_alpha (float): beam_alpha
beam_beta (float): beam_beta
beam_size (int): beam_size
cutoff_prob (float): 波束搜索中的截止概率
cutoff_top_n (int): cutoff_top_n
num_processes (int): num_processes

Raises:

值错误:当解码方法不被支持时。

Returns:

列表[str]: 成绩单。

del_decoder()[来源]

删除解码器

get_decoder(vocab_list, batch_size, beam_alpha, beam_beta, beam_size, num_processes, cutoff_prob, cutoff_top_n)[来源]

初始化获取 ctc 解码器 参数:

vocab_list (list): 词汇表中的标记列表,用于解码。
batch_size(int): 输入数据的批处理大小
beam_alpha (float): beam_alpha
beam_beta (float): beam_beta
beam_size (int): beam_size
num_processes (int): num_processes
cutoff_prob (float): 束搜索中的截止概率
cutoff_top_n (int): cutoff_top_n

Raises:

值错误:当解码方法不支持时。

Returns:

CTCBeamSearchDecoder

init_decoder(batch_size, vocab_list, decoding_method, lang_model_path, beam_alpha, beam_beta, beam_size, cutoff_prob, cutoff_top_n, num_processes)[来源]

初始化 CTC 解码器 参数:

batch_size(int): 输入数据的批量大小
vocab_list (list): 词汇表中的标记列表,用于解码
decoding_method (str): ctc_beam_search
lang_model_path (str): 语言模型路径
beam_alpha (float): beam_alpha
beam_beta (float): beam_beta
beam_size (int): beam_size
cutoff_prob (float): 在束搜索中的截止概率
cutoff_top_n (int): cutoff_top_n
num_processes (int): num_processes

Raises:

值错误:当解码方法不被支持时。

Returns:

CTCBeamSearchDecoder

next(probs, logits_lens)[来源]

将概率输入到ctc解码器
参数:

probs (list(list(float))): 一批数据的概率
logits_lens (list(int)): 一批数据的logits长度

Raises:

异常:当ctc解码器未初始化时值错误:当解码方法不支持时。

reset_decoder(batch_size=-1, beam_size=-1, num_processes=-1, cutoff_prob=-1.0, cutoff_top_n=-1)[来源]