paddlespeech.s2t.decoders.ctcdecoder.swig_wrapper 模块

SWIG中各种CTC解码器的包装器。

class paddlespeech.s2t.decoders.ctcdecoder.swig_wrapper.CTCBeamSearchDecoder(vocab_list, batch_size, beam_size, num_processes, cutoff_prob, cutoff_top_n, _ext_scorer, blank_id)[来源]

基础: CtcBeamSearchDecoderBatch

CtcBeamSearchDecoderBatch的封装。
参数:

vocab_list (list): 词汇表。

beam_size (int): 用于束搜索的宽度。

num_processes (int): 并行进程的数量。

param cutoff_prob (float): 词汇修剪中的截止概率,

默认 1.0,未修剪。

cutoff_top_n (int): Cutoff number in pruning, only top cutoff_top_n

词汇中概率最高的字符将用于束搜索,默认值为40。

param ext_scorer (Scorer): External scorer for partially decoded sentence, e.g. word count

或语言模型。

Attributes:
thisown

会员标志

方法

解码

下一个

重置状态

class paddlespeech.s2t.decoders.ctcdecoder.swig_wrapper.Scorer(alpha, beta, model_path, vocabulary)[来源]

基础: Scorer

评分器的包装器。

Parameters:
  • alpha (float) -- 与语言模型相关的参数。当 alpha = 0 时,请不要使用语言模型。

  • beta (float) -- 与字数相关的参数。当 beta = 0 时请不要使用字数。

  • 词汇 (列表) -- 词汇表。

Model_path:

加载语言模型的路径。

Attributes:
alpha
beta
dictionary
thisown

会员标志

方法

获取字典大小

获取日志条件概率

获取最大订单

获取发送日志概率

是否基于字符

生成 n-gram

重置参数

分割标签

paddlespeech.s2t.decoders.ctcdecoder.swig_wrapper.ctc_beam_search_decoding(probs_seq, vocabulary, beam_size, cutoff_prob=1.0, cutoff_top_n=40, ext_scoring_func=None, blank_id=0)[来源]

CTC束搜索解码函数的封装。

Parameters:
  • probs_seq (二维列表) -- 每个时间步骤的概率分布的二维列表,每个元素是一个关于词汇和空白的归一化概率的列表。

  • 词汇 (列表) -- 词汇表。

  • beam_size (int) -- 搜索波束的宽度。

  • cutoff_prob (float) -- 剪枝中的截止概率,默认值为 1.0,表示不进行剪枝。

  • cutoff_top_n (int) -- 剪枝中的截止数,仅使用词汇中概率最高的前 cutoff_top_n 个字符进行束搜索,默认为 40。

  • ext_scoring_func -- 外部评分函数,用于部分解码的句子,例如单词计数或语言模型。

Returns:

解码结果的对数概率和句子元组列表,以概率降序排列。

Return type:

列表

paddlespeech.s2t.decoders.ctcdecoder.swig_wrapper.ctc_beam_search_decoding_batch(probs_split, vocabulary, beam_size, num_processes, cutoff_prob=1.0, cutoff_top_n=40, ext_scoring_func=None, blank_id=0)[来源]

批处理CTC束搜索解码批函数的包装器。

Parameters:
  • probs_seq (3-D 列表) -- 3-D 列表,每个元素都是一个 2-D 概率列表的实例,由 ctc_beam_search_decoder() 使用。

  • 词汇 (列表) -- 词汇表。

  • beam_size (int) -- 搜索波束的宽度。

  • num_processes (int) -- 并行进程的数量。

  • cutoff_prob (浮点数) -- 词汇修剪中的截止概率,默认值为 1.0,不进行修剪。

  • cutoff_top_n (int) -- 修剪中的截止数,只有词汇中概率最高的前 cutoff_top_n 个字符将用于束搜索,默认值为 40。

  • num_processes -- 并行进程的数量。

  • ext_scoring_func -- 外部评分函数,用于部分解码的句子,例如单词计数或语言模型。

Returns:

解码结果的对数概率和句子元组列表,以概率降序排列。

Return type:

列表

paddlespeech.s2t.decoders.ctcdecoder.swig_wrapper.ctc_greedy_decoding(probs_seq, vocabulary, blank_id)[来源]

在swig中用于ctc最佳路径解码函数的包装器。

Parameters:
  • probs_seq (二维列表) -- 每个时间步骤的概率分布的二维列表,每个元素是一个关于词汇和空白的归一化概率的列表。

  • 词汇 (列表) -- 词汇表。

Returns:

解码结果字符串。

Return type:

str