paddleaudio.compliance.kaldi 模块

paddleaudio.compliance.kaldi.fbank(waveform: Tensor, blackman_coeff: float = 0.42, channel: int = -1, dither: float = 0.0, energy_floor: float = 1.0, frame_length: float = 25.0, frame_shift: float = 10.0, high_freq: float = 0.0, htk_compat: bool = False, low_freq: float = 20.0, n_mels: int = 23, preemphasis_coefficient: float = 0.97, raw_energy: bool = True, remove_dc_offset: bool = True, round_to_power_of_two: bool = True, sr: int = 16000, snip_edges: bool = True, subtract_mean: bool = False, use_energy: bool = False, use_log_fbank: bool = True, use_power: bool = True, vtln_high: float = -500.0, vtln_low: float = 100.0, vtln_warp: float = 1.0, window_type: str = 'povey') → Tensor[来源]

计算并返回来自波形的滤波器组。输出与Kaldi的完全相同。

Args:

waveform (Tensor): 一个形状为 (C, T) 的波形张量。 C 的范围是 [0,1]。 blackman_coeff (float, optional): Blackman 窗口的系数。默认为 0.42。 channel (int, optional): 选择波形的通道。默认为 -1。 dither (float, optional): 抖动常数。默认为 0.0。 energy_floor (float, optional): 输出声谱图的能量下限。默认为 1.0。 frame_length (float, optional): 帧长（以毫秒为单位）。默认为 25.0。 frame_shift (float, optional): 相邻帧之间的移位（以毫秒为单位）。默认为 10.0。 high_freq (float, optional): 上截止频率。默认为 0.0。 htk_compat (bool, optional): 当设置为 True 时，将能量放到最后。默认为 False。 low_freq (float, optional): 下截止频率。默认为 20.0。 n_mels (int, optional): 输出梅尔频率数。默认为 23。 preemphasis_coefficient (float, optional): 输入波形的预强调系数。默认为 0.97。 raw_energy (bool, optional): 是否在预强调和窗口化之前进行计算。默认为 True。 remove_dc_offset (bool, optional): 是否从帧的波形中减去均值。默认为 True。 round_to_power_of_two (bool, optional): 如果为 True，则通过零填充输入将窗口大小舍入为2的幂

进行 FFT。默认值为 True。

sr (int, optional): 输入波形的采样率。默认为16000。
snip_edges (bool, optional): 当波形的最后部分不能适应一个完整帧时，丢弃最后的样本。

设置为 True。否则对波形的末尾进行反射填充。默认为 True。

subtract_mean (bool, optional): 是否从特征文件中减去均值。默认为 False. use_energy (bool, optional): 在输出中添加一个带有声谱图能量的维度。默认为 False. use_log_fbank (bool, optional): 当设置为 True 时返回对数 fbank。默认为 True. use_power (bool, optional): 是否使用功率而不是幅度。默认为 True. vtln_high (float, optional): 分段线性 VTLN 扭曲函数中的高拐点。默认为 -500.0. vtln_low (float, optional): 分段线性 VTLN 扭曲函数中的低拐点。默认为 100.0. vtln_warp (float, optional): Vtln 扭曲因子。默认为 1.0. window_type (str, optional): 选择 FFT 计算的窗口类型。默认为 "povey".

Returns:

张量：一个形状为 (m, n_mels) 的滤波器组张量。

paddleaudio.compliance.kaldi.mfcc(waveform: Tensor, blackman_coeff: float = 0.42, cepstral_lifter: float = 22.0, channel: int = -1, dither: float = 0.0, energy_floor: float = 1.0, frame_length: float = 25.0, frame_shift: float = 10.0, high_freq: float = 0.0, htk_compat: bool = False, low_freq: float = 20.0, n_mfcc: int = 13, n_mels: int = 23, preemphasis_coefficient: float = 0.97, raw_energy: bool = True, remove_dc_offset: bool = True, round_to_power_of_two: bool = True, sr: int = 16000, snip_edges: bool = True, subtract_mean: bool = False, use_energy: bool = False, vtln_high: float = -500.0, vtln_low: float = 100.0, vtln_warp: float = 1.0, window_type: str = 'povey') → Tensor[来源]

Compute and return mel frequency cepstral coefficients from a waveform. The output is

与 Kaldi 的相同。

Args:

waveform (Tensor): 一个形状为 (C, T) 的波形张量。
blackman_coeff (float, optional): Blackman窗口的系数。默认为0.42。
cepstral_lifter (float, optional): 输出mfcc的缩放。默认为22.0。
channel (int, optional): 选择波形的通道。默认为-1。
dither (float, optional): 抖动常数。默认为0.0。
energy_floor (float, optional): 输出谱图能量的下限。默认为1.0。
frame_length (float, optional): 帧长度（毫秒）。默认为25.0。
frame_shift (float, optional): 相邻帧之间的偏移（毫秒）。默认为10.0。
high_freq (float, optional): 上限频率。默认为0.0。
htk_compat (bool, optional): 如果设置为True，则将能量放到最后。默认为False。
low_freq (float, optional): 下限频率。默认为20.0。
n_mfcc (int, optional): MFCC中的倒谱数量。默认为13。
n_mels (int, optional): 输出的mel箱的数量。默认为23。
preemphasis_coefficient (float, optional): 输入波形的预强调系数。默认为0.97。
raw_energy (bool, optional): 是否在预强调和窗函数之前计算。默认为True。
remove_dc_offset (bool, optional): 是否在帧中从波形中减去平均值。默认为True。
round_to_power_of_two (bool, optional): 如果为True，窗口大小将通过零填充输入四舍五入到2的幂

到 FFT。默认为真。

sr (int, optional): 输入波形的采样率。默认为16000。
snip_edges (bool, optional): 删除在波形末尾不能适应单个帧的样本，当它

设置为 True。否则对波形的末尾进行反射填充。默认为 True。

subtract_mean (bool, optional): 是否减去特征文件的均值。默认为 False.
use_energy (bool, optional): 向输出添加一个带有声谱图能量的维度。默认为 False.
vtln_high (float, optional): 分段线性 VTLN 变化函数中的高拐点。默认为 -500.0.
vtln_low (float, optional): 分段线性 VTLN 变化函数中的低拐点。默认为 100.0.
vtln_warp (float, optional): Vtln 变化因子。默认为 1.0.
window_type (str, optional): 选择 FFT 计算的窗口类型。默认为 POVEY.

Returns:

张量：一个梅尔频率倒谱系数张量，形状为 (m, n_mfcc)。

paddleaudio.compliance.kaldi.spectrogram(waveform: Tensor, blackman_coeff: float = 0.42, channel: int = -1, dither: float = 0.0, energy_floor: float = 1.0, frame_length: float = 25.0, frame_shift: float = 10.0, preemphasis_coefficient: float = 0.97, raw_energy: bool = True, remove_dc_offset: bool = True, round_to_power_of_two: bool = True, sr: int = 16000, snip_edges: bool = True, subtract_mean: bool = False, window_type: str = 'povey') → Tensor[来源]

计算并返回波形的谱图。输出与Kaldi的完全相同。

Args:

waveform (Tensor): 一个形状为 (C, T) 的波形张量。
blackman_coeff (float, optional): Blackman 窗口的系数。默认为 0.42。
channel (int, optional): 选择波形的通道。默认为 -1。
dither (float, optional): 添加噪声的常数。默认为 0.0。
energy_floor (float, optional): 输出声谱图的能量下限。默认为 1.0。
frame_length (float, optional): 帧长度（以毫秒为单位）。默认为 25.0。
frame_shift (float, optional): 相邻帧之间的移动（以毫秒为单位）。默认为 10.0。
preemphasis_coefficient (float, optional): 输入波形的预加重系数。默认为 0.97。
raw_energy (bool, optional): 是否在预加重和窗函数处理之前计算。默认为 True。
remove_dc_offset (bool, optional): 是否从帧的波形中减去均值。默认为 True。
round_to_power_of_two (bool, optional): 如果为 True，则通过对输入进行零填充，将窗口大小四舍五入到2的幂

进行 FFT。默认值为 True。

sr (int, optional): 输入波形的采样率。默认为16000。snip_edges (bool, optional): 当波形的最后部分不能适应一个完整帧时，丢弃最后的样本。

设置为 True。否则对波形的末尾进行反射填充。默认为 True。

subtract_mean (bool, optional): 是否从特征文件中减去均值。默认为 False.
window_type (str, optional): 选择FFT计算的窗口类型。默认为 "povey"。

Returns:

Tensor: A spectrogram tensor with shape (m, padded_window_size // 2 + 1) where m is the number of frames: 依赖于 frame_length 和 frame_shift。