paddleaudio.functional.functional模块
- paddleaudio.functional.functional.compute_fbank_matrix(sr: int, n_fft: int, n_mels: int = 64, f_min: float = 0.0, f_max: Optional[float] = None, htk: bool = False, norm: Union[str, float] = 'slaney', dtype: str = 'float32') Tensor[来源]
计算 fbank 矩阵。
- Args:
sr (int): 采样率。
n_fft (int): FFT 频率 bin 的数量。
n_mels (int, optional): Mel bin 的数量。默认为 64。
f_min (float, optional): 最小频率(Hz)。默认为 0.0。
f_max (Optional[float], optional): 最大频率(Hz)。默认为 None。
htk (bool, optional): 使用 htk 缩放。默认为 False。
norm (Union[str, float], optional): 归一化的类型。默认为 'slaney'。
dtype (str, optional): 返回矩阵的数据类型。默认为 'float32'。- Returns:
张量:梅尔变换矩阵,形状为(n_mels, n_fft//2 + 1)。
- paddleaudio.functional.functional.create_dct(n_mfcc: int, n_mels: int, norm: Optional[str] = 'ortho', dtype: str = 'float32') Tensor[来源]
创建一个离散余弦变换(DCT) 矩阵。
- Args:
n_mfcc (int): 梅尔频率倒谱系数的数量。 n_mels (int): 梅尔滤波器组的数量。 norm (Optional[str], optional): 归一化类型. 默认值为 'ortho'。 dtype (str, optional): 返回矩阵的数据类型. 默认值为 'float32'。
- Returns:
张量:形状为 (n_mels, n_mfcc) 的 DCT 矩阵。
- paddleaudio.functional.functional.fft_frequencies(sr: int, n_fft: int, dtype: str = 'float32') Tensor[来源]
计算傅里叶频率。
- Args:
sr (int): 采样率。
n_fft (int): fft bins 的数量。
dtype (str, optional): 返回频率的数据类型。默认为 'float32'。- Returns:
张量:以Hz为单位的FFT频率,形状为(n_fft//2 + 1,)。
- paddleaudio.functional.functional.hz_to_mel(freq: Union[Tensor, float], htk: bool = False) Union[Tensor, float][来源]
将赫兹转换为梅尔。
- Args:
freq (Union[Tensor, float]): 输入的张量,可以是任意形状。
htk (bool, optional): 使用htk缩放。默认为False。- Returns:
Union[Tensor, float]: 以梅尔为单位的频率。
- paddleaudio.functional.functional.mel_frequencies(n_mels: int = 64, f_min: float = 0.0, f_max: float = 11025.0, htk: bool = False, dtype: str = 'float32') Tensor[来源]
计算梅尔频率。
- Args:
n_mels (int, optional): mel频率的数量。默认为64。 f_min (float, optional): 最小频率(Hz)。默认为0.0。 fmax (float, optional): 最大频率(Hz)。默认为11025.0。 htk (bool, optional): 使用htk缩放。默认为False。 dtype (str, optional): 返回频率的数据类型。默认为'float32'。
- Returns:
张量:形状为 (n_mels,) 的以Hz为单位的n_mels频率的张量。
- paddleaudio.functional.functional.mel_to_hz(mel: Union[float, Tensor], htk: bool = False) Union[float, Tensor][来源]
将mel频率转换为频率。
- Args:
mel (Union[float, Tensor]): 表示为任意形状的张量的梅尔频率。
htk (bool, optional): 使用htk缩放。默认为False。- Returns:
联合[浮点数, 张量]: 频率(单位:赫兹)。
- paddleaudio.functional.functional.power_to_db(spect: Tensor, ref_value: float = 1.0, amin: float = 1e-10, top_db: Optional[float] = None) Tensor[来源]
将功率谱图(幅度的平方)转换为分贝(dB)单位。该函数以数值稳定的方式计算缩放 10 * log10(x / ref)。
- Args:
spect (Tensor): STFT 功率谱图。
ref_value (float, optional): 参考值。如果小于 1.0,信号的分贝水平将相应地提高。否则,分贝水平将降低。默认为 1.0。
amin (float, optional): 最小阈值。默认为 1e-10。
top_db (Optional[float], optional): 在峰值以下的 top_db 对输出进行阈值处理。默认为 None。- Returns:
张量:以分贝尺度表示的功率谱图。