paddlespeech.t2s.datasets.get_feats 模块

class paddlespeech.t2s.datasets.get_feats.Energy(n_fft: int = 2048, hop_length: int = 300, win_length: Optional[int] = None, window: str = 'hann', center: bool = True, pad_mode: str = 'reflect')[来源]

基础： object

方法

获取能源

get_energy(wav: ndarray, use_token_averaged_energy: bool = True, duration: Optional[ndarray] = None)[来源]

class paddlespeech.t2s.datasets.get_feats.LinearSpectrogram(n_fft: int = 1024, win_length: Optional[int] = None, hop_length: int = 256, window: str = 'hann', center: bool = True)[来源]

基础： object

方法

获取线性频谱图

get_linear_spectrogram(wav: ndarray)[来源]

class paddlespeech.t2s.datasets.get_feats.LogMelFBank(sr: int = 24000, n_fft: int = 2048, hop_length: int = 300, win_length: Optional[int] = None, window: str = 'hann', n_mels: int = 80, fmin: int = 80, fmax: int = 7600, norm: Optional[Union[typing_extensions.Literal[slaney], float]] = 'slaney', htk: bool = False, power: float = 1.0)[来源]

基础： object

方法

获取日志梅尔滤波器银行

get_log_mel_fbank(wav, base='10')[来源]

class paddlespeech.t2s.datasets.get_feats.Pitch(sr: int = 24000, hop_length: int = 300, f0min: int = 80, f0max: int = 7600)[来源]

基础： object

方法

获取音高

get_pitch(wav: ndarray, use_continuous_f0: bool = True, use_log_f0: bool = True, use_token_averaged_f0: bool = True, duration: Optional[ndarray] = None)[来源]