paddlespeech.vector.io.dataset 模块

class paddlespeech.vector.io.dataset.CSVDataset(csv_path, label2id_path=None, config=None, random_chunk=True, feat_type: str = 'raw', n_train_snts: int = -1, **kwargs)[来源]

基础: Dataset

方法

convert_to_record(idx)

将数据集样本转换为训练记录的CSV数据集

load_data_csv()

加载csv数据集内容并将其存储在数据属性中,csv数据集的格式有六个字段,即audio_id或utt_id、音频持续时间、片段起始点、片段终止点和发音标签。

load_speaker_to_label()

加载发言内容标签映射。

convert_to_record(idx: int)[来源]

将数据集样本转换为训练记录 CSV 数据集

Args:

idx (int) : 所有数据集中请求的索引

load_data_csv()[来源]

加载csv数据集的内容并将其存储在数据属性中 csv数据集的格式有六个字段, 即audio_id或utt_id、音频时长、片段起始点、片段结束点 和发声标签。 注意在训练期间,发声标签必须映射到label2id_path中的整数id

Returns:

列表:包含 meta_info 类型的 csv 数据

load_speaker_to_label()[来源]

加载发话者标签映射内容。 在向量领域,我们称发话者标签为说话者标签。 说话者标签是真实的说话者标签,在说话者验证领域中, 而在语言识别中则是语言标签。

class paddlespeech.vector.io.dataset.meta_info(utt_id: str, duration: float, wav: str, start: int, stop: int, label: str)[来源]

基础: object

向量 CSVDataset 中的音频元信息

Args:

utt_id (str): 话语片段名称
duration (float): 话语片段时间
wav (str): 话语文件路径
start (int): 原始 wav 文件中的起始点
stop (int): 原始 wav 文件中的终止点
lab_id (str): 话语片段的标签 id

duration: float
label: str
start: int
stop: int
utt_id: str
wav: str