paddlespeech.vector.io.dataset 模块

class paddlespeech.vector.io.dataset.CSVDataset(csv_path, label2id_path=None, config=None, random_chunk=True, feat_type: str = 'raw', n_train_snts: int = -1, **kwargs)[来源]

基础： Dataset

方法

`convert_to_record`(idx)	将数据集样本转换为训练记录的CSV数据集
`load_data_csv`()	加载csv数据集内容并将其存储在数据属性中，csv数据集的格式有六个字段，即audio_id或utt_id、音频持续时间、片段起始点、片段终止点和发音标签。
`load_speaker_to_label`()	加载发言内容标签映射。

convert_to_record(idx: int)[来源]

将数据集样本转换为训练记录 CSV 数据集

Args:: idx (int) : 所有数据集中请求的索引

load_data_csv()[来源]

加载csv数据集的内容并将其存储在数据属性中 csv数据集的格式有六个字段，即audio_id或utt_id、音频时长、片段起始点、片段结束点和发声标签。注意在训练期间，发声标签必须映射到label2id_path中的整数id

Returns:: 列表：包含 meta_info 类型的 csv 数据

load_speaker_to_label()[来源]: 加载发话者标签映射内容。在向量领域，我们称发话者标签为说话者标签。说话者标签是真实的说话者标签，在说话者验证领域中，而在语言识别中则是语言标签。

class paddlespeech.vector.io.dataset.meta_info(utt_id: str, duration: float, wav: str, start: int, stop: int, label: str)[来源]

基础： object

向量 CSVDataset 中的音频元信息

Args:: utt_id (str): 话语片段名称
duration (float): 话语片段时间
wav (str): 话语文件路径
start (int): 原始 wav 文件中的起始点
stop (int): 原始 wav 文件中的终止点
lab_id (str): 话语片段的标签 id

duration: float

label: str

start: int

stop: int

utt_id: str

wav: str