speechbrain.dataio.legacy 模块
SpeechBrain 扩展 CSV 兼容性。
摘要
类:
传统的扩展CSV数据项三元组 |
|
为DynamicItemDataset提供扩展的CSV兼容性。 |
函数:
加载SB扩展CSV并格式化字符串值。 |
|
此函数读取以pkl格式存储的张量。 |
参考
- class speechbrain.dataio.legacy.CSVItem(data, format, opts)
基础:
tuple传统的扩展CSV数据项三元组
- data
字段编号 0 的别名
- format
字段编号1的别名
- opts
字段编号2的别名
- class speechbrain.dataio.legacy.ExtendedCSVDataset(csvpath, replacements={}, sorting='original', min_duration=0, max_duration=36000, dynamic_items=[], output_keys=[])[source]
基础类:
DynamicItemDatasetDynamicItemDataset 的扩展 CSV 兼容性。
使用SpeechBrain扩展的CSV数据格式,其中CSV必须包含‘ID’和‘duration’字段。
其余字段以三元组形式出现:
, _format, _opts 这些在字典中添加了一个
_sb_data项。此外,还创建了一个基本的DynamicItem(参见DynamicItemDataset),它加载_sb_data项。 支持使用$to_replace进行类似Bash的字符串替换。
注意
从旧版接口映射:
csv文件 -> csv路径
sentence_sorting -> sorting, 并且不支持“random”,请使用例如
make_dataloader(..., shuffle = (sorting=="random"))avoid_if_shorter_than -> min_duration
avoid_if_longer_than -> max_duration
csv_read -> output_keys,如果你想添加ID,请将“id”作为键
- Parameters:
csvpath (str, path) – 扩展CSV的路径。
replacements (dict) – 用于类似Bash的$前缀替换, 例如
{"data_folder": "/home/speechbrain/data"},这将 把$data_folder/utt1.wav转换为/home/speechbrain/data/utt1.wav排序 ({"original", "ascending", "descending"}) – 保持CSV顺序,或按持续时间升序或降序排序。
dynamic_items (list) –
获取示例时生成的额外动态项的配置。DynamicItems 列表或带有键的字典:
func: <callable> # 待调用 takes: <list> # 此函数接受的参数键或键列表 provides: key # 此函数提供的键或键列表
注意:每个 CSV 数据三元组都会自动添加一个动态项
output_keys (list, None) – 要生成的输出键列表。您可以参考CSV数据三元组的名称。例如,如果CSV包含:wav,wav_format,wav_opts,那么数据集将有一个动态项输出,键为
"wav"。注意:如果为None,则读取所有现有的。
- speechbrain.dataio.legacy.load_sb_extended_csv(csv_path, replacements={})[source]
加载SB扩展CSV并格式化字符串值。
使用SpeechBrain扩展的CSV数据格式,其中CSV必须包含‘ID’和‘duration’字段。
其余字段以三元组形式出现:
。, _format, _opts 这些在字典中添加了一个
_sb_data项。此外,还创建了一个基本的DynamicItem(参见DynamicItemDataset),它加载了_sb_data项。 支持使用$to_replace进行类似Bash的字符串替换。
这种格式有其限制,但它们允许某些任务通过CSV指定加载。