ray.data.datasource.PathPartitionFilter.of#
- static PathPartitionFilter.of(filter_fn: Callable[[Dict[str, str]], bool], style: PartitionStyle = PartitionStyle.HIVE, base_dir: str | None = None, field_names: List[str] | None = None, filesystem: pyarrow.fs.FileSystem | None = None) PathPartitionFilter[源代码]#
使用扁平化的参数列表创建一个基于路径的分区过滤器。
- 参数:
filter_fn – 用于过滤分区的回调函数。接受一个将分区键映射到值的字典作为输入。未分区的文件用空输入字典表示。返回
True以读取该分区的文件,或False以跳过它。分区键和值始终是从文件系统路径读取的字符串。例如,这将移除所有未分区的文件: .. code:: pythonstyle – 分区样式 - 可以是 HIVE 或 DIRECTORY。
base_dir – “/”-分隔的基础目录,用于开始搜索分区(不包括)。此目录之外的文件路径将被视为未分区。指定
None或空字符串以在所有文件路径目录中搜索分区。field_names – 分区键名称。DIRECTORY 分区时必需,HIVE 分区时可选。当非空时,分区键字段名称的顺序和长度必须与发现的分区目录的顺序和长度匹配。分区键字段名称不需要存在于数据集模式中。
filesystem – 将用于分区路径文件I/O的文件系统。
- 返回:
基于路径的新分区过滤器。