ray.data.读取数据源#

ray.data.read_datasource(datasource: Datasource, *, parallelism: int = -1, ray_remote_args: Dict[str, Any] = None, concurrency: int | None = None, override_num_blocks: int | None = None, **read_args) Dataset[源代码]#

从自定义的 Datasource 读取流。

参数:
  • datasource – 用于读取数据的 Datasource

  • parallelism – 此参数已弃用。请使用 override_num_blocks 参数。

  • ray_remote_args – 传递给读取任务中 ray.remote() 的 kwargs。

  • concurrency – Ray 任务的最大并发运行数量。设置此项以控制并发运行的任务数量。这不会改变运行的总任务数或输出的总块数。默认情况下,并发性是根据可用资源动态决定的。

  • override_num_blocks – 覆盖所有读取任务的输出块数量。默认情况下,输出块的数量是根据输入数据大小和可用资源动态决定的。在大多数情况下,您不应手动设置此值。

  • read_args – 传递给 Datasource 实现的额外关键字参数。

返回:

DatasetDatasource 读取数据。