ray.data.Dataset.write_datasink#
- Dataset.write_datasink(datasink: Datasink, *, ray_remote_args: Dict[str, Any] = None, concurrency: int | None = None) None[源代码]#
将数据集写入自定义的
Datasink。备注
此操作将触发对此数据集执行的延迟转换。
时间复杂度:O(数据集大小 / 并行度)
- 参数:
datasink – 要写入的
Datasink。ray_remote_args – 在写任务中传递给
ray.remote的 Kwargs。concurrency – Ray 任务的最大并发运行数量。设置此参数以控制并发运行的任务数量。这不会改变运行的任务总数。默认情况下,并发性是根据可用资源动态决定的。