ray.data.Dataset.to_pandas_refs#
- Dataset.to_pandas_refs() List[ObjectRef[pandas.DataFrame]][源代码]#
将此
Dataset转换为分布式的 Pandas 数据框集合。为该数据集中的每个块创建一个 DataFrame。
此函数会生成数据的副本。对于底层数据的零拷贝访问,请考虑使用
Dataset.to_arrow_refs()或Dataset.iter_internal_ref_bundles()。示例
>>> import ray >>> ds = ray.data.range(10, override_num_blocks=2) >>> refs = ds.to_pandas_refs() >>> len(refs) 2
备注
此操作将触发对此数据集执行的延迟转换。
时间复杂度:O(数据集大小 / 并行度)
- 返回:
从此数据集创建的远程 pandas DataFrame 列表。
开发者API: 此API可能会在Ray的次要版本之间发生变化。