ray.data.ReadTask#

class ray.data.ReadTask(read_fn: Callable[[], Iterable[pyarrow.Table | pandas.DataFrame]], metadata: BlockMetadata)[源代码]#

基类:Callable[[], Iterable[pyarrow.Table | pandas.DataFrame]]

用于从 Dataset 读取块的函数。

读取任务由 get_read_tasks() 生成,并在调用时返回一个 ray.data.Block 列表。在执行读取操作之前,可以通过 metadata 属性检索有关读取操作的初始元数据。读取完成后,将返回最终元数据以及块。

Ray 将在远程函数中执行读取任务以并行化执行。请注意,返回的块数在运行时可能会有所不同。例如,如果一个任务正在读取一个单一的大文件,它可以返回多个块以避免在读取过程中内存耗尽。

初始元数据应反映由读取返回的所有块,例如,如果元数据显示 num_rows=1000,则读取可以返回一个包含1000行的单一块,或总共包含1000行的多个块。

最终的元数据(随实际块返回)反映了块本身的精确内容。

开发者API: 此API可能会在Ray的次要版本之间发生变化。

方法

属性

metadata

read_fn