ray.data.ReadTask#
- class ray.data.ReadTask(read_fn: Callable[[], Iterable[pyarrow.Table | pandas.DataFrame]], metadata: BlockMetadata)[源代码]#
基类:
Callable[[],Iterable[pyarrow.Table|pandas.DataFrame]]用于从
Dataset读取块的函数。读取任务由
get_read_tasks()生成,并在调用时返回一个ray.data.Block列表。在执行读取操作之前,可以通过metadata属性检索有关读取操作的初始元数据。读取完成后,将返回最终元数据以及块。Ray 将在远程函数中执行读取任务以并行化执行。请注意,返回的块数在运行时可能会有所不同。例如,如果一个任务正在读取一个单一的大文件,它可以返回多个块以避免在读取过程中内存耗尽。
初始元数据应反映由读取返回的所有块,例如,如果元数据显示
num_rows=1000,则读取可以返回一个包含1000行的单一块,或总共包含1000行的多个块。最终的元数据(随实际块返回)反映了块本身的精确内容。
开发者API: 此API可能会在Ray的次要版本之间发生变化。
方法
属性