Register for Ray Summit 2024 with keynotes from Mira Murati, Marc Andreessen, and Anastasis Germanidis.

Ray 数据概述#

Ray Data 是一个适用于 ML 工作负载的可扩展数据处理库，特别适合以下工作负载：

离线批量推理
机器学习训练的数据预处理和摄取

它为分布式数据处理提供了灵活且高效的API。更多详情，请参见转换数据。

Ray Data 构建在 Ray 之上，因此它可以有效地扩展到大型集群，并提供对 CPU 和 GPU 资源的调度支持。Ray Data 使用流式执行来高效处理大型数据集。

为什么选择 Ray Data？#

离线批量推理#

离线批量推理是在一组固定的输入数据上生成模型预测的过程。Ray Data 提供了一种高效且可扩展的批量推理解决方案，为深度学习应用提供了更快的执行速度和成本效益。有关如何使用 Ray Data 进行离线批量推理的更多详细信息，请参阅批量推理用户指南。

../_images/stream-example.png

Ray Data 与其他离线推理解决方案相比如何？#

批量推理案例研究#

字节跳动使用 Ray Data 将多模态大语言模型的离线推理扩展到 200 TB。
Spotify 基于 Ray Data 构建的新 ML 平台用于批量推理
Sewer AI 使用 Ray Data 将视频上的物体检测速度提高了 3 倍

ML训练的预处理和摄取#

使用 Ray Data 以流式方式加载和预处理数据，用于分布式机器学习训练管道。分布式训练的关键支持功能包括：

快速内存外恢复
异构集群支持
在分布式数据集迭代期间没有丢弃行

Ray Data 作为从存储或 ETL 管道输出到 Ray 中的分布式应用和库的最后一英里桥梁。用于非结构化数据处理。有关如何使用 Ray Data 进行预处理和为机器学习训练摄取数据的更多详细信息，请参阅机器学习训练的数据加载。

Ray Data 与其他用于机器学习训练摄取的解决方案相比如何？#

ML 训练摄取案例研究#

Pinterest 使用 Ray Data 进行模型训练的最后阶段数据处理。
DoorDash 使用 Ray Data 提升模型训练
Instacart 在 Ray Data 上构建分布式机器学习模型训练
Predibase 使用 Ray Data 加速模型训练中的图像增强

优云智算