实验跟踪#

备注

本指南适用于所有定义自定义训练循环的训练器。这包括 TorchTrainer 和 TensorflowTrainer。

大多数实验跟踪库都可以开箱即用地与 Ray Train 一起工作。本指南提供了如何设置代码的说明，以便您喜欢的实验跟踪库可以用于 Ray Train 的分布式训练。指南的末尾列出了常见错误，以帮助调试设置。

以下伪代码展示了如何在 Ray Train 中使用原生实验跟踪库调用：

from ray.train.torch import TorchTrainer
from ray.train import ScalingConfig

def train_func():
    # Training code and native experiment tracking library calls go here.

scaling_config = ScalingConfig(num_workers=2, use_gpu=True)
trainer = TorchTrainer(train_func, scaling_config=scaling_config)
result = trainer.fit()

Ray Train 允许你通过自定义 train_func 函数内部的跟踪逻辑来使用本地的实验跟踪库。通过这种方式，你可以将实验跟踪逻辑移植到 Ray Train 中，只需进行最小的改动。

入门指南#

让我们从一些代码片段开始。

以下示例使用了 Weights & Biases (W&B) 和 MLflow，但它可以适应其他框架。

W&B

import ray
from ray import train
import wandb

# Step 1
# This ensures that all ray worker processes have `WANDB_API_KEY` set.
ray.init(runtime_env={"env_vars": {"WANDB_API_KEY": "your_api_key"}})

def train_func():
    # Step 1 and 2
    if train.get_context().get_world_rank() == 0:
        wandb.init(
            name=...,
            project=...,
            # ...
        )

    # ...
    loss = optimize()
    metrics = {"loss": loss}

    # Step 3
    if train.get_context().get_world_rank() == 0:
        wandb.log(metrics)

    # ...

    # Step 4
    # Make sure that all loggings are uploaded to the W&B backend.
    if train.get_context().get_world_rank() == 0:
        wandb.finish()

MLflow

from ray import train
import mlflow

# Run the following on the head node:
# $ databricks configure --token
# mv ~/.databrickscfg YOUR_SHARED_STORAGE_PATH
# This function assumes `databricks_config_file` is specified in the Trainer's `train_loop_config`.
def train_func(config):
    # Step 1 and 2
    os.environ["DATABRICKS_CONFIG_FILE"] = config["databricks_config_file"]
    mlflow.set_tracking_uri("databricks")
    mlflow.set_experiment_id(...)
    mlflow.start_run()

    # ...

    loss = optimize()

    metrics = {"loss": loss}
    # Only report the results from the first worker to MLflow
    to avoid duplication

    # Step 3
    if train.get_context().get_world_rank() == 0:
        mlflow.log_metrics(metrics)

小技巧

分布式训练与非分布式训练的一个主要区别在于，在分布式训练中，多个进程并行运行，并且在某些设置下它们具有相同的结果。如果所有进程都将结果报告给跟踪后端，您可能会得到重复的结果。为了解决这个问题，Ray Train 允许您仅对 rank 0 的 worker 应用日志记录逻辑，使用以下方法：ray.train.get_context().get_world_rank()。

from ray import train
def train_func():
    ...
    if train.get_context().get_world_rank() == 0:
        # Add your logging logic only for rank0 worker.
    ...

在 train_func 中与实验跟踪后端的交互有4个逻辑步骤：

设置与跟踪后端的连接
配置并启动运行
日志指标
完成运行

每个步骤的更多细节如下。

步骤 1：连接到您的跟踪后端#

首先，决定使用哪个跟踪后端：W&B、MLflow、TensorBoard、Comet 等。如果适用，请确保在每个训练工作节点上正确设置凭据。

W&B

W&B 提供在线和离线两种模式。

在线

对于在线模式，由于您登录到 W&B 的跟踪服务，请确保在 train_func 中设置了凭证。有关更多信息，请参阅设置凭证。

# This is equivalent to `os.environ["WANDB_API_KEY"] = "your_api_key"`
wandb.login(key="your_api_key")

离线

对于离线模式，由于您记录到本地文件系统，请将离线目录指向所有节点都可以写入的共享存储路径。有关更多信息，请参阅设置共享文件系统。

os.environ["WANDB_MODE"] = "offline"
wandb.init(dir="some_shared_storage_path/wandb")

MLflow

MLflow 提供本地和远程（例如，到 Databrick 的 MLflow 服务）模式。

本地

对于本地模式，由于您记录到本地文件系统，请将离线目录指向所有节点都可以写入的共享存储路径。更多信息请参见设置共享文件系统。

mlflow.start_run(tracking_uri="file:some_shared_storage_path/mlruns")

远程，由Databricks托管

确保所有节点都能访问Databricks配置文件。更多信息请参见设置凭证。

# The MLflow client looks for a Databricks config file
# at the location specified by `os.environ["DATABRICKS_CONFIG_FILE"]`.
os.environ["DATABRICKS_CONFIG_FILE"] = config["databricks_config_file"]
mlflow.set_tracking_uri("databricks")
mlflow.start_run()

设置凭证#

请参考每个跟踪库的API文档以设置凭证。这一步通常涉及设置环境变量或访问配置文件。

将环境变量凭据传递给训练工作者的最简单方法是通过运行时环境，您可以使用以下代码进行初始化：

import ray
# This makes sure that training workers have the same env var set
ray.init(runtime_env={"env_vars": {"SOME_API_KEY": "your_api_key"}})

要访问配置文件，请确保所有节点都可以访问配置文件。一种方法是设置共享存储。另一种方法是在每个节点中保存一个副本。

设置共享文件系统#

设置一个网络文件系统，使集群中的所有节点都可以访问。例如，AWS EFS 或 Google Cloud Filestore。

步骤 2：配置并启动运行#

这一步通常包括为运行选择一个标识符，并将其与一个项目关联。请参阅跟踪库的文档以了解语义。

小技巧

在进行带有自动恢复的 容错训练 时，使用一致的ID来配置所有逻辑上属于同一训练运行的跟踪运行。获取唯一ID的一种方法是使用以下方法：ray.train.get_context().get_trial_id()。

import ray
from ray.train import ScalingConfig, RunConfig, FailureConfig
from ray.train.torch import TorchTrainer

def train_func():
    if ray.train.get_context().get_world_rank() == 0:
        wandb.init(id=ray.train.get_context().get_trial_id())
    ...

trainer = TorchTrainer(
    train_func,
    run_config=RunConfig(failure_config=FailureConfig(max_failures=3))
)

trainer.fit()

步骤 3：记录指标#

你可以在 train_func 中自定义如何记录参数、指标、模型或媒体内容，就像在非分布式训练脚本中一样。你也可以使用特定跟踪框架与特定训练框架的原生集成。例如，mlflow.pytorch.autolog()、lightning.pytorch.loggers.MLFlowLogger 等。

步骤 4：完成运行#

此步骤确保所有日志都同步到跟踪服务。根据各种跟踪库的实现，有时日志会首先本地缓存，并且仅以异步方式同步到跟踪服务。完成运行确保所有日志在训练工作进程退出时都已同步。

W&B

# https://docs.wandb.ai/ref/python/finish
wandb.finish()

MLflow

# https://mlflow.org/docs/1.2.0/python_api/mlflow.html
mlflow.end_run()

彗星

# https://www.comet.com/docs/v2/api-and-sdk/python-sdk/reference/Experiment/#experimentend
Experiment.end()

示例#

以下是 PyTorch 和 PyTorch Lightning 的可运行示例。

PyTorch#

PyTorch Lightning#

在使用 Ray Train 的 TorchTrainer 时，您可以在 PyTorch Lightning 中使用 W&B、CometML、MLFlow 和 Tensorboard 的原生日志记录集成。

以下示例将引导您完成整个过程。这里的代码是可运行的。

常见错误#

缺少凭证#

我已经调用了 `wandb login` cli，但仍然收到

wandb: ERROR api_key not configured (no-tty). call wandb.login(key=[your_api_key]).

这可能是因为wandb凭证在worker节点上没有正确设置。请确保你运行了 wandb.login 或者将 WANDB_API_KEY 传递给每个训练函数。更多详情请参见设置凭证。

缺少配置#

我已经运行了 `databricks configure`，但仍然遇到

databricks_cli.utils.InvalidConfigurationError: You haven't configured the CLI yet!

这通常是由于运行 databricks configure ，它仅在头节点上生成 ~/.databrickscfg 文件。将此文件移动到共享位置或将其复制到每个节点。更多详情请参见设置凭证。