命令行界面参考

TensorZero Evaluations 既可通过命令行界面(CLI)工具使用，也可通过TensorZero用户界面访问。

使用方法

我们提供了一个tensorzero/evaluations Docker镜像以便于使用。

我们强烈推荐使用TensorZero Evaluations CLI配合Docker Compose来简化操作。

services:
  evaluations:
    profiles: [evaluations] # this service won't run by default with `docker compose up`
    image: tensorzero/evaluations
    volumes:
      - ./config:/app/config:ro
    environment:
      - OPENAI_API_KEY=${OPENAI_API_KEY:?Environment variable OPENAI_API_KEY must be set.}
      # ... and any other relevant API credentials ...
      - TENSORZERO_CLICKHOUSE_URL=http://chuser:chpassword@clickhouse:8123/tensorzero
    extra_hosts:
      - "host.docker.internal:host-gateway"
    depends_on:
      clickhouse:
        condition: service_healthy

docker compose run --rm evaluations \
    --evaluation-name haiku_eval \
    --dataset-name haiku_dataset \
    --variant-name gpt_4o \
    --concurrency 5

Building from Source

如有需要，您可以从源代码构建TensorZero评估命令行工具。具体操作指南请参阅我们的GitHub仓库。

推理缓存

TensorZero Evaluations 采用推理缓存技术来提升推理速度并降低成本。

默认情况下，它将从推理缓存中读取并写入数据。很快，您将能够自定义此行为。

环境变量

`TENSORZERO_CLICKHOUSE_URL`

示例： TENSORZERO_CLICKHOUSE_URL=http://chuser:chpassword@localhost:8123/database_name
必填项： 是

该环境变量用于指定您的ClickHouse数据库URL。

模型供应商凭证

示例： OPENAI_API_KEY=sk-...
必填: 否

如果您使用的是外部TensorZero网关（参见下方的--gateway-url参数），则无需向评估工具提供这些凭据。

如果您使用的是内置网关（未使用--gateway-url标志），则必须提供与网关相同的凭据。更多信息请参阅集成。

命令行参数

`--config-file PATH`

示例： --config-file /path/to/tensorzero.toml
必填： 否（默认：./config/tensorzero.toml）

此标志指定TensorZero配置文件的路径。您应在整个项目中使用相同的配置文件。

`--concurrency N`

示例： --concurrency 5
必填： 否（默认值：1）

此标志指定在评估期间TensorZero推理请求的最大并发数。

`--dataset-name NAME` (`-d`)

示例： --dataset-name my_dataset
必填项： 是

此标志指定用于评估的数据集。数据集应存储在您的ClickHouse数据库中。

`--evaluation-name NAME` (`-e`)

示例： --evaluation-name my_evaluation
必填项： 是

此标志指定要运行的评估名称，该名称在您的TensorZero配置文件中定义。

`--format FORMAT` (`-f`)

选项： pretty, jsonl
示例： --format jsonl
必填： 否（默认值：pretty）

此标志指定评估CLI工具的输出格式。

如需以编程方式处理评估结果，可使用jsonl格式。

`--gateway-url URL`

示例： --gateway-url http://localhost:3000
必填： 否（默认值：无）

如果提供此标志，评估工具将使用外部TensorZero网关处理推理请求。

如果不提供此标志，评估工具将使用内置的TensorZero网关。这种情况下，评估工具需要与网关相同的访问凭证。更多信息请参阅集成文档。

`--inference-cache MODE`

选项： on, read_only, write_only, off
示例： --inference-cache read_only
必填： 否（默认值：on）

此标志指定推理缓存的行为。详情请参阅推理缓存获取更多信息。

`--variant-name NAME` (`-v`)

此标志指定要评估的变体。变体名称应存在于您的TensorZero配置文件中。

退出状态

评估过程结束时，如果评估成功则返回状态码0，如果评估失败则返回状态码1。

如果为任何评估器配置了cutoff阈值，当某个评估器的平均分数低于其阈值时，评估将失败。

命令行界面参考

使用方法

推理缓存

环境变量

TENSORZERO_CLICKHOUSE_URL

模型供应商凭证

命令行参数

--config-file PATH

--concurrency N

--dataset-name NAME (-d)

--evaluation-name NAME (-e)

--format FORMAT (-f)

--gateway-url URL

--inference-cache MODE

--variant-name NAME (-v)