跳至内容

命令行界面参考

TensorZero Evaluations 既可通过命令行界面(CLI)工具使用,也可通过TensorZero用户界面访问。

使用方法

我们提供了一个tensorzero/evaluations Docker镜像以便于使用。

我们强烈推荐使用TensorZero Evaluations CLI配合Docker Compose来简化操作。

docker-compose.yml
services:
evaluations:
profiles: [evaluations] # this service won't run by default with `docker compose up`
image: tensorzero/evaluations
volumes:
- ./config:/app/config:ro
environment:
- OPENAI_API_KEY=${OPENAI_API_KEY:?Environment variable OPENAI_API_KEY must be set.}
# ... and any other relevant API credentials ...
- TENSORZERO_CLICKHOUSE_URL=http://chuser:chpassword@clickhouse:8123/tensorzero
extra_hosts:
- "host.docker.internal:host-gateway"
depends_on:
clickhouse:
condition: service_healthy
终端窗口
docker compose run --rm evaluations \
--evaluation-name haiku_eval \
--dataset-name haiku_dataset \
--variant-name gpt_4o \
--concurrency 5
Building from Source

如有需要,您可以从源代码构建TensorZero评估命令行工具。具体操作指南请参阅我们的GitHub仓库

推理缓存

TensorZero Evaluations 采用 推理缓存 技术来提升推理速度并降低成本。

默认情况下,它将从推理缓存中读取并写入数据。 很快,您将能够自定义此行为。

环境变量

TENSORZERO_CLICKHOUSE_URL

  • 示例: TENSORZERO_CLICKHOUSE_URL=http://chuser:chpassword@localhost:8123/database_name
  • 必填项:

该环境变量用于指定您的ClickHouse数据库URL。

模型供应商凭证

  • 示例: OPENAI_API_KEY=sk-...
  • 必填:

如果您使用的是外部TensorZero网关(参见下方的--gateway-url参数),则无需向评估工具提供这些凭据。

如果您使用的是内置网关(未使用--gateway-url标志),则必须提供与网关相同的凭据。 更多信息请参阅集成

命令行参数

--config-file PATH

  • 示例: --config-file /path/to/tensorzero.toml
  • 必填: 否(默认:./config/tensorzero.toml

此标志指定TensorZero配置文件的路径。您应在整个项目中使用相同的配置文件。

--concurrency N

  • 示例: --concurrency 5
  • 必填: 否(默认值:1

此标志指定在评估期间TensorZero推理请求的最大并发数。

--dataset-name NAME (-d)

  • 示例: --dataset-name my_dataset
  • 必填项:

此标志指定用于评估的数据集。 数据集应存储在您的ClickHouse数据库中。

--evaluation-name NAME (-e)

  • 示例: --evaluation-name my_evaluation
  • 必填项:

此标志指定要运行的评估名称,该名称在您的TensorZero配置文件中定义。

--format FORMAT (-f)

  • 选项: pretty, jsonl
  • 示例: --format jsonl
  • 必填: 否(默认值:pretty

此标志指定评估CLI工具的输出格式。

如需以编程方式处理评估结果,可使用jsonl格式。

--gateway-url URL

  • 示例: --gateway-url http://localhost:3000
  • 必填: 否(默认值:无)

如果提供此标志,评估工具将使用外部TensorZero网关处理推理请求。

如果不提供此标志,评估工具将使用内置的TensorZero网关。 这种情况下,评估工具需要与网关相同的访问凭证。 更多信息请参阅集成文档

--inference-cache MODE

  • 选项: on, read_only, write_only, off
  • 示例: --inference-cache read_only
  • 必填: 否(默认值:on

此标志指定推理缓存的行为。 详情请参阅推理缓存获取更多信息。

--variant-name NAME (-v)

此标志指定要评估的变体。 变体名称应存在于您的TensorZero配置文件中。

退出状态

评估过程结束时,如果评估成功则返回状态码0,如果评估失败则返回状态码1

如果为任何评估器配置了cutoff阈值,当某个评估器的平均分数低于其阈值时,评估将失败。