命令行界面参考
TensorZero Evaluations 既可通过命令行界面(CLI)工具使用,也可通过TensorZero用户界面访问。
使用方法
我们提供了一个tensorzero/evaluations
Docker镜像以便于使用。
我们强烈推荐使用TensorZero Evaluations CLI配合Docker Compose来简化操作。
services: evaluations: profiles: [evaluations] # this service won't run by default with `docker compose up` image: tensorzero/evaluations volumes: - ./config:/app/config:ro environment: - OPENAI_API_KEY=${OPENAI_API_KEY:?Environment variable OPENAI_API_KEY must be set.} # ... and any other relevant API credentials ... - TENSORZERO_CLICKHOUSE_URL=http://chuser:chpassword@clickhouse:8123/tensorzero extra_hosts: - "host.docker.internal:host-gateway" depends_on: clickhouse: condition: service_healthy
docker compose run --rm evaluations \ --evaluation-name haiku_eval \ --dataset-name haiku_dataset \ --variant-name gpt_4o \ --concurrency 5
Building from Source
如有需要,您可以从源代码构建TensorZero评估命令行工具。具体操作指南请参阅我们的GitHub仓库。
推理缓存
TensorZero Evaluations 采用 推理缓存 技术来提升推理速度并降低成本。
默认情况下,它将从推理缓存中读取并写入数据。 很快,您将能够自定义此行为。
环境变量
TENSORZERO_CLICKHOUSE_URL
- 示例:
TENSORZERO_CLICKHOUSE_URL=http://chuser:chpassword@localhost:8123/database_name
- 必填项: 是
该环境变量用于指定您的ClickHouse数据库URL。
模型供应商凭证
- 示例:
OPENAI_API_KEY=sk-...
- 必填: 否
如果您使用的是外部TensorZero网关(参见下方的--gateway-url
参数),则无需向评估工具提供这些凭据。
如果您使用的是内置网关(未使用--gateway-url
标志),则必须提供与网关相同的凭据。
更多信息请参阅集成。
命令行参数
--config-file PATH
- 示例:
--config-file /path/to/tensorzero.toml
- 必填: 否(默认:
./config/tensorzero.toml
)
此标志指定TensorZero配置文件的路径。您应在整个项目中使用相同的配置文件。
--concurrency N
- 示例:
--concurrency 5
- 必填: 否(默认值:
1
)
此标志指定在评估期间TensorZero推理请求的最大并发数。
--dataset-name NAME
(-d
)
- 示例:
--dataset-name my_dataset
- 必填项: 是
此标志指定用于评估的数据集。 数据集应存储在您的ClickHouse数据库中。
--evaluation-name NAME
(-e
)
- 示例:
--evaluation-name my_evaluation
- 必填项: 是
此标志指定要运行的评估名称,该名称在您的TensorZero配置文件中定义。
--format FORMAT
(-f
)
- 选项:
pretty
,jsonl
- 示例:
--format jsonl
- 必填: 否(默认值:
pretty
)
此标志指定评估CLI工具的输出格式。
如需以编程方式处理评估结果,可使用jsonl
格式。
--gateway-url URL
- 示例:
--gateway-url http://localhost:3000
- 必填: 否(默认值:无)
如果提供此标志,评估工具将使用外部TensorZero网关处理推理请求。
如果不提供此标志,评估工具将使用内置的TensorZero网关。 这种情况下,评估工具需要与网关相同的访问凭证。 更多信息请参阅集成文档。
--inference-cache MODE
- 选项:
on
,read_only
,write_only
,off
- 示例:
--inference-cache read_only
- 必填: 否(默认值:
on
)
此标志指定推理缓存的行为。 详情请参阅推理缓存获取更多信息。
--variant-name NAME
(-v
)
此标志指定要评估的变体。 变体名称应存在于您的TensorZero配置文件中。
退出状态
评估过程结束时,如果评估成功则返回状态码0
,如果评估失败则返回状态码1
。
如果为任何评估器配置了cutoff
阈值,当某个评估器的平均分数低于其阈值时,评估将失败。