跳到主要内容

agentchat.contrib.agent_eval.agent_eval

generate_criteria

def generate_criteria(llm_config: Optional[Union[Dict, Literal[False]]] = None,
task: Task = None,
additional_instructions: str = "",
max_round=2,
use_subcritic: bool = False)

创建用于评估给定任务实用性的标准列表。

参数:

  • llm_config 字典或布尔值 - llm推理配置。
  • task 任务 - 要评估的任务。
  • additional_instructions str - 标准代理的额外说明。
  • max_round int - 运行对话的最大轮数。
  • use_subcritic bool - 是否使用subcritic代理来生成子标准。

返回:

  • list - 用于评估给定任务效用的一系列Criterion对象。

量化标准

def quantify_criteria(llm_config: Optional[Union[Dict, Literal[False]]] = None,
criteria: List[Criterion] = None,
task: Task = None,
test_case: str = "",
ground_truth: str = "")

使用提供的标准量化系统的性能。

参数:

  • llm_config 字典或布尔值 - llm推理配置。
  • criteria [标准] - 用于评估特定任务效用的一系列标准。
  • task 任务 - 要评估的任务。
  • test_case str - 要评估的测试用例。
  • ground_truth str - 测试用例的基本事实。

返回:

  • dict - 一个字典,其中键是标准,值是根据每个标准的接受值评估的性能。