跳到主要内容

agentchat.contrib.agent_eval.agent_eval

generate_criteria

def generate_criteria(llm_config: Optional[Union[Dict, Literal[False]]] = None,
                      task: Task = None,
                      additional_instructions: str = "",
                      max_round=2,
                      use_subcritic: bool = False)

创建用于评估给定任务实用性的标准列表。

参数:

llm_config 字典或布尔值 - llm推理配置。
task 任务 - 要评估的任务。
additional_instructions str - 标准代理的额外说明。
max_round int - 运行对话的最大轮数。
use_subcritic bool - 是否使用subcritic代理来生成子标准。

返回:

list - 用于评估给定任务效用的一系列Criterion对象。

量化标准

def quantify_criteria(llm_config: Optional[Union[Dict, Literal[False]]] = None,
                      criteria: List[Criterion] = None,
                      task: Task = None,
                      test_case: str = "",
                      ground_truth: str = "")

使用提供的标准量化系统的性能。

参数:

llm_config 字典或布尔值 - llm推理配置。
criteria [标准] - 用于评估特定任务效用的一系列标准。
task 任务 - 要评估的任务。
test_case str - 要评估的测试用例。
ground_truth str - 测试用例的基本事实。

返回:

dict - 一个字典，其中键是标准，值是根据每个标准的接受值评估的性能。

generate_criteria
quantify_criteria

优云智算