agentchat.contrib.agent_eval.agent_eval
generate_criteria
def generate_criteria(llm_config: Optional[Union[Dict, Literal[False]]] = None,
task: Task = None,
additional_instructions: str = "",
max_round=2,
use_subcritic: bool = False)
创建用于评估给定任务实用性的标准列表。
参数:
llm_config字典或布尔值 - llm推理配置。task任务 - 要评估的任务。additional_instructionsstr - 标准代理的额外说明。max_roundint - 运行对话的最大轮数。use_subcriticbool - 是否使用subcritic代理来生成子标准。
返回:
list- 用于评估给定任务效用的一系列Criterion对象。
量化标准
def quantify_criteria(llm_config: Optional[Union[Dict, Literal[False]]] = None,
criteria: List[Criterion] = None,
task: Task = None,
test_case: str = "",
ground_truth: str = "")
使用提供的标准量化系统的性能。
参数:
llm_config字典或布尔值 - llm推理配置。criteria[标准] - 用于评估特定任务效用的一系列标准。task任务 - 要评估的任务。test_casestr - 要评估的测试用例。ground_truthstr - 测试用例的基本事实。
返回:
dict- 一个字典,其中键是标准,值是根据每个标准的接受值评估的性能。