agentchat.contrib.agent_eval.agent_eval
generate_criteria
def generate_criteria(llm_config: Optional[Union[Dict, Literal[False]]] = None,
task: Task = None,
additional_instructions: str = "",
max_round=2,
use_subcritic: bool = False)
创建用于评估给定任务实用性的标准列表。
参数:
llm_config
字典或布尔值 - llm推理配置。task
任务 - 要评估的任务。additional_instructions
str - 标准代理的额外说明。max_round
int - 运行对话的最大轮数。use_subcritic
bool - 是否使用subcritic代理来生成子标准。
返回:
list
- 用于评估给定任务效用的一系列Criterion对象。
量化标准
def quantify_criteria(llm_config: Optional[Union[Dict, Literal[False]]] = None,
criteria: List[Criterion] = None,
task: Task = None,
test_case: str = "",
ground_truth: str = "")
使用提供的标准量化系统的性能。
参数:
llm_config
字典或布尔值 - llm推理配置。criteria
[标准] - 用于评估特定任务效用的一系列标准。task
任务 - 要评估的任务。test_case
str - 要评估的测试用例。ground_truth
str - 测试用例的基本事实。
返回:
dict
- 一个字典,其中键是标准,值是根据每个标准的接受值评估的性能。