Benchmark

CL-Bench

LLM 智能体持续学习基准测试框架

CL-Bench:LLM 智能体持续学习基准

CL-Bench 是由 Arc Computer 开发的基准测试框架,专门用于评估 LLM 智能体在有状态环境中的持续学习能力。与搜索或问答类基准不同,它关注智能体在复杂多轮工作流中的可靠性、适应性和性能表现。

核心测试场景:CRM 工作流

当前实现以企业级 CRM 系统为测试环境,包含:

  • 完整实体模型:客户、联系人、商机、报价、合同、文档、笔记
  • 严格约束验证:外键关系、枚举约束、业务逻辑守护
  • 真实业务规则:重复邮箱拒绝、非负金额、关系完整性校验

数据集规模

复杂度轮数占比场景
简单1-3 轮~23%单实体操作
中等4-6 轮~52%跨实体工作流
复杂7-10+ 轮~25%多步骤状态变更

1,200+ 多轮对话,其中 400 条为标准化评估子集(seed=42)。

评估维度

  • 工具执行验证:正确调用工具及参数
  • 响应质量评估:LLM Judge 评判自然语言回复质量
  • 状态追踪能力:跨多轮操作追踪持久状态变更
  • 实体关系维护:保持外键引用和关联完整性

支持模型

Claude Sonnet 4.5、GPT-4.1、GPT-4.1 Mini,以及自定义 Agent。

见:Arc-Computer/CL-Bench


Copyright © 2024 Lionad - CC-BY-NC-CD-4.0